Los datos amigo. Son los datos.

Hay una verdad absoluta en el mundo de los datos y la Inteligencia Artificial. Si no hay datos, no hay algoritmo. Y cuanto más complejo el algoritmo, más datos necesitas.

Da igual Big Data, Small Data, Smart Data… Lo básico y fundamental es contar con datos. Y que estos sean de calidad, por supuesto.

No data. No party.

Sin embargo, los datos son algo tedioso. Aburrido. A nadie le gusta pelearse con conjuntos de datos complejos. Entenderlos. Aprender de ellos. Amarlos.

Es mucho más interesante hablar de algoritmos. Si has puesto en marcha un XGBoost, un Support Vector Machine o la última Red Neuronal GAN. La gran mayoría de «papers» sobre Machine Learning se centran en el tipo de modelo utilizado y en cómo tunear sus parámetros para mejorar los resultados.

Sin embargo, en nuestra experiencia con clientes caemos irremediablemente en la trampa del 80/20. 80 por ciento del tiempo dedicado a trabajar con los datos y solo el 20 por ciento del tiempo a trabajar con los modelos. 

Asumíamos esta regla como un peaje a pagar por trabajar con datos reales. Y por tanto sucios. Muy lejos de las pulcras bases de datos en competiciones de datos y programas de formación en Ciencia de Datos.

Pero hace ya tiempo que nos dimos cuenta de que este trabajo de preparación de los datos no es una penitencia. Sino una gran oportunidad para lograr que el modelo obtenga un gran resultado. 

Entender bien las variables que influyen en el hecho observado, eliminar outliers, corregir etiquetas erróneas… Supone, muchas veces, la diferencia entre un buen modelo y un modelo sobresaliente.

Esta última semana se han dado dos situaciones que refuerzan este punto de vista.

La primera. Hemos entregado el premio al reto de la avispa asiática que publicamos en Kopuru. Los ganadores han conseguido un resultado espectacular. Y cuando les preguntamos cuál fue el enfoque que usaron, su respuesta nos dejó helados: «empezamos con un modelo súper complejo que daba buenos resultados. Sin embargo, a medida que los simplificábamos y utilizábamos sólo los datos relevantes, obteníamos mejores resultados»

Datos clave y un modelo sencillo.

Y la segunda. El profesor Andrew NG ha publicado una competición sobre Inteligencia Artificial basada en los datos. Es decir, cómo mejorar los resultados de un modelo mejorando la calidad de los datos utilizados. Manteniendo fijo el algoritmo.

Parece algo lógico. Pero es rompedor. Supone ir en contra del 99% de las competiciones de datos. 

Siempre me ha gustado estar del lado de la gente que va contracorriente. 

Más aún, si plantean algo con lo que nos topamos en nuestro día a día.

Porque hay una enorme diferencia entre la idea feliz de lo que se podría hacer con la Inteligencia Artificial en tu empresa y, hacerlo realmente.

Entre lo que te gustaría hacer y lo que realmente puedes hacer con los datos con los que cuentas.

Por eso es tan importante rodearte de partners que te ayuden en este proceso. 

Encantados de tener una conversación.

Iñaki Pertusa
Socio en DECIDATA