Estadística, el lenguaje de la Ciencia de datos

Al escuchar “el lenguaje de la ciencia de datos” quizá venga a nuestra mente R&Python, pero no, eso es ver la ciencia de datos desde un punto de vista operativo. El lenguaje de la ciencia de datos es la estadística y en este post expondré algunos criterios para dicha afirmación

Que es el lenguaje sino una forma de comunicarnos entre nosotros, una forma de hacer que los demás nos entiendan y viceversa; la estadística es a la ciencia de datos lo que el lenguaje a nosotros, ¿por qué?

Necesitas estadística para evaluar los modelos

Asumamos que quieres aplicar ciencia de datos y has visto cursos que te ofrecen ser experto en 40 horas, pues si bien hay frameworks como caret, tidymodels en R o keras/Tensorflow, scikitlearn en Python que facilitan mucho la producción de modelos precisos, dependiendo del modelo siempre se necesita alguna medida de bondad del mismo; aquí entran conceptos como el error cuadrático medio, la media absoluta de los errores o la función de pérdida logarítmica (que no es más que una transformación de la función de verosimilitud). Todo esto no es más que estadística aplicada, incluso así no tengas la menor idea de la matemática detrás de cada modelo, debes al menos entender estas medidas de bondad para poder escoger la que se debe usar en cada caso.

Bien, he empezado por el final porque creo que es lo más visible (con unos clicks puedes ya tener un modelo y debes saber si es bueno o no); pero ahora sí vamos a ir en orden.

Necesitas conceptos estadísticos básicos antes de empezar a modelar

Si bien en el párrafo anterior se menciona que “puede que no tengas la menor idea de la matemática detrás de cada modelo”, lo cierto es que incluso antes de aplicar un modelo necesitas entender el problema y los datos que tienes; recuerdo haber escuchado que en una datathon el grupo ganador había obtenido la media aritmética a una variable categórica, algo así como obtener la media del Sexo de las personas, ¡de locos!, pero cae perfecto como ejemplo de lo que puede suceder cuando no tienes conceptos estadísticos básicos, en particular el entendimiento de los tipos de variables y el tratamiento que debe tener cada una, saber por ejemplo que una variable categórica por más que se codifique como números no puede ser tratada como tal, entender que cuando quieres hacer cluster mezclando variables numéricas y categóricas nominales debes usar distancias específicas, entender que si tu variable tiene alguna relación con el tiempo entonces necesitas modelar esa interacción de alguna manera (sea una serie temporal, sea un vector autoregresivo, etc).

Si no haces análisis exploratorio de datos, no puedes llamarte científico de datos

Luego de que has entendido el tipo de dato con el que vas a trabajar, una parte fundamental de todo proyecto de ciencia de datos es explorar los datos que tienes; y si bien lo más “espectacular” es ejecutar un modelo sobre imágenes o texto, lo cierto es que la mayoría de los proyectos que te van a llegar como científico de datos contienen datos tabulares recolectados de diferentes formas, sea por medio de un sistema transaccional, un dispositivo sensor o un formulario llenado por personas; en cualquiera de estos casos requieren una completa exploración de los datos para empezar a tener pistas sobre las relaciones existentes, empezar a detectar valores perdidos o valores aberrantes, etc. Y nuevamente, para hacer esto de manera correcta es necesario tener conocimientos de estadística descriptiva, conocer por ejemplo que una medida de tendencia central siempre siempre siempre debería acompañarse de una de dispersión, digamos el conocido par media y desviación estándar; pero saber que eso no es suficiente para tener la película clara, porque son medidas sensibles a valores aberrantes y entonces podrías usar medidas de posición. Vamos, que no es sólo copiar y pegar un código, se debe entender qué mide cada uno de estos estadísticos para interpretarlos bien y de esa manera explorar correctamente nuestro conjunto de datos.

Y al modelar, ¿qué?

Bien, lastimosamente hay mucho copy & paste debajo del sol, así que aquí sólo voy a plantear una pregunta ¿Sabes qué estima el modelo que has escogido? ¿Estás seguro(a) que eso es lo que necesitas estimar para tu problema? ¿Sabes qué minimiza el modelo elegido? ¿Seguro(a) que eso es lo que debe ser minimizado en el problema de negocio que resuelves?

Y bueno, no es de sorprendernos que la estadística sea tan importante para la Ciencia de Datos, al final de cuentas la revista Harvard Business Review definió al científico de datos como una “persona con habilidades estadísticas, computacionales (que puede programar) y de visualización de datos que lo llevan a encontrar los patrones que le servirán a la empresa para «capitalizar» la información recogida”, estadística, visualización de datos, descubrir patrones; tareas de las que la estadística se viene ocupando siglos y hoy se ha visto muy muy beneficiada y potenciada por la ciencia computacional.

Desde Masapp, estas reflexiones las publicamos en conmemoración del Día Mundial de la estadística, te invitamos a seguirnos en nuestras redes sociales y revisar nuestros otros posts
TW: @MassapData
FB: /MasappEC
LinkedIN: @Masapp

0 comentarios

Dejar un comentario

¿Quieres unirte a la conversación?
Siéntete libre de contribuir!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *