Estadística, el lenguaje de la Ciencia de datos

Al escuchar “el lenguaje de la ciencia de datos” quizá venga a nuestra mente R&Python, pero no, eso es ver la ciencia de datos desde un punto de vista operativo. El lenguaje de la ciencia de datos es la estadística y en este post expondré algunos criterios para dicha afirmación

Que es el lenguaje sino una forma de comunicarnos entre nosotros, una forma de hacer que los demás nos entiendan y viceversa; la estadística es a la ciencia de datos lo que el lenguaje a nosotros, ¿por qué?

Necesitas estadística para evaluar los modelos

Asumamos que quieres aplicar ciencia de datos y has visto cursos que te ofrecen ser experto en 40 horas, pues si bien hay frameworks como caret, tidymodels en R o keras/Tensorflow, scikitlearn en Python que facilitan mucho la producción de modelos precisos, dependiendo del modelo siempre se necesita alguna medida de bondad del mismo; aquí entran conceptos como el error cuadrático medio, la media absoluta de los errores o la función de pérdida logarítmica (que no es más que una transformación de la función de verosimilitud). Todo esto no es más que estadística aplicada, incluso así no tengas la menor idea de la matemática detrás de cada modelo, debes al menos entender estas medidas de bondad para poder escoger la que se debe usar en cada caso.

Bien, he empezado por el final porque creo que es lo más visible (con unos clicks puedes ya tener un modelo y debes saber si es bueno o no); pero ahora sí vamos a ir en orden.

Necesitas conceptos estadísticos básicos antes de empezar a modelar

Si bien en el párrafo anterior se menciona que “puede que no tengas la menor idea de la matemática detrás de cada modelo”, lo cierto es que incluso antes de aplicar un modelo necesitas entender el problema y los datos que tienes; recuerdo haber escuchado que en una datathon el grupo ganador había obtenido la media aritmética a una variable categórica, algo así como obtener la media del Sexo de las personas, ¡de locos!, pero cae perfecto como ejemplo de lo que puede suceder cuando no tienes conceptos estadísticos básicos, en particular el entendimiento de los tipos de variables y el tratamiento que debe tener cada una, saber por ejemplo que una variable categórica por más que se codifique como números no puede ser tratada como tal, entender que cuando quieres hacer cluster mezclando variables numéricas y categóricas nominales debes usar distancias específicas, entender que si tu variable tiene alguna relación con el tiempo entonces necesitas modelar esa interacción de alguna manera (sea una serie temporal, sea un vector autoregresivo, etc).

Si no haces análisis exploratorio de datos, no puedes llamarte científico de datos

Luego de que has entendido el tipo de dato con el que vas a trabajar, una parte fundamental de todo proyecto de ciencia de datos es explorar los datos que tienes; y si bien lo más “espectacular” es ejecutar un modelo sobre imágenes o texto, lo cierto es que la mayoría de los proyectos que te van a llegar como científico de datos contienen datos tabulares recolectados de diferentes formas, sea por medio de un sistema transaccional, un dispositivo sensor o un formulario llenado por personas; en cualquiera de estos casos requieren una completa exploración de los datos para empezar a tener pistas sobre las relaciones existentes, empezar a detectar valores perdidos o valores aberrantes, etc. Y nuevamente, para hacer esto de manera correcta es necesario tener conocimientos de estadística descriptiva, conocer por ejemplo que una medida de tendencia central siempre siempre siempre debería acompañarse de una de dispersión, digamos el conocido par media y desviación estándar; pero saber que eso no es suficiente para tener la película clara, porque son medidas sensibles a valores aberrantes y entonces podrías usar medidas de posición. Vamos, que no es sólo copiar y pegar un código, se debe entender qué mide cada uno de estos estadísticos para interpretarlos bien y de esa manera explorar correctamente nuestro conjunto de datos.

Y al modelar, ¿qué?

Bien, lastimosamente hay mucho copy & paste debajo del sol, así que aquí sólo voy a plantear una pregunta ¿Sabes qué estima el modelo que has escogido? ¿Estás seguro(a) que eso es lo que necesitas estimar para tu problema? ¿Sabes qué minimiza el modelo elegido? ¿Seguro(a) que eso es lo que debe ser minimizado en el problema de negocio que resuelves?

Y bueno, no es de sorprendernos que la estadística sea tan importante para la Ciencia de Datos, al final de cuentas la revista Harvard Business Review definió al científico de datos como una “persona con habilidades estadísticas, computacionales (que puede programar) y de visualización de datos que lo llevan a encontrar los patrones que le servirán a la empresa para «capitalizar» la información recogida”, estadística, visualización de datos, descubrir patrones; tareas de las que la estadística se viene ocupando siglos y hoy se ha visto muy muy beneficiada y potenciada por la ciencia computacional.

Desde Masapp, estas reflexiones las publicamos en conmemoración del Día Mundial de la estadística, te invitamos a seguirnos en nuestras redes sociales y revisar nuestros otros posts
TW: @MassapData
FB: /MasappEC
LinkedIN: @Masapp

La Inteligencia artificial convierte fotos de Guayaquil, en cuadros de Guayasamín y Kingman.

Con motivo del Bicentenario de Independencia de la ciudad de Guayaquil, hemos decidido usar los datos para ‘revivir’ el estilo de varios pintores ecuatorianos y así rendir tributo a la Perla del Pacífico.

¿Cómo lo hacemos?

La idea es simple, por un lado se enseña a una inteligencia artificial a que dibuje como nuestro pintor seleccionado, para esto se le da cuadros, de tal manera que aprenda ciertos detalles como trazos, la forma de colorear y textura.

En paralelo, se entrena otra IA que aprende las formas básicas de la imagen de sitios emblemáticos, próceres o personajes, para que al final se combinen los dos modelos.

Te invitamos a ver la galería con el resultado.

Estilo Oswaldo Guayasamín

Oswaldo Guayasamín, es un reconocido artista ecuatoriano que durante su carrera abordó temas sensibles para la humanidad como son la crueldad, la injusticia, el dolor y la ternura, a través de una pintura que impacta a quien lo mira por el carácter humanista que refleja. Ref: https://www.turismo.gob.ec/centenario-del-gran-pintor-ecuatoriano-oswaldo-guayasamin/

“Mi pintura es para herir, para arañar y golpear en el corazón de la gente. Para mostrar lo que el Hombre hace en contra del Hombre” — Oswaldo Guayasamín

Image for post
Fragua de Vulcano -> http://www.enciclopediadelecuador.com/historia-del-ecuador/la-fragua-vulcano/
Image for post
José Joaquín de Olmedo -> https://es.wikipedia.org/wiki/Jos%C3%A9_Joaqu%C3%ADn_de_Olmedo

Estilo Eduardo Kingman

Eduardo Kingman Riofrío, conocido como El pintor de las manos, fue un pintor, dibujante, grabador y muralista ecuatoriano, considerado como uno de los maestros del expresionismo y el indigenismo ecuatoriano del siglo XX junto a Oswaldo Guayasamín y Camilo Egas. Ref: https://es.wikipedia.org/wiki/Eduardo_Kingman

Image for post
Image for post
Malecón Simón Bolívar de Guayaquil

Columna de los próceres

El 9 de octubre de 2020, Guayaquil cumplirá 200 años de la gesta independentista, por lo que se rememorarán los hechos importantes que realizaron sus principales líderes.

En el parque Centenario se levanta la Columna de los Próceres, monumento que se construyó en 1914 y se inauguró en 1918 para homenajear a Guayaquil por sus 100 años de independencia. — https://www.eluniverso.com/noticias/2020/06/19/nota/7876992/columna-proceres-obra-que-inmortaliza-lucha-gesta-historica-9

Image for post
Image for post
Image for post
Image for post

Hemiciclo de La Rotonda

El Hemiciclo de la Rotonda (también conocido como Monumento a la Entrevista de Guayaquil o Monumento a Bolívar y San Martín), está ubicado en el Malecón 2000, a orillas del río Guayas, específicamente en la intersección de las avenidas Nueve de Octubre y Malecón Simón Bolívar en el centro urbano de la ciudad. La Rotonda fue inaugurada en 1938.

El monumento fue creado para conmemorar la célebre “Entrevista de Guayaquil”, acontecimiento en el cual los libertadores Simón Bolívar (en representación de la Gran Colombia) y José de San Martín (por el Perú) tuvieron un encuentro en la ciudad el 26 de julio de 1822, con el objetivo de decidir el futuro de la Provincia Libre de Guayaquil y de la independencia sudamericana. — https://es.wikipedia.org/wiki/Hemiciclo_de_la_Rotonda

Image for post
Image for post
Image for post

Las Peñas

Las Peñas es un barrio emblemático de la ciudad de Guayaquil. Es reconocido por su estilo arquitectónico colonial y por ser el lugar donde nació la ciudad. Se encuentra ubicado en las faldas del Cerro Santa Ana y su nombre se debe justamente a la cantidad de peñascos que poseía el cerro1 al momento en que los españoles se asentaron allí, en el siglo XVI. — https://es.wikipedia.org/wiki/Las_Pe%C3%B1as_(Guayaquil)

Image for post
Image for post
Image for post
Image for post

El Faro de Guayaquil, en el Cerro Santa Ana

Construido en el 2002, este emblema de la urbe tiene 18,75 metros de altura y se asienta a una cota de 85,90 metros sobre el nivel del mar. Para llegar al faro, los visitantes deben subir los 444 escalones del cerro en el que, según la historia, nació la Perla del Pacífico

Fuente: https://www.eluniverso.com/guayaquil/2020/06/20/nota/7878234/historia-guayaquil-se-ilumina-faro-cerro

Image for post
Image for post
Image for post
Image for post

Estadios: Capwell y Monumental

Los dos clubes deportivos y equipos de fútbol más populares de Guayaquil, Barcelona y Emelec, nacidos a fines de la década de 1920, en el denominado “Barrio del Astillero”, de ahí que sean conocidos como los equipos del Astillero.

Con ustedes, el estadio Capwell de Emelec y el Monumental de Barcelona:

Image for post
Image for post
Image for post
Image for post

Si bien es cierto los estilos tradicionales de estos artistas podrían diferir del estilo de las imágenes, nuestro ejercicio busca hacer un homenaje a la ciudad uniendo arte y tecnologia.

Vamos a seguir conmemorando a Guayaquil con más fotos de sus momentos, sitios turísticos y personajes, sigan nuestras redes sociales y envíen sus fotos para publicarlas como si fueran pintadas por famosos artistas ecuatorianos.

Twitter -> https://twitter.com/Masappdata

Una IA escribe sobre Guayaquil

Hace poco The Guardian publicó una nota periodística titulado: “Un robot escribió todo este artículo. ¿Estás asustado todavía, humano?” en el que se usaron el algoritmo GTP-3 el cual es hoy el “estado del arte” en cuando a modelos de lenguaje usados para generar texto coherente como si fuese escrito por un humano.

Desde Masapp seguimos conmemorando a nuestra ciudad natal, en esta ocasión tomaremos la idea de The Guardian y haremos que una IA escriba sobre Guayaquil, para esto usaremos GTP-2 que es una versión anterior a GTP-3 (GTP-3 por ahora sólo es accesible para un pequeño grupo de investigadores y socios de openAI).

Para esto usaremos el sitio Write With Transformer, aquí escribiremos el inicio de una frase y usaremos GTP2 para ir completando el párrafo, lastimosamente estos modelos funcionan mejor en inglés así que usaremos ese lenguaje para la interacción.

Empezamos diciéndole: “Guayaquil is the city where you could find”, dejamos que GTP-2 trate de completar el párrafo y el resultado de este primer párrafo fue:

Image for post
Se muestra en negrita lo que la IA escribe

Traducción: Guayaquil es la ciudad donde puedes encontrar la gastronomía más asombrosa del mundo. Este lugar es donde debe comer siempre que tenga antojos de deliciosos mariscos, bistecs, pescado, carne u otros ingredientes deliciosos.

Vamos por un segundo párrafo, en esta ocasión el input para el modelo será el párrafo anterior adicionando “People who live in Guayaquil is known for being” y lo que GTP-2 nos dice es:

Image for post

Traducción del segundo párrafo: “Las personas que viven en Guayaquil se caracterizan por ser gente muy amable, honesta y agradable. También tienen muchas cosas interesantes que ofrecerte si eres un viajero aventurero, como senderismo, exploración, playa, etc.

Les dejamos un video del proceso iterativo, ¡uds pueden jugar también!

Para finalizar, y aquí viene lo más sorprendente, a manera de conclusión iniciamos el cuarto párrafo con: “If you visit this city, surely you will not forget his”, a lo que GTP-2 nos responde “recordando” que antes hablamos de la gastronomía y las personas.

Image for post

Traducción completa: “Guayaquil es la ciudad donde puedes encontrar la gastronomía más asombrosa del mundo. Este lugar es donde debe comer siempre que tenga antojos de deliciosos mariscos, bistecs, pescado, carne u otros ingredientes deliciosos.

Las personas que viven en Guayaquil se caracterizan por ser gente muy amable, honesta y agradable. También tienen muchas cosas interesantes que ofrecerte si eres un viajero aventurero, como senderismo, exploración, playa, etc.

La mayor parte del tiempo el clima es agradable, generalmente hay una brisa y el sol sale durante el día.

Si visitas esta ciudad, seguro que no olvidarás su excelente comida y su hospitalidad.

GTP-2 fue un avance muy importante en el campo del Procesamiento del lenguaje natural presentado en febrero de 2019; OpenAI fue la empresa que desarrolló el algoritmo que usa redes neuronales recurrentes a los que se le alimenta frases y la IA aprende un modelo de lenguaje que entiende la gramática del lenguaje y la relación que hay entre palabras, por ello una vez que se empezó a hablar sobre restaurantes el modelo siguió generando palabras relacionadas a la comida. Esto fue GTP-2, hoy estamos en GTP-3 pero eso lo dejaremos par a un siguiente post.

Síguenos en nuestras redes sociales:
TW: @MassapData
FB: /MasappEC
LinkedIN: @Masapp