#Cuéntalo – La Visualización

El movimiento #Cuéntalo vió la luz una mañana a fines de Abril de 2018, invitando a las mujeres a compartir en Twitter las experiencias sufridas por la violencia machista. En pocos días el movimiento generó más de dos millones y medio de tuits y retuits de historias contadas por sus protagonistas.

Los archiveros Vicenç Ruiz y Aniol María recogieron los tuits en tiempo real, y junto con la periodista Karma Peiró vinieron a BSC a hablar de cómo podíamos estudiar y visualizar este dataset.

Los tuits van desde lo incómodo hasta lo desgarrador, un relato en primera persona detrás del otro, ocasionalmente sacudidos por alguna mujer que lo cuenta por otra que no tiene ordenador, que no lo quiere contar, o que no puede porque fue asesinada.

Los tuits son muchos, y cada uno de ellos es importante. Nuestra meta era estudiarlos estadísticamente y visualizarlos para transmitir la impactante magnitud del fenómeno, intentando respetar a la vez la identidad única de cada relato. Cristina Fallarás, la periodista que comenzó e impulsó el movimiento viral y con la que empezamos a colaborar luego en el proyecto, nos agregó una meta más: Así como #Cuéntalo, ella esperaba que la visualización golpeara e impresionara, pero que siguiera siendo un espacio seguro. Un lugar sin miedos ni vergüenzas donde las víctimas puedan contar en primera persona  testimonios brutalmente honestos de los horrores vividos, muchas de ellas contándolo por primera vez en su vida. Un lugar donde se pueda decir lo que se oculta, porque aunque pase a diario lo que no se nombra no existe.

A través de una serie de próximos artículos, trataremos de explicar cómo tuvo lugar el proceso de análisis y diseño de la visualización: Desde la recolección limpieza y tratamiento de los datos, hasta la conceptualización de la visualización final. En este primer artículo hablaremos de la visualización de datos.

Los datos

El archivo original que recibimos contenía 2,1 millones de tuits en formato JSON, escritos entre el 27 de Abril y el 12 de Mayo de 2018. A este archivo le faltaban dos días que luego pudimos recuperar parcialmente, hasta llegar a los 2,75 millones de tuits. Cada tuit tiene una gran cantidad de propiedades que hemos analizado en un  estudio estadístico que contaremos en el próximo artículo del blog; aquí sólo nos focalizaremos en lo que utilizamos para la visualización. Una distinción importante es que hubo 160 mil tuits con contenido escrito por usuarias, mientras que el resto de participaciones son retuits y likes. Aunque los retuits son cruciales para dar amplificación al movimiento (y que asumimos como un apoyo implícito), el contenido que queremos visualizar es el de los tuits que llamamos originales.

Estos 160 mil tuits,mayoritariamente anónimos, se pueden descomponer en aquellos que  dan testimonio de sus propias vivencias, las que lo cuentan en nombre de alguien que no se atreve o no puede hacerlo (por ejemplo, porque no tienen internet, o porque fueron asesinadas), y aquellas que expresan palabras de asombro o apoyo al movimiento. Y además de los tuits inclasificables (publicidad, imágenes), un pequeño grupo de trolls o gente haciendo bromas.

Por el otro lado, está el contenido escrito. ¿Que tipo de testimonios se contaron? Por el volúmen de los datos, esto era una tarea muy compleja de realizar, pero sería muy valioso. Al fin y al cabo, entre el 70 ó 80 % de los casos de violación en España no se denuncian. Y este es el punto más importante del movimiento #Cuéntalo: sacar a la luz aquellas cosas que pasan a diario y no están computadas en ningún registro, ya sea por miedo, o peor aún, porque la sociedad no lo cree.

Para poder categorizar los 160 mil tuits originales, 16 personas de nuestro equipo clasificamos manualmente el contenido de 10600 de ellos escogidos aleatoriamente. Como el objetivo era preparar un programa de ordenador que los clasifique automáticamente, utilizamos la mayor cantidad posible de categorías que se pudieran procesar correctamente.

Lo primero que categorizamos fue quién cuenta el tuit: Un testimonio en primera o en segunda persona, una expresión de apoyo o solidaridad, los opositores, y algunos tuits aleatorios (por ejemplo otros idiomas, o gente que hizo publicidad de algunas cosas aprovechando que el hashtag estaba trending). Estas categorías son autoexcluyentes. Desgraciadamente hubo mucha gente que contó su historia con imágenes o capturas de pantalla, pero como no podemos leerlas quedaron en la categoría “otros”.

Después, categorizamos el contenido de los tuits. Encontramos relatos que van desde la sensación de miedo e inseguridad de las mujeres en el día a día, hasta los asesinatos con tortura o tortura reincidente, pasando por todo tipo de agresiones (físicas, verbales, virtuales), incluyendo maltrato y violaciones. Para facilitar el proceso de entrenamiento (más detalles en el próximo artículo) optamos por una categorización lo más simple posible, lamentablemente a costa de la precisión en el lenguaje que nos gustaría tener (o que tendríamos si pudiéramos leer todos los tuits). Aspectos como la frecuencia, duración en el tiempo o grado de crueldad impartido a las víctimas no han sido tenidos en cuenta, no porque descartemos la trascendencia de estos factores, sino por motivos técnicos.

Otros factores que dejamos para profundizar en un próximo estudio son la edad de las víctimas, edad de los agresores, tipo de agresor (desconocido, amigo, familiar…), y muchas cosas más. Nuestra categorización es por ahora imperfecta y mejorable desde varios puntos de vista como el legal o el social, en el que se puede argumentar que ciertos tipos de agresión sexual son violaciones. Discutimos ampliamente y por  mucho tiempo en esta etapa, sobre todo preocupados por no minimizar o simplificar la gravedad de los hechos.

Inicialmente, las categorías que utilizamos fueron: Asesinato, violación, agresión sexual, maltrato, acoso, miedo (mención explícita), y emociones de asco, tristeza, rabia, o indignación. Como ya hemos dicho, esta categorización es imperfecta por simple y aún así resultó demasiado difícil para nuestro algoritmo, así que para la visualización utilizamos una agregación aún mayor con solo tres categorías: agresiones físicas (asesinato, violación, agresión sexual, y maltrato), agresiones no físicas (acoso, miedo), y reacción emocional (asco, rabia, etc.). Sin embargo, el trabajo de categorización manual no fue en vano, ya que por la metodología que utilizamos pudimos estimar los porcentajes de tuits similares que se encuentran en el dataset completo. De los 10632 tuits etiquetados manualmente, 31,03% son en primera persona, 8,91% en segunda persona, 40,18% son tuits de apoyo, 3,12% son tuits en contra del movimiento, y 16,69% son otros. Si extrapolamos estos porcentajes al total de los tuits, tendríamos un error que va desde el 1,5% para los que están en contra, 3% para los testimonios, y casi 6% para los tuits de apoyo.

Dentro de los tuits que son testimonios en primera o en segunda persona (casi el 40%), 3,92% hablan de un asesinato, 5,59% de violación, 11,18% de agresión sexual, 6,27% de maltrato, 14,19% de acoso, 11,78% de miedo, y 19,23% de asco/rabia/tristeza (los porcentajes no suman 100 porque en el mismo tuit se puede hablar de varias cosas). De nuevo, nuestra metodología nos permite extrapolar estos porcentajes al global con unos márgenes de error del 1% en el caso de asesinatos y violaciones, 3% para agresiones, maltratos y acoso, y 6% para las categorías de miedo e indignación.

Está muy estudiado que los seres humanos entienden mejor las frecuencias que los porcentajes, así que escribimos los mismos número de arriba de la siguiente manera:

Concluimos esta sección comentando que nuestro algoritmo fue capaz de etiquetar los tuits de la base de datos con una precisión del 80% para las categorías de quién escribe (primera o segunda persona, etc.), y con una precisión de alrededor del 70% para la temática de los tuits (las tres categorías simplificadas). En general, bastante bien para el reducido tamaño de los datos de entrada (algoritmos más exactos trabajan con cientos de millones de frases), pero con un error lo suficientemente grande como para esperar que hubiera varios tuits muy mal clasificados. Es decir, en este punto esta predicción es más una buena sugerencia que una conclusión final, e indica que no deberíamos basar la visualización demasiado precisamente en este aspecto.

La visualización

Comenzamos discutiendo imágenes y temas que nos sirvieron de inspiración (recopiladas a lo largo de todo el proceso), a lo que se sumaron bocetos de las ideas que iban surgiendo.

Referencias que combinaban algunas ideas de empatía. Desde la visión de rostros que expresaban tristeza o rebeldía, hasta los representados a base de palabras. En último lugar el abismo entre la zona segura, y la zona de inseguridad, provocando a la vez sentimientos de empatía y magnitud.

 

Visualizaciones de datos de temas relacionados.

Inicialmente teníamos el preconcepto de que habría muchos hilos de conversación y que podríamos representarlos en un árbol como este:

Gráfica de un árbol, pero los datos no tenían esta estructura.

Sin embargo, había mucho más volúmen que conexiones, y no se llegaba a algo visualmente atractivo.

Pensamos entonces que una narrativa lineal en el tiempo mostraría el fenómeno viral y su magnitud. Estos son la cantidad de tuits por minuto (la parte más alta son unos mil) desde el 27 de abril al 13 de mayo:

Jugamos un tiempo con la idea de que parecía la mitad de una onda sonora, el movimiento como un grito que se escuchó en todo el mundo:

Metáfora de onda de sonido: Tu voz se escucha. A la izquierda, una forma de onda real como mock up. A la derecha, los datos reales de #Cuéntalo con esta estética

Pero la metáfora del grito no terminó de convencernos, y la línea temporal nos limitaba la posibilidad de en el futuro permitir que la gente agregue tuits. Era de alguna manera congelar el evento en el tiempo, no permitir que crezca. Esta visualización si que nos permitía incluir la información de la ubicación de los tuits (por país al menos)

Cantidad de tuits por minuto (eje vertical) como función del tiempo, coloreados por país. Notar como el movimiento comienza en España (color rojo) los primeros dos días, y luego salta a latinoamérica, sobre todo en Argentina (verde)

Sin embargo, estas visualizaciones lineales agrupadas perdían la individualidad de cada tuit, algo que era importante conservar.

Para poder acomodar nuevos tuits, comenzamos a explorar representaciones circulares que permitieran periodicidad.

Inspiración inicial para la representación circular. Las referencias externas seleccionadas, contemplan desde una categorización compleja, hasta la representación anidada (a modo de los anillos del tronco de un árbol) para representar los diferentes días el fenómeno. En el tercer ejemplo se combina con una representación espacial (de referencia a los países implicados en el movimiento)

En nuestras primeras pruebas comenzamos poniendo las horas del día alrededor del círculo, y acomodando los tuits desde adentro hacia afuera en orden de llegada. Los resultados con nuestros datos evocan la figura del eclipse o del iris de un ojo humano:

Bocetos intermedios que jugaban con el diámetro (orden de llegada) y el número de tweets (de manera apilada). En algunos de estos ejemplos se puede ver el coloreado por días o por países

Esta representación es muy versátil y permite incorporar otras dimensiones como el país (color) o cantidad de retuits de cada relato, además de permitir explorar los tuits uno por uno.

Representación radial tipo mancha con más espacio en el centro. El color representa los países de origen, y el tamaño la cantidad de retuits de cada tuit.

Para salir de la forma de mancha y aprovechar mejor la ubicación radial de cada punto, probamos dar un poco de estructura ordenando los tuits desde dentro hacia fuera en anillos para cada día, con el tamaño de los anillos fijo o proporcional a la cantidad de tuits de ese dia:

Los resultados son interesantes pero tenían también el problema de que pasaría con tuits nuevos que agregara la gente en el futuro– ¿donde les tocaría estar?


 

En este punto, tuvimos una reunión con Cristina Fallarás que nos devolvió a los orígenes de hacia donde teníamos que orientar el mensaje: #Cuéntalo, además de un evento de impacto social, es un espacio seguro donde las mujeres podían contar su historia. Decidimos entonces usar la coordenada radial para representar de alguna manera esta unión, las mujeres que cuentan en el centro de un corro, con las que las apoyan por alrededor, y el resto del mundo (los contrarios y los aleatorios) por fuera.

Con estos cambios, creamos los primeros bocetos de la solución final:

Bocetos finales en los que se empieza a trabajar con el tiempo en sentido horario y la ubicación de los tweets en las coronas interior y exterior siguiendo la clasificación automática en categorías de “testimonio” (aro central), “apoyo” (segundo aro), y “otros” por fuera.

Nuestro algoritmo de clasificación de quién escribe el tuit nos permitió también una última mejora: Eliminamos de la representación aquellos tuits que estamos al menos 90% seguros de que son aleatorios (como dijimos, tuits que sólo contienen imágenes, tuits con bromas, y hasta gente que aprovechaba la viralidad del hashtag para hacer publicidad). En nuestra visualización, al aplicar este filtro solo nos deja con 100 mil tuits.

Antes de llegar a la representación final, recordemos los diferentes aspectos que queríamos poner de manifiesto a la hora de visualizar los datos:

– La magnitud: Estas cosas ocurren, y más de lo que piensas. Son cifras que deberían alarmarnos, sobre todo porque detrás de los tuits hay todavía muchas historias anónimas de mujeres que aún no se atreven a contarlo.

– La empatía: Esto es algo que probablemente también te ocurrió a ti, o podría ocurrirle en cualquier momento a alguien de tu entorno. Es la empatía lo que nos ayuda a entender el sufrimiento de los otros, su miedo, como un miedo cercano y nos empuja a intervenir y a dejar de callar.

– La diversidad y atrocidad de los crímenes. Asesinatos, violaciones y tortura, delitos contra menores y delitos que vienen de la mano de familiares, amigos, o desconocidos.

Esperanza de que las víctimas encuentren un entorno seguro donde no son juzgadas o cuestionadas, y que esto impulsará a que muchas más lo cuenten. Este entorno seguro se ve reforzado por los mensajes de aquellos que sin haber sido víctimas, denuncian la situación y se enfrentan a los que intentan minimizar la gravedad del asunto o de atenuar el impacto culpando a las propias víctimas de los actos de otros. Solo legitimando el sufrimiento de muchas se podrá reformar la justicia para que refleje lo que ocurre, y así cambiar la sociedad.

Visualización final de #cuéntalo

La visualización final (que se puede ver aquí), después del largo proceso de diseño, se inclinó finalmente por la representación circular para evocar el círculo de seguridad o protección. Nuestra estimación de quién cuenta un tuit nos sirve para representar a los testimonios en el centro o arco interior, de alguna manera “protegidos” por el resto de tweets de apoyo a la causa. Los otros, más ajenos, se acomodan lejos del centro. Cada uno de los tuits (testimoniales o de apoyo) se representan con un punto en el espacio, formando una nube que abruma por su magnitud, dándonos idea de la amplitud y repercusión del fenómeno. La individualidad de cada tweet se conserva gracias a la exploración, que permite ver el contenido de cada relato al pasar el mouse por encima. La representación horaria en el círculo nos recuerda que esto es algo que pasa a todas horas del día, y en todo el mundo. Los colores brillantes, sobre fondo oscuro, representan que hay una luz en la oscuridad. La paleta de color escogida (de blanco a rojo) habla de la violencia del tema, y muestra un hallazgo analítico muy interesante: cada tuit está coloreado de manera independiente de su posición, con los puntos más rojos donde más estimamos que se habla de alguna agresión física y los más blancos de agresiones no físicas u otros. El hallazgo es que la mayor parte de tuits que hablan de agresiones físicas coinciden con los tuits ubicados en el centro por ser testimonios. El círculo central, donde las mujeres cuentan su historia, se tiñe de rojo porque es donde están los relatos más desgarradores.

La leyenda de la visualización intenta ayudar a la audiencia a interpretarla:


Equipo

Desde el BSC trabajaron en este proyecto (en orden alfabético) Sol Bucalo, Luz Calvo, Carlos Carrasco, Fernando Cucchietti, Artur García Saez, Carlos García Calatrava, David García Povedano, Juan Felipe Gómez, Camilo Arcadio González, Guillermo Marín, Irene Meta, Patricio Reyes, Feliu Serra y Diana Fernanda Vélez. Además, para la clasificación colaboraron María Coto y Laura Gutierrez.


 

Epílogo: Otras opciones no exploradas

En el proceso de selección de temas que podíamos visualizar quedaron en el tintero opciones muy importantes, como por ejemplo hablar de la edad de las víctimas: más de tres mil tuits reportan víctimas con una edad inferior a los 18, muchas de ellas hoy son adultas y lo cuentan por primera vez.

O focalizar en aquellos tuits en segunda persona que hablan de una mujer asesinada (10% de los testimonios), y que empiezan o terminan con una frase “Lo cuento yo porque … no puede”. Esta es un ejemplo de posible visualización con todos los nombres que aparecen en esa frase: mujeres asesinadas de las que solo tenemos hoy un relato.

O, con estos nombres, hacer una nube de palabras con el tamaño proporcional a la cantidad de veces que aparecen:

Desigualdad y Crecimiento en el cono sur

Nota: Las gráficas de este artículo se pueden explorar interactivamente y para muchos otros países en este link. El código fuente y los datos están disponibles aqui

Este artículo tiene dos partes, una de comentario sobre las gráficas, y otra de discusión técnica sobre la visualización.

Comentarios:
Hace poco mostré una gráfica sobre la evolución de la economía de Argentina y la desigualdad social. Esta gráfica reproducía una equivalente de Alberto Cairo para Brasil, donde se podía ver que a partir de los gobiernos de Lula (en principio mas de izquierdas) el país crecía y la desigualdad bajaba. La misma tendencia se ve en el gráfico de Argentina a partir de los gobiernos de Kirchner y Fernandez, y quizás desde el interino de Duhalde. Desde el principio de este ejercicio me llamó la atención que ambas tendencias comienzan las dos en 2002, y quería observar la misma gráfica para los países de la zona:

Desigualdad y crecimiento en el cono sur

En esta gráfica he quitado importancia (al sacar contraste de color) a los períodos presidenciales para centrarnos en las tendencias de las curvas. Como cada país tiene un tamaño muy diferente, ponerlos todos en el mismo gráfico no ayuda a ver la tendencia. Probamos entonces una gráfica separada para cada país (Ahora si con mucho color :) :

Pequeños multiples

Creo que se aprecia relativamente bien que si, todos los países del cono sur latinoamericano han mejorado económica y socialmente a partir de 2002. Sin entrar en discusiones de las causas de la tendencia (que requeriría un estudio estadístico riguroso y con una buena base teórica), hay muchos detalles interesantes a comentar:

  • Chile es el único país que ha mantenido una tendencia clara y constante durante todo el período observado, aunque su coeficiente de Gini resulta mas alto que el de Uruguay o Argentina (sin embargo la comparación entre Ginis de diferentes países puede ser muy engañosa, lo mejor es comparar cuando la metodología es la misma).
  • Paraguay, Argentina, y Brasil han sufrido los vaivenes mas importantes a fines de los 90.
  • Bolivia y Paraguay son notablemente mas chicos que los otros países, pero si van a esta página interactiva pueden verificar que toda latinoamérica es muy pequeña y mas desigual que la mayoría de los países desarrollados.

Siento que estas gráficas no son todavía la mejor manera de resaltar la tendencia. Para esto, pensé en una segunda en la cual pintar con un color la dirección del cambio entre un año y el siguiente. Las cuatro direcciones posibles están dadas por si crece o baja tanto el Gini como el PBI. La idea de esta nueva gráfica es que si un grupo de países cambian en la misma dirección se ve como un bloque de color sólido. Este es el resultado:

Grafico de direccion

Estoy conforme con esta nueva gráfica, la tendencia conjunta después de 2002 es bien evidente como una mancha naranja, excepto por la crisis financiera del 2009. Me queda la duda de si no se podría ver o representar al mismo tiempo la magnitud del cambio (no solo la dirección). En algunos casos podría ser importante (por ejemplo Chile tiene algunos años malos entre el 98 y el 2000, pero no tienen nada que ver con las crisis de Argentina del 2001. En esta gráfica se ven iguales, lo cual es malo. Mala gráfica, mala.
Para una tercera y última parte, exploraremos opciones visuales para incluír esta información asi como los períodos presidenciales. No hay promesas de fechas (este post lo prometí en un par de semanas y tardé casi tres meses…)

Como antes, la fuente de datos es el Banco Mundial (esta tabla y esta tabla), y los períodos presidenciales están sacados de aquí.

Discusión técnica:

Tener muchos países juntos hace muy complejo distinguir los períodos presidenciales por color–que es en mi opinión lo que distingue la gráfica original de Alberto Cairo de un simple scatter plot conectado (tal vez lo podemos llamar un Cairo chart?) En este caso bajé la cacofonía de colores a proposito para distinguir solo la dirección de las curvas, pero tal vez podría haber distinguido el período pre-post 2002? Tampoco estaría mal ver si se puede pintar usando una única variable (gobierno de derecha o de izquierda), pero habría que catalogar todos los gobiernos de la base de datos que recolecté (para ayudar ir este repositorio).

La ubicación de las etiquetas en el interactivo es una pesadilla. Literalmente, he soñado con ella. Las gráficas de este post han sido fuertemente estilizadas con Illustrator, pero automáticamente no es nada fácil ubicar etiquetas sin que pisen algo interesante abajo o entre ellas.
Para ayudar, podría hacer que se resaltaran los períodos presidenciales cuando se les pasa por encima, no solo que aparezca la etiqueta.

Las escalas son toda una discusión aparte. Dejé algunas opciones en el interactivo, con los valores por defecto como a mi me gusta ver el gráfico. Pero es cierto que ayuda ver las curvas todas juntas, o al menos todas en la misma escala. Pero a mi lo que me gusta es ver el detalle de cada país, y si se usa una escala única es casi imposible.

La única escala que dejo de lado (porque no me queda sitio en la página para mas opciones) es una isométrica donde el eje x cambie porcentualmete lo mismo que el eje y. Lo mas parecido a esto es la combinación de ver las curvas en un gráfico único, y tomar un año de referencia para ver porcentajes. De pura casualidad, el eje x varía casi un 75%, y el eje y un 60%. Casi.

La lista de presidentes que saqué de internet no es lo que uno cree para algunos países como Alemania, donde el presidente es la cabeza del estado y el canciller o primer ministro es la cabeza del gobierno (el que tiene el verdadero poder, digamos). Me haría falta ayuda para agregar esta información, una vez puesta debería funcionar el gráfico solo (si es que los datos del Banco Mundial están disponibles)

Por último, la gráfica de direcciones: He probado pequeñas líneas bajo los cuadrados para marcar los presidentes, un gradiente de color para marcar intensidad del cambio, y pequeñas flechitas para marcar dirección (en vez de un bloque sólido). Ninguna me satisface mucho, pero me parece que vale la pena seguir probando. ¿Ideas?

Desigualdad y crecimiento económico en Argentina

Antes que nada: No soy pro-Kirchner ni pro-Macri, y honestamente si hoy tuviera que votar en Argentina no se a quién votaría. Esto no es un comentario político real, a mi lo que me gusta es la visualización de datos.

Hace poco leí en profundidad el libro de Alberto Cairo El Arte Funcional, y me atrajo una infográfica muy buena acerca de la evolución de la economía y la desigualdad en Brasil, y me dió curiosidad saber como serían esa gráfica para Argentina. Después de conseguir los números del Banco Mundial (solo conseguí datos a partir de 1986, y solo hasta 2013), reproduje la gráfica en un estilo muy similar pero utilizando los datos para Argentina.

Link al gráfico original

El mío (actualizado mayo/2018):

GiniVsGDP_v5_hasta_2016

La interpretación de la gráfica es que puntos mas arriba representan una distribución mas desigual de los ingresos, mientras que mas a la derecha significa una producción total de riqueza mayor. En palabras de Alberto Cairo, vemos que “un crecimiento del PBI no siempre está acompañado de una reducción de la desigualdad”.

Un par de comentarios técnicos:

Como la gráfica original, para medir la desigualdad uso el coeficiente de Gini. No es una medida perfecta pero es un indicador muy utilizado. Para medir el crecimiento económico decidí usar el producto bruto interno per capita, introduciendo un cambio con respecto a la gráfica original (que usa el producto bruto interno total). Me parece que es un poco mas correcto usar esta gráfica ya que el tamaño de la población cambió bastante en las tres décadas abarcadas por los datos.

Respeté el diseño original de separar los datos en intervalos por presidencias, una decisión de diseño brillante. Sin embargo, creo que como la medición de cada año es para el pasado, y los cambios de presidencia están marcados aproximadamente dentro de ese año, se introduce un poco de ruido y el punto medido no coincide en realidad con la separación de colores perfectamente (a ver si se me ocurre un criterio automático para solucionar esto).

A riesgo de arruinar el increíble trabajo de diseño de Alberto Cairo y sus colaboradores, me tomé la libertad de agregar pequeños recordatorios de eventos económicos importantes de cada año (además de cambiar fonts, colores, anchos de líneas, y otras cosas que hacen que mi gráfica sea claramente peor, por supuesto :).

Comentarios sobre el contenido:

Como en la gráfica original, se puede ver una clara marca o tendencia general muy diferenciada por cada presidente Argentino (incluyendo Menem primera o segunda presidencia).

Mas importante, a partir de 2003, coincidiendo con la entrada de los Kirchner en el poder –y así como en Brasil con la entrada de Lula–, el país crece económicamente y baja la desigualdad de manera sistemática y sin precedentes (excepto por un retroceso coincidiendo con la crisis financiera global). No existen mediciones del índice de Gini a escala del país antes del 86 (o no las encuentro), pero las calculadas para Buenos Aires dan que no se veían niveles de desigualdad tan bajos desde 1984, y eso es un punto bajo especial que solo tenía pareja en 1974 (datos de Gapminder).

Nuevas preguntas que surgen:

La evolución en Brasil es muy similar a la de Argentina. Esto hace que me pregunte cuanto es el efecto de los presidentes en particular (que seguro hay alguno) y del comportamiento económico global y de la región. Para responder esta pregunta me bajé los datos de los países vecinos de Argentina, y voy a crear (tal vez dentro de una o dos semanas) una infográfica mas completa comparando todos los países (que me va a llevar mas esfuerzo porque no es fácil poner en la misma gráfica a Brasil y a Bolivia, por ejemplo). Próximamente por este blog…

Edición posterior:
Repito para responder antes que sigan preguntando: Todos los datos salen del Banco Mundial, de esta tabla esta tabla y de esta otra, excepto por los años 88, 89, y 90 del Gini que están sacados de la estimación de Gapminder.org, que cita al Banco Mundial como su fuente pero probablemente lo sacaron de otro lado. De paso comento que con Gapminder ya se puede hacer la comparación de países de la región, pero no hay información de los períodos presidenciales.

Segunda Edición: actualización con nuevos datos del PBI alternativo

ESTA SECCIÓN HA QUEDADO ALGO INCOHERENTE, VER EDICIÓN POSTERIOR MAS ABAJO

Por un lado me encanta la increíble recepción que ha tenido este artículo, pero por el otro me han llenado ya demasiado la cabeza con el tema de la confiabilidad de los datos del INDEC (y por ende, de los de mi fuente que es el Banco Mundial). Esta desgracia institucional me ha hecho sacar horas de donde no las tengo buscando como incorporar en la gráfica algo de este tema. Aqui está, pero antes, unas (cuantas) palabras.

No estoy contento del todo con el resultado por dos motivos, y ninguno tiene que ver con lo que dicen los datos: (1) Me molesta que la nueva presentación gira la discusión hacia el problema del INDEC y la mentira institucional. La gráfica original de Cairo tiene como tema principal la correlación entre el crecimiento económico y la distribución de la riqueza. Invita a pensar en la personalidad que cada presidencia dió a estas variables, a la comparación entre épocas y a ponerse ansioso y querer saber que le pasa a otros países. Técnicamente hablando, lo que ocurre ahora es que al mostrar dos conjuntos de datos para una misma secuencia, nuestro cerebro automáticamente entra en modo comparación/busqueda de similitud y diferencia, y el tema original se reemplaza por este. Para mitigar este problema resolví usar otro código de color (gris) para esta línea alternativa, intentando mantener la primera historia en una primera capa, y la segunda que aparece cuando hemos ya pasado por la primera. Es un intento de narrativa por capas, o como se llame, pero no se si me salió bien.
(2) Como visualizador de datos, lo mejor del mundo es tener una fuente confiable, regular, o por lo menos completa, de manera que puedo focalizar en construir el mensaje visual, en como se va a leer, en crear estructura gráfica y luego diseñarla, que son las cosas que me apasionan. Cuando los datos vienen “sucios”, como decimos, hay que hacer un buen trabajo de normalización, inspección, etc, lo que llamamos “limpieza”, repasando 17 veces para que no se escape ningún maltrato del dato o error estadístico. En este caso estoy combinando dos fuentes de datos que incluso puede que no sean completamente compatibles, y el resultado es que estoy poniendo juntos en la misma gráfica cosas que no estoy seguro si deberían estarlo (porque no soy un experto). Al final, que si esto fuera un periódico o una publicación con una editorial fuerte, nunca publicaría esta nueva versión, porque técnicamente agrega mas problemas de los que soluciona. Pero como esto es un blog sobre visualización experimental, y aquí la audiencia ha demostrado un altísimo nivel de poder ver las historias y los detalles de la primera versión, voy a dejar la original que me gusta porque tiene menos cosas, y poner aquí la nueva para que sigan discutiendo (la metodología la explico mas abajo):

(aqui estaba la imagen con los datos de ARKLEMS, ver mas abajo)

Con respecto a la fiabilidad de los datos anteriores y de los nuevos. Como comentó uno de los lectores, el mismo Banco Mundial (que usa datos del INDEC) reconoció que era una fuente de datos no confiable a partir del 2007, en especial para los datos de PBI. Sin embargo, a partir del 2014 volvieron a incluír las estadísticas, mencionando que el FMI todavía tiene a Argentina retada por no producir buenos datos, y que en ese contexto “el Banco Mundial también usa fuentes de datos y estimados alternativos para la supervisión de los desarrollos macroeconómicos en Argentina” (traducción mía de la errata de Abril de 2014). No me queda claro de este mensaje si el Banco Mundial solo mira esos datos alternativos, o si los incorpora en sus publicaciones y por lo tanto los datos originales que utilicé ya están corregidos.

Supongamos que no. Me sugirieron usar el indicador de ARKLEMS, creado y mantenido por un grupo de profesores de la UBA. La verdad es que no conozco cuales pueden ser mejores o peores, o si hay mas, asi que vamos a ir con este que tiene un nombre llamativo y fácil de recordar :). Cómo pegarlos? Son fuentes muy dispares en su metodolgía y la salida final, asi que hay procesarlo un poco (lo que mencionaba arriba). Después de darle varias vueltas para ver como juntarlo, decidí que lo mejor (en términos de balancear facilidad de implementación y comprensión con correctitud) fue utilizar el último punto que se considera válido del Banco Mundial (2007) como el punto de empate entre las curvas, y calcular la evolución de ese punto en adelante usando los crecimientos porcentuales año a año reportados en ARKLEMS. O sea, la curva gris que está en el nuevo gráfico se va calculando año a año a partir del año anterior y del cambio registrado en ARKLEMS. Es decir a partir de 2007 no se utilizan más los datos del INDEC.

¿Que cambia? Bueno, como era de esperar, hay menos crecimiento. La crisis del 2008 pegó mas fuerte de lo se veía antes, el crecimiento entre 2009 y 2011 fue grande pero no tanto, y a partir de 2011 se estanca el crecimiento. De cualquier manera la curva sigue mostrando un crecimiento, mas moderado, y más importante, la caída de la desigualdad, ya que este indicador es independiente y nunca dejó de ser aceptado por el Banco Mundial. Un poco sin sorpresas, la tendencia general permanece similar, por lo que la historia contada en la primer versión era básicamente correcta. Es mas, uno de los comentarios estimaba que el PBI final iba a caer cerca de los 9000, muy buen ojo!

Bueno, esa es mi interpretación. Opinen lo que quieran, pero como siempre manteniendo el respeto por favor, que venimos bastante bien.

Por útlimo, vuelvo a repetir que lo que me gusta es la visuaización de datos, y aunque no esté conforme es cierto que esta nueva gráfica me trajo un par de desafíos interesantes en ese sentido. Espero que si un poco falla y nos hace dejar de hablar de que pasó con la economía Argentina, al menos nos lleve a buenas discusiones sobre como recuperar la confiabilidad del INDEC, que sería muy bueno.

Aprovecho para agradecer todos los comentarios, pero por favor por unos días no pidan mas cambios :)

Un saludo

TERCERA EDICION: O sobre como cagarla, y luego reconocerlo. 

El gráfico que presenté originalmente tenía un error mío, interpreté “USD a valores actuales” como USD ajustados por inflación a valores de hoy. Ahora la gráfica es correcta (la que está arriba), con valores USD constantes a 2005. La anterior está mas abajo luego de la discusión de mi error.

A ver, tengo que pedir mil perdones por cometer un error básico. Esta vez los dioses de la estadística me sonrieron y la gráfica no cambia sustancialmente (también porque la tendencia es mas fuerte que la correción), pero es importante reconocer que la cagué y arreglarla. Por si no se nota, me siento mal al respecto.

Mi error, que astutamente reconocieron algunos lectores en sus comentarios, fué interpretar la descripción de los datos “USD a valores actuales” como USD ajustados por inflación a valores actuales. Los valores ajustados siempre se dan en referencia a algún año en concreto, pensé que buenos estos tipos me los dan a valores 2015. Pues no.

La nueva tabla de PBI que estoy usando es esta.

La gráfica correcta está arriba de todo, aquí abajo la primera que hice (solo le he cambiado la leyenda para que no circule mas la original con el error), para comparación.

desigualdadArgentinav2_CORRECT

Dos cosas: 1) Es notable que a pesar de cambiar los números, el comportamiento general de cada una de las presidencias que se veía en la otra curva se mantiene, y 2) Estoy asombrado con como coinciden los porcentajes de crecimiento año a año de la medición independiente de ARKLEMS con los datos del Banco Mundial. ¿Será que están realmente ajustando los datos del INDEC con indicadores alternativos? Para recordar, en esta curva tomo el valor 2007 del Banco Mundial como bueno, y le aplico el crecimiento año a año medido con el ARKLEMS per capita (porque ARKLEMS está en pesos y no quiero ponerme a usar tasas de cambio varias). La otra opción es que el INDEC está publicando bien los números y solo lo ha quedado la mala fama, que sería un primer paso para recuperarla. O por supuesto puede que la metodología de ajuste de ARKLEMS a esta escala no sirva, por ahora no me doy cuenta de como. Si alguien quiere ayudar en eso, bienvenido.