Si hablamos de periodismo de datos en los términos en los que hoy día lo entendemos, entonces debemos mirar a The Guardian como el medio internacional pionero en el desarrollo de esta disciplina (que nace entre 2006-2008). Simon Rogers y Paul Bradshaw, miembros del equipo del Datablog, abrieron el camino de una rama del periodismo que bebe, en realidad, de tres disciplinas: la investigación (propia del periodismo), los datos (como registros electrónicos sobre los que trabajar con un ordenador) y la visualización de esos datos.
Empezaremos definiendo Jupyter como un proyecto de programación literaria creado en 2014. Su nombre responde a la conjunción en un solo término de los lenguajes de programación Julia
, Python
y R
(hemos trabajado con los dos últimos). Además de esta composición “lógica”, el nombre supone también un guiño a la figura de Galileo, quien en el siglo XVII descubrió los satélites de Júpiter, dejando registro en sus cuadernos (de nuevo, conexión con los notebooks donde escribimos bloques de texto).
Internet es una red global y física por la que circula la información. Se trata de una red de redes, en tanto que engloba un conjunto de redes interconectadas a escala mundial. Los ordenadores son capaces de comunicarse entre sí por medio de los protocolos de comunicación TCP/IP (una especie de idioma compartido por las computadoras que están integradas en estas redes de Internet).
En íntima relación con la pregunta anterior, cabe destacar que no podemos equiparar o identificar como sinónimos Internet y la web. Si el primero es una red de redes, la web constituye solo una de esas redes. Es un sistema de hipertexto que depende de internet para su funcionamiento.
Una URL es un “localizador de recursos uniformes”. Cuando hablamos de recursos, nos referimos a cualquier sistema de archivo que esté disponible en la web (imágenes, vídeos, páginas webs como tal…). Cada recurso tiene una URL exclusiva; o expresado a la inversa: cada URL hace referencia a un recurso concreto. Si quisiéramos extendernos más en esta reflexión, podríamos apuntar a los elementos que componen la URL: el protocolo, el dominio y la estructura de carpeta del servidor web.
El modelo “cliente-servidor” es una red de comunicaciones, en la que las tareas se reparten entre los proveedores (servidores) y los demandantes (clientes), creándose un flujo de comunicación por el que los clientes realizan una petición y reciben una respuesta por parte del servidor. Para comprender mejor cómo opera este sistema, recurriremos a uno de los ejemplos canónicos: el correo electrónico. El cliente —usuario que abre su mail desde su ordenador— redacta un texto, y al hacer clic en Enviar
contacta al servidor para que este haga llegar sus palabras a la dirección que previamente se haya aportado. Los servidores cuentan con una serie de recursos y aplicaciones que ponen a disposición de los clientes cada vez que son solicitados.
Partimos de la consideración de Excel como una aplicación para visualizar datos tabulados. CSV
es el formato (y extensión: .csv
) de los archivos con los que trabaja Excel. Son archivos que reúnen valores separados por comas (es decir, Comma Separated Values como se extrae de la sigla en inglés). Este formato presenta los datos en una tabla filas y columnas.
Philip Meyer fue un periodista pionero en la aplicación de las nuevas tecnologías a la profesión, iniciando una trayectoria que seguirían muchos detrás de él y que posiciona su nombre, todavía hoy, en las presentaciones de asignaturas como las que nos ocupa. Además de emplear software estadístico y ordenadores para crear una historia, Philip Meyer incorporó a sus rutinas de trabajo los métodos analíticos propios de las ciencias sociales, en una combinación de disciplinas que se conoce como “periodismo de precisión” (una concepción más profunda y reflexiva que el Computer Assisted Reporting , al sumar al mero uso de las tecnologías ese matiz de interés social). Entre sus proyectos más significativos:
- Para quejarse del coste de los seguros escolares contra incendios y huracanes: investigación acerca de la relación entre los componentes del consejo que establecía estos precios y los nombres de empresarios.
- Lideró una investigación sobre las revueltas de la ciudad de Detroit en 1967. Entre su equipo: psicólogos, una programadora, entrevistadores y un programa informático.
Nightingale fue una enfermera, escritora y estadística pionera en el uso de datos para la salud. Considerada precursora de la enfermería moderna, su gran aportación fue la creación del primer modelo conceptual de enfermería. Su figura fue fundamental durante la Guerra de Crimea, pues fue en este contexto donde, poniendo en práctica sus conocimientos de estadística, consiguió llevar un registro de las enfermedades y la mortalidad en los hospitales militares. Los datos recabados apuntaban a la falta de personal sanitario, el hacinamiento y las deficiencias higiénicas como causa principal de la elevada tasa de mortalidad. Efectivamente, la mejora en las condiciones —a partir del trabajo de Nightingale— trajo consigo una mayor eficiencia del hospital.
El periodismo de datos moderno nace en 2006-2008 con una combinación de factores: abundancia de software de código abierto, HTML5 y Open Data. Se trata de una disciplina contenedor en la que se implican, fundamentalmente, tres áreas: el periodismo (que exige la investigación), los datos (registros electrónicos) y la visualización de dichos datos (analizados por técnicas estadísticas). The Guardian figura uno de los primeros medios en poner en práctica esta iniciativa. Pero antes de llegar a este punto a principios del siglo XX, el recorrido por la experimentación ha sido largo y fruto del contexto que a continuación procedemos a tratar.
Desde la década de 1960 vivimos en lo que se ha acordado llamar la sociedad de la información, un término que alude a la interconexión derivada de las innovaciones tecnológicas, que permiten que la información fluya de forma instantánea y en cualquier lugar del planeta. Como cabe esperar, el desarrollo del periodismo ha ido siempre de la mano de estos avances de un mundo cada vez más grande, pero, al mismo tiempo, más abarcable. La sociedad del conocimiento que habitamos presencia y construye nuestros entornos, procedimientos y prácticas que, sin llegar todavía a sustituir a los anteriores, al menos sí conviven con ellos y ganan en según qué ambientes y generaciones mayor prevalencia. Hablamos del paso de la prensa a la web, del estatismo de un escritorio al uso del portátil y de los dispositivos electrónicos móviles.
En la confluencia de la sociedad industrial-informacional encontramos hitos relevantes que, extendiéndose en varios siglos, entroncan con los antecedentes más prematuros del periodismo de datos. Partiendo de la máquina de vapor (1774), pasando por la programación de Ada Lovelace (1842) y el veloz desarrollo a nivel de hardware y software que supuso la Segunda Guerra Mundial, hasta la arquitectura de los ordenadores desarrollada en 1945 por el físico y matemático John von Neumann, la teoría matemática de la información de Claude Shannon y Warren Weaver en 1948, así como la creación del campo de la cibernética y, más tarde, la aparición de internet y la web.
Al principio de esta reflexión aludíamos a la visualización de los datos como uno de los tres elementos implicados en la disciplina que nos ocupa. Es importante entender la “visualización” como algo más que el producto final en sí. Durante la etapa de visualización también se realizan análisis, se aplican técnicas estadísticas y se recurre a programas informáticos que facilitan la tarea de extraer hipótesis/conclusiones a partir de un volumen de datos importante. Es por esto que pueden considerarse antecedentes de la visualización de datos a:
- Florence Nightingale (segunda mitad del siglo XIX) se atribuye la creación del primer modelo conceptual de enfermería. Fue, además, escritora y estadística.
- Un poco antes, Charles Minard: ingeniero francés que estudió ciencias y matemáticas.
- John Snow: médico inglés precursor de la epidemiología moderna que rompió con la teoría miasmática de la enfermedad.
Para el correcto desarrollo del periodismo de datos no basta con realizar encuestas, tener nociones básicas de Excel y diseñar gráficos o mapas didácticos. Es necesario contar con periodistas con competencias informáticas, desarrolladores de aplicaciones de noticias y especialistas en la visualización de datos. Si falla alguno de estos elementos, fallará seguramente la eficiencia de los análisis y las conclusiones extraídas a partir de los mismos.