Un pequeño comentario sobre el Big Data

Big Data. Fue el concepto de moda hace algún tiempo, el típico meme periodístico que va vagando de blog en blog y de periódico en periódico intentando a base de reportajes variados traer una parte de la comunidad científica, sus retos y posibilidades, al grueso de la población.

Si bien yo me había desentendido un poco del tema de forma consciente, esta semana me invitaron a un workshop multidisciplinar sobre el uso de Big Data en diferentes áreas científicas que, puesto que las exposiciones eran más genéricas que técnicas,  han ido despejando un poco el aura de ignorancia que tenía sobre el tema. Lo que viene a continuación es un pequeño resumen de las apreciaciones de científicos que usan diariamente lo que podemos denominar Big Data.

dilbert_bigdata

¿Qué demonios es el Big Data?

Esta es una de las preguntas clave que han ido apareciendo en casi todas las conferencias. ¿Qué es lo que hace diferente al Big Data con respecto a los análisis científicos que venimos realizando con datos simples y corrientes?

Una diferencia, aclamada por una parte de los asistentes, es lo que ellos denominaban las tres uves: Volume, Velocity and Variance.

El volumen de datos es, quizá, lo primero que responderíamos: Lo que hace a los datos convertirse en Big Data es, precisamente, el adjetivo “Big”. Hablamos de bases de datos de cientos de miles, millones de datos o unidades de estudio.

Pero lo cierto es que el volumen no es lo más importante, solo es un buen indicador de que los datos son, simplemente, diferentes, en el sentido de que necesitan un tratamiento generalmente distinto al que se utiliza en bases de datos normales y corrientes.

¿Qué es lo que genera esta gran cantidad de datos?

La velocidad a la que se obtienen puede ser una gran pista. Según estimaciones de uno de los ponentes, Xiao-Ping Zhang, un “consumidor inteligente” (del que se puede obtener información a la hora de realizar sus gastos: Qué compra, dónde lo compra, cuantas variedades de un mismo producto compra, fidelidad a una marca, etc…) puede generar 70 mb de información al día. Unos 25 gigas al año. La capacidad de obtener información (todavía muy sesgada e incompleta en este aspecto, pues su uso no está muy extendido) va aumentando cada vez más, y esto va generando volúmenes cada vez más grandes de datos.

Un segundo aspecto, es la variedad de los datos recopilados. A menudo se pueden obtener de un mismo objeto de estudio una gran cantidad de características, de las cuales puede que realmente solo nos interesen una o dos.

Estas dos características generan una gran diferencia a la hora de tener que tratar con los datos recopilados, que obliga a tener que realizar una metodología de análisis que se va alejando cada vez más de lo realizado hasta ahora. Y esta es la segunda diferencia, defendida por la otra banda: No es en si el volumen de datos lo que hace diferente al “Big Data” sino las técnicas que hay que utilizar en estas bases de datos.

Obviamente, como la ciencia en este sentido es muy ecléctica, casi todos coinciden que es una mezcla de las dos: Volumen y técnica.

Nuevas técnicas

Una de las primeras diferencias clave está en la generación y recopilación de datos. Son tantos los datos que se van recopilando que se necesita a menudo la colaboración internacional de diferentes centros e instituciones. Esto quizá en un área como la economía sea menos obvio que en la rama de astrofísica, por ejemplo. Estas instituciones se encargan de recabar toda la información posible y guardarla en bases de datos comunes, disponibles a través de la Red.

La otra cara de la moneda es que esto genera una grandiosa cantidad de información que los proyectos específicos de investigación tienen que desechar. La primera clave, comentaba Peter Tino, es saber filtrar la información. Querer abarcarlo todo imposibilita en gran medida el análisis ( o acabas llegando a tautologías sin interés).

Otra diferencia clara reside en el tratamiento del análisis, cada vez más específico. Puesto que las variables y los datos cada vez son más detallados, los mecanismos por los cuales queremos obtener información, o predecir a partir de ellos tienen casuísticas diferentes. Esto obliga a tener que construir tratamientos personalizados, que dependen en gran medida de la programación o técnicas avanzadas como el “machine learning”. Una gran preocupación durante el workshop por parte de los profesores era que ven un gran gap entre lo que los estudiantes aprenden y lo que van a necesitar a la hora de investigar, y cómo este gap es cada vez mayor. Si el Big Data no despega del todo es porque muchos estudiantes (doctorados y postdoc) no saben realmente qué hacer ni cómo hacerlo (pensaba que era problema español, pero veo que en UK pasa lo mismo).

La tercera diferencia se entronca con la privacidad. De nuevo, los datos recopilados son cada vez más específicos, y se generan de manera casi automática por el propio sujeto a la hora de desplazare (con GPS pueden saber a dónde vas), comprar (con tarjetas de crédito, compras por internet), recabar información (a la hora de hacer búsquedas en red) o comunicar información (a la hora de twittear, usar foursquare, etc). Esto va a hacer que poco a poco el tratamiento legal del Big Data pueda cambiar.

Ya sucede, por ejemplo, que en grandes bases de datos sobre empresas, hay regiones de las que no puedes obtener datos, pues son tan pequeñas, o hay tan pocas empresas en dicha región, que conocer el dato regional sería conocer el dato, quizá privado, de la empresa. Pero obviamente también se generan métodos, a la vez, para sortear esos vacíos, que generan un cierto “ruido” sobre los datos recopilados.

En resumen

Los que hace diferente al Big Data es, quizá, la característica de los datos. La capacidad de obtener y procesar datos avanza día a día, lo que permite que los datos con los que la comunidad científica puede “jugar” son, cada vez, más específicos, más detallados. Esto genera una gran cantidad de datos muy variados en muy poco tiempo, una gran bola de nieve informatizada que no es más que la evolución directa de los métodos de observación que la comunidad científica necesita para su proceso de investigación. Una evolución que ha dado un salto tan grande en tan pocos años que hemos tenido que marcar un punto de inflexión: El nacimiento del “Big Data”.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s