Seguro que tienes una idea de lo que significa la palabra data. Si un reportero te parara en la calle y te preguntara seguro que responderías mencionando en algún lado la palabra números. O si trabajas en el tema hasta podrías decirme una definición más académica similar a la que aparece en Wikipedia* donde al dato se le define como la “representación simbólica (numérica, alfabética, algorítmica, etc) de un atributo o variable cuantitativa o cualitativa.”
Pero si te pregunto que es “Big Data» seguramente me responderías con acercamientos generales de lo que es y no es el concepto. De insistirte podrías mencionar que yo, en este mismo blog, escribí que realmente no hay definición universal de este concepto. De formularse una definición en el futuro lo más posible es que más o menos diga que “es la capacidad para reunir una gran cantidad de variables distintas para analizarlas e intentar obtener información que nos pueda ser de utilidad.”
Como puedes inferir de esta explicación, el origen del “Big Data” surge de la capacidad de almacenar grandes cantidades de datos y que gracias a avances tecnológicos se han creado programas que permiten analizarlos. ¿Por qué ahora hay furor con el Big Data? Sencillo, ahora es muchísimo más barato recolectar y almacenar datos que hace cinco o diez años.
Este simple cambio es lo que ha trasformado el mundo del análisis y ha llevado a la Universidad de John Hopkins a mencionar “Big Data” en el curso “Caja de Herramientas para Data” que ofrece a través de la plataforma MOOC Coursera.
El mensaje principal sobre el uso de la data en general que transmite este curso es muy sencillo: no importa que cantidad de datos tengas o que herramientas utilices para procesarlos, hay que saber qué es lo que debe responderse. O sea, si no tienes una pregunta los datos y los procesadores de información no sirven para nada.
Sobre la gran cantidad de datos que se recolectan hoy en día el mensaje también en sencillo. No importa cuántas variables poseas, solo una pequeña fracción de esta servirán para responder una pregunta.
Otro punto interesante y poco escuchado es que la gran mayoría de las preguntas que uno como individuo tiene realmente no tienen ese componente que hace necesario la utilización de “Big Data” para obtener un resultado. De llegar a existir ese componente, uno siempre puede esperar a que mejore la tecnología hasta que el hardware disponible pueda manejar el tamaño de la data que tenemos.
Como puedes imaginarte la conclusión del profesor del curso: aún si posees una gigantesca cantidad de datos, estos pueden no ser suficiente para responder tu pregunta. Lo importante es hacer la pregunta correcta y poseer los datos apropiados para responderla. Si esta condición de no cumple tu “Big Data” no te generará gran valor.
Ya que estamos en el tema de “Big Data” aprovecho la oportunidad para compartir una infografía sobre quién es quién en este tema en algunos países de América Latina. La infografía es fue diseñada por Marte Martin y Jorge Ubero del Blog español Big Data 4 success. Así que no dudes en visitar su página para aprender más de este interesante tema.
* La página de Wikipedia fue visitada el 17 de septiembre de 2014, 23:36 UTC.