El Big Data y las claves para su éxito

El Big Data y las claves para su éxito

  • Autor de la entrada:
  • Tiempo de lectura:4 minutos de lectura

El término big data hace referencia a los datos masivos derivados de las acciones llevadas a cabo por cualquier tipo de ente. Todo tipo de actividad deja una información susceptible de ser almacenada, desde un intercambio económico entre dos corporaciones, un desplazamiento de una persona o la producción de un bien en una fábrica. Al considerarse que prácticamente todo puede almacenarse en un registro, podemos también pensar que la cantidad de información que se terminará por manejar es muy grande. Esa es precisamente la característica más importante que viene reflejada por el modificador del término “big”. Sin embargo, existen otras características con importantes implicaciones dentro del mundo de los datos masivos. Habitualmente en la literatura está desagregado en tres propiedades.

Volumen

Para el big data tiene una importancia capital la cantidad de datos de los que se disponga. A día de hoy, se producen 2,5 millones de billones de bytes cada día que son almacenados en gigantescos complejos de memorias físicas. Sin embargo, los ingenieros de datos encontramos difícil acceder a información fiable, bien estructurada y sin errores. La realidad es que la información es un activo muy valioso, y aunque haya muchas existencias, las corporaciones lo guardan celosamente. Conocen el potencial que tiene y cómo puede ser un activo diferencial para superar a sus potenciales competidores. Es suficiente con echar un vistazo a todos los servicios gratuitos de altísima calidad a los que una persona accede cada día. No es preciso desembolsar ni un céntimo, el valor añadido de los millones de usuarios interaccionando con la aplicación es suficiente para que la empresa obtenga un rédito.

Velocidad

La velocidad a la que se recopila la información puede ser un factor importante para el big data. Hay datos que siguen siendo útiles en el largo plazo, por ejemplo, datos de demografía, de catastro o de renta. Sin embargo, hay datos cuya caducidad puede ser unos minutos, por ejemplo el tráfico rodado en tiempo real. La capacidad de un sistema de refrescar sus datos en función de la reactividad necesaria de estos es muy importante. Los datos están en constante evolución y trabajar para llevar a usuarios a lo más actual posible de nuevo, es de importancia capital.

Variedad

La variedad de una fuente de datos puede dar más valor a las aplicaciones desarrolladas en base a la información masiva. En concreto, es especialmente importante para aplicaciones basadas en inteligencia artificial. Una enorme cantidad de datos similares no prepararán a nuestros algoritmos ante una eventualidad sin precedentes. Por esta razón, aparentes fuentes de datos sin relación entre sí, enriquecen mucho la capacidad de predicción. 

Un ejemplo muy claro ocurrió unos meses antes de la irrupción de la epidemia por coronavirus en nuestro planeta, cuando la inteligencia artificial BlueDot fue la primera en advertir de una posible crisis como la que vivimos. Desconozco los detalles de su desarrollo, pero puedo asegurar que los datos que utilizaron cumplían ser masivos, variados y actualizados.

En conclusión, los ingenieros de datos estamos siempre revisando nuestros trabajos y algoritmos por la posibilidad de que entren nuevos datos para mejorar la precisión. De hecho, habitualmente uno encuentra que destina más tiempo a la preparación y limpieza de una base de datos que al propio desarrollo de algoritmos. Trabajar con big data es una tarea compleja debido a sus características masivas, que ralentizan la computación. Sin embargo, los resultados de tratarlo son tan valiosos que el esfuerzo siempre merece la pena.

Mateo Cámara

Mateo es Ingeniero de Telecomunicación y Máster en Data Science y Machine Learning por la Universidad Politécnica de Madrid, donde es Profesor Ayudante. Además, Mateo es socio de pickgeo.com y ZZ Data Labs, donde es Responsable de Desarrollo de Producto.