Data Lake: información en estado líquido

El Internet de las Cosas está engrosando de forma exponencial la cantidad de datos que las empresas tienen (o pueden tener) a su alcance. Se estima que en 2020, en menos de cuatro años, habrá 26 mil millones de dispositivos, sin incluir ordenadores, conectados al Internet de las Cosas. Y esta cifra no hará más que crecer en los años siguientes. Además los dispositivos conectados a Internet serán de lo más variado desde sofisticados equipos de diagnóstico médico a pelotas de fútbol o baloncesto. El aluvión de información y de datos variopintos que estos dispositivos pueden generar es difícilmente imaginable. Sin embargo, su valor, es igualmente incalculable. ¿Estamos preparados para gestionar la avalancha de datos que se nos avecina? ¿Cómo podemos sacarle partido?

datalakeDel Data Wharehouse al Data Lake

Hoy, las empresas tienen clara la importancia de los datos. El auge del Big Data y sus técnicas ha acelerado el interés de las organizaciones por la explotación masiva de los datos que están a su alcance.

Sin embargo, gran parte de esta información sigue estando “prisionera” en los sistemas o departamentos que las generaron (Data Marts). En una empresa cualquiera se suelen tener registros financieros, registros de ventas, datos que vienen de los sensores de la línea de fabricación, los que proceden de las cámaras de seguridad, del departamento de marketing, etc. Y aunque algunos de estos datos los transformamos (les damos una estructura) para almancenarlos y poder consultarlos, creando nuestro propio Data Warehouse, no dejamos de desaprovechar la mayor parte de los datos que podríamos estar utilizando. Es decir, la información, no llega por igual a todas las unidades de nuestro negocio, sólo aquella que previamente hemos decidido que puede ser interesante para toda la organización y que hemos parametrizado para incluirla en nuestra base de datos.

La revolución del Data Lake es que nos permite almacenar la información sin necesidad de saber previamente para que la vamos a necesitar

Si esto sucede a nivel de las propias empresas, volvamos al inicio de este artículo y pensemos en la cantidad de información (potencialmente valiosa para nuestra empresa), y de formatos con los que nos la podemos encontrar, en la era del Internet de las Cosas.

Es en este contexto donde aparece el concepto del Data Lake. La expresión tiene su origen en una entrada de octubre de 2010 del blog de James Dixon, CTO de la empresa Pentaho, que está detrás de Hadoop un framework de software libre precisamente para la gestión de datos.

Dixon, tras valorar la experiencia de las distintas empresas usuarias de Hadoop, se dio cuenta de que, además de que existían dificultades para que la información de unos departamentos llegase a otros, algunas de las preguntas que se pretendían resolver con los datos que se almacenaban eran conocidas, pero otras muchas no, porque irían surgiendo en el futuro. Por tanto, concluyó que el almacenaje de datos de forma estructurada no es óptimo.

Dixon propone que los datos se almacenen sin ser procesados al igual que a un lago llegan aguas de distintos orígenes y sin tratar previamente. De esta forma los datos se almacenarían “en crudo”, en sus formatos de origen, y serían las necesidades de los diferentes usuarios las que determinarían que filtrados  o procesos habría que aplicarles.

Si quieres profundizar sobre este concepto te recomendamos este vídeo en el que el propio Dixon explica la idea apoyándose en varios gráficos.

El Data Lake ideal contiene toda la información que un negocio necesita para su actividad, crecimiento y desarrollo competitivo.  Por ejemplo, la información que existe en redes sociales de nuestra empresa, puede ayudarnos a conocer mejor a nuestro cliente pero también a mejorar nuestros mecanismos de atención al cliente, de fabricación o de logística, incluso puede ayudarnos a preceder las necesidades de nuestros clientes antes de que se manifiesten. Una misma información puede ser útil para distintas áreas de la empresa vista desde ángulos distintos.

Además el Data Lake no solo se nutre de datos internos de la empresa. Hay informaciones externas como pueden ser las meteorológicas o la evolución del precio del petróleo que puede condicionar nuestro negocio.

Data Marketplaces

En este contexto, los mercados de datos, en los que distintos proveedores vuelcan la información que manejan para que terceros puedan consultarla y utilizarla, cobran especial relevancia. En este interesante artículo se plantean las ventajas que puede tener para las empresas utilizar, o incluso participar, en este tipo de mercados digitales de información. Las oportunidades para monetizar la información que creamos a la vez que nos apoyamos en la información de terceros para seguir creciendo son dos de las grandes ventajas de participar en un ecosistema de este tipo. Sobre todo si  estos markeplaces de la información siguen el modelo de Data Lake.

Dejar una respuesta