¿Qué es un Data Lake? Puntos clave sobre la última tendencia tecnológica

julio 16, 2018
Redacción
¿Te ha gustado nuestro articulo?
5/5 - (1 vote)

datos

Un Data Lake reúne datos de muchas corrientes diferentes, y debido a la variedad de corrientes que alimentan el lago, se pueden encontrar sorpresas. Estas secuencias pueden incluir desde tablas estructuradas extraídas de tu data warehouse actual hasta datos no estructurados de tus redes sociales. Datos, datos y más datos, eso es lo que tienen los Data Lakes.

Los expertos de la industria estiman que los datos en prácticamente todas las industrias se duplican básicamente cada dos años. Capturar, almacenar y aprovechar todos esos datos es el verdadero desafío.

Los defensores de Big Data adoran los Data Lakes porque representan un recurso sin explotar para la manipulación, el análisis y el descubrimiento. Algunos expertos sugieren que los Data Lakes terminan siendo algo turbios. Los datos no estructurados presentan muchas oportunidades para la manipulación y el análisis. Sin embargo, la falta de una planificación cuidadosa puede convertir rápidamente tu lago el un pantano.

Data Lakes vs. Data Warehouses

data

El mejor resultado de construir un Data Lake es formar un repositorio central donde todos tus datos de múltiples fuentes se almacenen en su formato original, disponible siempre para búsqueda y análisis. Aquí es donde un Data Lake se diferencia de un Data Warehouse (en castellano un almacén de datos).

Al CTO de Pentaho, James Dixon, se le atribuye la creación de la idea del Data Lake. En su metáfora, los datos son agua y el almacén contiene agua embotellada en filas y columnas minuciosamente trabajadas y fáciles de buscar.

Margaret Rouse explica: «cada elemento de datos en un Data Lake hereda un identificador único etiquetado con un conjunto extendido de etiquetas de metadatos. Cuando surge una pregunta comercial, los usuarios pueden consultar el Data Lake para obtener datos relevantes. El objetivo final es que esos usuarios puedan analizar ese conjunto de datos más pequeño para ayudar a responder su pregunta«.

Un Data Warehouse requiere datos procesados, identificados y desinfectados en la entrada. Sin embargo, un Data Lake puede almacenar datos de cualquier forma, incluidos datos sin estructurar y sin filtrar.

Los almacenes de datos requieren especialistas para procesar y asignar el esquema a sus datos durante el almacenamiento. Esto requiere mucho trabajo, es costoso y ocupa mucho espacio en el servidor. Un Data Lake permite almacenar esos datos a bajo coste y sin manipulación. Y el especialista asigna el esquema que desea aplicar a esos datos cuando accede a los datos más adelante.

Almacenar todas las cosas

El objetivo principal de un Data Lake es proporcionar acceso a todos los datos de una organización que podrían ser útiles en el futuro, incluso cuando ahora no creas que nunca los vayas a necesitar.

Esta necesidad ha surgido de los lugares de trabajo y vidas en general cada vez más digitalizadas. Cualquier compañía puede usar Data Lake para almacenar información de cada parte de su negocio:

  • Información de la planta de fabricación sobre velocidades de producción, errores o estadísticas de seguridad.
  • Entrada de RFID y código de barras de los almacenes, incluidos temas de almacenamiento, envío y logística.
  • Estadísticas de participación del usuario del sitio web de la compañía.
  • Interacciones en las redes sociales con los clientes.
  • Registros de correo electrónico, chat y teléfono desde soporte.
  • Datos de las campañasde marketing.
  • Aportes de ventas B2B y B2C del CRM.
  • Datos que se obtengan a través de los aparatos que estén conectados a la red.
  • etc.

Esta lista es una lista aproximada de todos los datos que se pueden extraer. Las vidas de los usuarios están llenas de datos. Por eso es útil recogerlos. Puede que ahora no creas que un Data Lake puede ayudar en tu estrategia pero ¿qué pasará en el futuro cuando quieras entender los comportamientos de tus usuarios? Puedes responder a preguntas futuras con esa información, por lo que es útil almacenarla ahora para cuando la necesites más adelante.

La arquitectura de los Data Lakes

que es un data lake

Construir un Data Lake requiere de una planificación cuidadosa, porque en algún momento, necesitarás acceder a toda la información que has almacenado.

Datos inasequibles en tu lago significan que realmente has construido un lago que nadie quiere ni nunca pueda utilizar. En su nivel más básico estas son algunas temas que debes tener en cuenta cuando vayas construyendo el lago:

  • Entrada: ¿cómo ingresan los datos al lago en un primer momento? ¿Vas a utilizar métodos de transmisión o carga por lotes de datos? ¿Con qué frecuencia actualizarás los datos? ¿Cómo de grandes serán tus datos?
  • Seguridad: los Data Lakes contienen información potencialmente confidencial, especialmente cuando se almacenan datos de clientes, información médica y de salud, o historiales de búsqueda. Construye tu lago con la mentalidad de que esos datos deben permanecer seguros. Agrega niveles de autorización y posiblemente cifrado.
  • Organización: aunque los lagos de datos incluyan datos en bruto, es importante que esos datos se puedan buscar más adelante de una forma relativamente sencilla. Necesitas encontrar lo que buscas. Esto requerirá cierta estructuración básica.
  • Acceso: ¿Quién tendrá acceso a los datos sin filtrar? ¿Qué sistemas se usarán para manipular esos datos en formas inteligibles? Algunos sugieren desarrollar un poderoso motor de búsqueda para analizar los datos. Otros sin embargo, sugieren sistemas de organización interna como nodos para separar los datos en archivos accesibles.

Beneficios del lago de datos

Data Lake

La mayoría de los expertos sugieren que construyas un Data Lake junto con tus sistemas de almacenamiento de datos existentes, ya que cada uno tiene sus beneficios. Si bien ningún método de almacenamiento de datos es perfecto, los almacenes y lagos pueden trabajar juntos para satisfacer tus necesidades:

  1. Cuando proceses datos antes de almacenarlos, define las características en función de las preguntas actuales. Definir el esquema antes del almacenamiento también significa que algunos datos sin procesar se pierden en el momento de ser procesados. Los Data Lakes permiten almacenar todos sus datos sin formato.
  2. Un Data Lake almacena tus datos en su forma original, dándote una potencia casi infinita para manipularlos más tarde sin alterar o cambiar la entrada en bruto.
  3. Debido a su naturaleza no estructurada, los Data Lakes pueden almacenar mucha más información en repositorios más baratos. Esto significa que el almacenamiento de datos es más democrático en toda la empresa. Además de dar la oportunidad a las PYMES de poder crear modelos de análisis con costes indirectos más bajos.

Problemas con Data Lake

Como cualquier otra nueva tecnología, los Data Lakes están lejos de ser perfectos. Descubrirás que implementar un Data Lake junto a tu almacén de datos actual mejorará el acceso a los datos. Pero puede llegar a complicar la vida de tus analistas:

  1. Los datos no estructurados requieren una programación especializada. A pesar de que se produce después de que se almacenan los datos, necesitarás crear programas para acceder, ordenar, desinfectar y manipular los datos de una forma utilizable.
  2. Tienes que planificar posibles casos de uso. La planificación de posibles usos futuros te ayuda a aclarar los tipos de datos que tienes actualmente y si sus procesos que utilizas actuamente funcionarán en un futuro.
  3. Mantenimiento: Solo porque importes tus datos en formatos sin formato no significa que debas evitar limpiarlos. Asegúrate de que tu información se mantiene limpia para que tu lago no se convierta en un pantano.
  4. El acceso al lago no es democrático. En este punto, los analistas de datos deberían ser los únicos que tienen acceso al Dala Lake. Solo ellos entenderán cómo manipular los datos. Llegará el momento en el que los otros usuarios también puedan buscar para acceder a los datos necesarios, pero esa es todavía una mejora prevista para el futuro.
  5. Acumulación de datos: en algún momento, debes preguntarte qué harás con todos estos datos y por qué los estás manteniendo. Muchas compañías hablan de la importancia de almacenar todas las cosas para responder a preguntas futuras. Pero a veces esto se les va de las manos. A veces se aferran demasiado a esos datos incluso cuando no los necesitan todos.

Construye tu Data Lake

Los Data Lakes son perfectos para ser almacenados en la nube. La nube proporciona rendimiento, escalabilidad, confianza y disponibilidad continua. Según una investigación de ESG el 39% de los encuestados considera que la nube es su implementación principal para el análisis, el 41% para almacenes de datos y el 43% para Spark. Los principales motivos por los que los clientes perciben la nube como una ventaja para los Data Lakes son:

  • La seguridad.
  • Un tiempo más rápido de implementación.
  • Una mejor disponibilidad.
  • Actualizaciones más frecuentes de funcionalidades.
  • Más libertad de gestión.
  • Más cobertura geográfica.
  • Costes relacionados con la utilización real.

Construir un Data Lake no es una tarea sencilla. Requiere planificación y previsión, y no es una solución configurarlo y olvidarse. Al implementar la arquitectura de los Data Lakes abres tus puertas a nuevos descubrimientos y posiblemente a nuevos modelos comerciales basados ​​en la información que solías descartar. Ahí es donde se encuentra el mayor beneficio de los Data Lakes. Encontrar resultados que te sorprendan para crear las mejores campañas. 

En Antevenio podemos ayudarte a crear un Data Lake. Ponte en contacto con nosotros y trabajaremos conjuntamente para diseñar la mejor forma de almacenar tus datos. ¡Empieza hoy mismo!

Etiquetas:

¿Quieres que te ayudemos a vender más a través de marketing digital?