¿Qué Rayos es un Data Lakehouse?

David Regalado
2 min readNov 11, 2021

Veo a mucha gente enganchándose al paradigma de Data Lakehouse. ¡Muy bien! ¿Pero entienden realmente qué es eso? Para Databricks, quienes acuñaron este término, estas son las características clave:

👉Soporte para transacciones. La palabra clave aquí es concurrencia. ¿Tu Data Lake lo admite? ¿Usando SQL?

👉 Imposición de esquema y gobierno. Aquí debes comprender qué es el registro de transacciones y cómo funciona. Me lo agradecerás más tarde. 😉

👉Soporte para Inteligencia de Negocios. ¿Por qué debería tener datos en mi Data Lake y al mismo tiempo en el Data Warehouse? ¿No es eso redundante? ¿No aumenta los costos? Mantenerlos sincronizados también es un esfuerzo y gasto adicional.

👉Almacenamiento desacoplado del procesamiento. Nada nuevo bajo el sol. Es lo que ofrece GCP, AWS, Azure o cualquier proveedor de la nube. ¿Y por qué razón? Si tienes un clúster en tus instalaciones para el procesamiento, es mejor que te vayas haciendo la idea de que hoy es posible alquilar esas máquinas para procesar los datos. Al terminar, puedes “destruirlos” para dejar de pagar por ellos. El almacenamiento va por separado. En otras palabras, el proceso acaba — adiós clúster — pero la data persiste.

👉Apertura. Si tu equipo usa R/Python pero tiene dificultades para acceder directamente a los datos de tu Data Warehouse, usar formatos de almacenamiento más estándar alivia ese dolor. Di hola a los formatos csv, parquet, avro, json y muchos más.

👉 Soporte para diversos tipos de datos que van desde datos no estructurados a estructurados. Big Data no es solo el volumen de datos, ¿verdad? Ahora que se abren las posibilidades de analizar archivos como imágenes, video, audio, datos semiestructurados y texto podemos finalmente hablar de la variedad de datos.

👉 Soporte para diversas cargas de trabajo. Está bien hacer Inteligencia de Negocios en tu Data Warehouse. ¿Hacer machine learning ahí sería mucha avaricia?

¿Demasiados conceptos para comprender?

Empecemos de nuevo pero desde lo básico.

Data Lakehouse = Data Lake + Data Warehouse

Data Lakehouse explicado con memes. ¿Así es más fácil de entender? Créditos: Este sujeto

Para mayor información, recomiendo lo siguiente:

¡Gracias por leer! ¿Quieres más?

Si presionas 50 veces el botón de like algo maravilloso sucederá.

  • 👉Sígueme para más contenido
  • 👉Sigue a Data Engineering LATAM para más contenido sobre Ingeniería de Datos, Ciencia de Datos y Gestión de los Datos.

--

--

David Regalado

Founder @Data Engineering Latam community, the largest and coolest data community in Latin America ;) Passionate about all things data! beacons.ai/davidregalado