¿Qué Rayos es un Data Lakehouse?
Veo a mucha gente enganchándose al paradigma de Data Lakehouse. ¡Muy bien! ¿Pero entienden realmente qué es eso? Para Databricks, quienes acuñaron este término, estas son las características clave:
👉Soporte para transacciones. La palabra clave aquí es concurrencia. ¿Tu Data Lake lo admite? ¿Usando SQL?
👉 Imposición de esquema y gobierno. Aquí debes comprender qué es el registro de transacciones y cómo funciona. Me lo agradecerás más tarde. 😉
👉Soporte para Inteligencia de Negocios. ¿Por qué debería tener datos en mi Data Lake y al mismo tiempo en el Data Warehouse? ¿No es eso redundante? ¿No aumenta los costos? Mantenerlos sincronizados también es un esfuerzo y gasto adicional.
👉Almacenamiento desacoplado del procesamiento. Nada nuevo bajo el sol. Es lo que ofrece GCP, AWS, Azure o cualquier proveedor de la nube. ¿Y por qué razón? Si tienes un clúster en tus instalaciones para el procesamiento, es mejor que te vayas haciendo la idea de que hoy es posible alquilar esas máquinas para procesar los datos. Al terminar, puedes “destruirlos” para dejar de pagar por ellos. El almacenamiento va por separado. En otras palabras, el proceso acaba — adiós clúster — pero la data persiste.
👉Apertura. Si tu equipo usa R/Python pero tiene dificultades para acceder directamente a los datos de tu Data Warehouse, usar formatos de almacenamiento más estándar alivia ese dolor. Di hola a los formatos csv, parquet, avro, json y muchos más.
👉 Soporte para diversos tipos de datos que van desde datos no estructurados a estructurados. Big Data no es solo el volumen de datos, ¿verdad? Ahora que se abren las posibilidades de analizar archivos como imágenes, video, audio, datos semiestructurados y texto podemos finalmente hablar de la variedad de datos.
👉 Soporte para diversas cargas de trabajo. Está bien hacer Inteligencia de Negocios en tu Data Warehouse. ¿Hacer machine learning ahí sería mucha avaricia?
¿Demasiados conceptos para comprender?
Empecemos de nuevo pero desde lo básico.
Data Lakehouse = Data Lake + Data Warehouse
Para mayor información, recomiendo lo siguiente:
- Versión en inglés del post aquí
- Do you have a minute?
- 🚩🚩🚩 Hadoop Data Lake on-prem in 2021?
- What is a Lakehouse?
- Diving Into Delta Lake: Unpacking The Transaction Log
¡Gracias por leer! ¿Quieres más?
Si presionas 50 veces el botón de like algo maravilloso sucederá.
- 👉Sígueme para más contenido
- 👉Sigue a Data Engineering LATAM para más contenido sobre Ingeniería de Datos, Ciencia de Datos y Gestión de los Datos.