Blog - Data IQ

¿Qué es un Data Lake?

Escrito por DATAIQ | 20/01/22 07:43 PM

Cuando hablamos de Data Lake, nos referimos a un sistema de almacenamiento de datos mediante el cual un repositorio centralizado tiene la posibilidad de contener todos los datos estructurados y no estructurados de una organización.

En lugar de predefinir el esquema y los requisitos de datos, utiliza herramientas para asignar identificadores y etiquetas exclusivas a los elementos de datos, para que solo tengas que consultar un subconjunto de datos relevantes al analizar una pregunta comercial determinada.

Arquitectura

Hay varias herramientas diferentes que puedes usar para crear y administrar tu Data Lake como Azure, Amazon S3 y Hadoop. Por lo tanto, la estructura física detallada de tu sistema dependerá de la herramienta que selecciones.

Los equipos de datos pueden generar canalizaciones de datos ETL y transformaciones de esquema en lectura para que los datos almacenados en un Data Lake estén disponibles para la Data Science, Machine Learning y para herramientas de análisis e inteligencia empresarial. 

Beneficios 

  1. Agilidad. Además de las consultas SQL (Lenguaje de Consulta Estructurada), la estrategia del Data Lake es adecuada para admitir análisis en tiempo real, análisis de Big Data y aprendizaje automático.

  2. Tiempo real. Puedes importar datos en su formato original desde múltiples fuentes para realizar análisis en el momento y desencadenar acciones en otras aplicaciones.

  3. Escala. Podrás manejar volúmenes masivos de datos estructurados y no estructurados, como transacciones ERP y registros de llamadas.

  4. Velocidad. Ahorra tiempo al hacer tareas manteniendo los datos en un estado sin procesar, teniéndolos disponibles para su uso mucho más rápido.

  5. Mejores conocimientos. Puedes obtener información inesperada y que antes no estaba disponible mediante el análisis de una gama más amplia de nuevas formas de datos.

  6. Ahorro de costos. Los Data Lake tienen costos operativos más bajos, ya que su administración requiere menos tiempo. Además, la mayoría de las herramientas que utiliza para administrarlos son de código abierto y se ejecutan en hardware de bajo costo.

La creación de un Data Lake administrado automatiza toda su canalización, desde la ingesta en tiempo real hasta el procesamiento y el perfeccionamiento de los datos sin procesar y haciéndolos accesibles a los consumidores. ¡Logra todo esto y más con Qlik!