Lagos de datos: un enfoque tecnológico importante para el descubrimiento de datos y legales

As highlighted by Jennifer Zaino in BizTech, a data lake is an architecture for storing high-volume, high-velocity, high-variety, as-is data in a centralized repository for Big Data and real-time analytics. And the technology is an attention-getter: The global data lakes market is expected to grow at a rate of 28 percent between 2017 and 2023.

en flag
nl flag
fr flag
de flag
pt flag
es flag

Nota del editor: Los lagos de datos proporcionan un enfoque arquitectónico para almacenar datos de gran volumen, alta velocidad y gran variedad. Este enfoque de almacenamiento de información es de creciente interés para los profesionales del negocio, de la tecnología de la información y del derecho, ya que tratan de lidiar con volúmenes y tipos crecientes de datos, junto con el desafío de interrogar, identificar e indexar datos para que puedan analizarse para ayudar a las organizaciones a descubrir información sobre beneficios para el negocio, obligaciones de cumplimiento y requisitos de litigios. En este post se proporciona una recopilación de extractos de artículos informativos que pueden ser útiles para aquellos que buscan aprender más sobre el beneficio de los lagos de datos y su potencial en la esfera del descubrimiento de datos y el descubrimiento legal.

Un extracto de un artículo de Jennifer Zaino a través de BizTech

Los lagos de datos son clave para las plataformas de datos modernas

¿Qué es un lago de datos?

Los lagos de datos almacenan datos de cualquier tipo en su forma cruda, tanto como un lago real proporciona un hábitat donde todo tipo de criaturas pueden convivir.

Un lago de datos es una arquitectura para almacenar datos de alto volumen, alta velocidad y gran variedad, tal como están en un repositorio centralizado para Big Data y análisis en tiempo real. Y la tecnología llama la atención: se espera que el mercado global de los lagos de datos crezca a una tasa del 28% entre 2017 y 2023.

Las empresas pueden extraer grandes cantidades de datos (estructurados, semiestructurados y no estructurados) en tiempo real en un lago de datos, desde cualquier lugar. Los datos se pueden ingerir desde sensores de Internet of Things, actividad de clickstream en un sitio web, archivos de registro, fuentes de redes sociales, vídeos y sistemas de procesamiento de transacciones en línea (OLTP), por ejemplo. No hay restricciones sobre el origen de los datos, pero es una buena idea usar el etiquetado de metadatos para agregar algún nivel de organización a lo que se ingiere, de modo que los datos relevantes puedan ser surtados para consultas y análisis.

«Para garantizar que un lago no se convierta en un pantano, es muy útil proporcionar un catálogo que haga que los datos sean visibles y accesibles para el negocio, así como para los profesionales de TI y gestión de datos», dice Doug Henschen, vicepresidente y analista principal de Constellation Research.

Lagos de datos frente a almacenes de datos

Los lagos de datos no deben confundirse con los almacenes de datos. Donde los lagos de datos almacenan datos sin procesar, los almacenes almacenan datos actuales e históricos de una manera organizada.

Los equipos de TI y los ingenieros de datos deben pensar en un almacén de datos como un entorno altamente estructurado, donde los racks y los contenedores están claramente etiquetados y los elementos similares se apilan juntos para lograr la eficiencia de la cadena de suministro.

La diferencia entre un lago de datos y un almacén de datos se refiere principalmente a la analítica.

Los almacenes de datos son los mejores para analizar datos estructurados de forma rápida y con gran precisión y transparencia para fines administrativos o reglamentarios. Mientras tanto, los lagos de datos están preparados para la experimentación, explica Kelle O'Neal, fundadora y CEO de la consultora de gestión First San Francisco Partners.

Con un lago de datos, las empresas pueden cargar rápidamente una variedad de tipos de datos de múltiples fuentes y participar en análisis ad hoc. O bien, un equipo de datos podría aprovechar el aprendizaje automático en un lago de datos para encontrar «una aguja en un pajar», dice O'Neal.

«La rápida inclusión de nuevos conjuntos de datos nunca sería posible en un almacén de datos tradicional, con estructuras específicas del modelo de datos y sus limitaciones para agregar nuevas fuentes u objetivos», dice O'Neal.

Los almacenes de datos siguen un enfoque de «esquema en escritura», que implica definir un esquema para los datos antes de poder escribirlo en la base de datos. La tecnología de procesamiento analítico en línea (OLAP) se puede utilizar para analizar y evaluar datos en un almacén, lo que permite respuestas rápidas a consultas analíticas complejas.

Los lagos de datos adoptan un enfoque de «esquema en lectura», donde los datos se estructuran y transforman solo cuando están listos para ser utilizados. Por esta razón, es muy fácil introducir nuevas fuentes de datos, y los usuarios no tienen que saber de antemano las preguntas que quieren responder. Con lagos, «diferentes tipos de análisis de sus datos (como consultas SQL, análisis de Big Data, búsqueda de texto completo, análisis en tiempo real y aprendizaje automático) se pueden utilizar para descubrir información», según Amazon. Además, los lagos de datos son capaces de realizar acciones en tiempo real basadas en análisis basados en algoritmos.

Las empresas pueden utilizar lagos de datos y almacenes de datos. La decisión sobre cuál usar gira en «entender y optimizar lo que las diferentes soluciones hacen mejor», dice O'Neal.

Lea el artículo completo en Data Lakes Prove Key to Modern Data Platforms

Un extracto de un artículo de Bernard Marr via Forbes

¿Qué es un lago de datos? Una explicación súper simple para cualquier persona

Algunos creen erróneamente que un lago de datos es solo la versión 2.0 de un almacén de datos. Si bien son similares, son diferentes herramientas que deben usarse para diferentes propósitos. James Dixon, el CTO de Pentaho es acreditado por nombrar el concepto de un lago de datos. Él usa la siguiente analogía:

«Si se piensa en un datamart como un almacén de agua embotellada, limpiada y empaquetada y estructurada para un consumo fácil, el lago de datos es una gran masa de agua en un estado más natural. El contenido del lago de datos fluye desde una fuente para llenar el lago, y varios usuarios del lago pueden venir a examinar, bucear o tomar muestras.»

Un lago de datos contiene datos de forma no estructurada y no hay jerarquía u organización entre los datos individuales. Contiene datos en su forma más simple: no se procesan ni analizan. Además, un lago de datos acepta y conserva todos los datos de todos los orígenes de datos, admite todos los tipos de datos y los esquemas (la forma en que los datos se almacenan en una base de datos) se aplican sólo cuando los datos están listos para ser utilizados.

Lea el artículo completo en What Is A Data Lake? Una explicación súper simple para cualquier persona

Un extracto de un artículo de Lance Weaver vía Equinix

Por qué las empresas se lanzan a los lagos de datos

Los lagos de datos son una entidad en desarrollo, y la industria no se ha unido en torno a una sola definición universalmente aceptada. Una definición consensuada, derivada de la consulta de varias fuentes diferentes, sigue: «Un lago de datos es un mecanismo de almacenamiento diseñado para facilitar la coubicación y el uso de muchos tipos diferentes de datos, incluidos los datos que se definen con fecha utilizando varios esquemas, marcos estructurales, blobs y otros archivos. ”

La esperanza es que un lago de datos haga posible que una empresa obtenga nuevos conocimientos empresariales acumulando grandes cantidades de datos, en el formato elegido por cada carga de trabajo, y luego facilite el procesamiento mediante análisis de big data, análisis de cargas múltiples, informes, investigaciones e incluso algunas formas de cargas de trabajo transaccionales.

El movimiento hacia la implementación de los lagos de datos se encuentra en la intersección de varias tendencias. Uno de ellos es el movimiento de los proveedores de servicios en la nube que buscan innovar y proporcionar nuevos productos de almacenamiento.

Otra tendencia es que las empresas experimentan cambios fundamentales en las fuentes de sus datos y en la forma en que los utilizan. Los datos proceden ahora de muchos tipos de dispositivos y sistemas centrados en el usuario final, y los sistemas tradicionales siguen generando y procesando. Se están realizando esfuerzos para combinar todos estos datos estructurados y no estructurados, independientemente de su forma o intención original, facilitando la unión con otros sistemas de registro. Ahí es donde entran los lagos de datos.

Lea el artículo completo en ¿Por qué las empresas están saltando en los lagos de datos?

Un extracto de un artículo de Michael Lappin vía Nuix

Búsqueda de estructura para datos no estructurados mediante lagos de datos

¿Por qué llenar el lago?

En general, hemos visto una mezcla de impulsores proactivos y reactivos que empujan a las empresas a crear y llenar un lago de datos.

Descubrimiento electrónico continuo: El controlador más popular que vemos con las empresas es la frustración por la lentitud o la falta de precisión al completar tareas iterativas de exhibición de documentos electrónicos. Estas tareas incluyen la búsqueda y producción de datos antiguos para los custodios en retención legal.

Migración o extracción de archivos de correo electrónico heredados: los archivos de correo electrónico grandes son muy comunes e inmanejables. Muchas personas creen que necesita extraer los datos, o al menos la parte que tiene sentido (por un custodio o por fecha), indexarlos y prepararlos para el descubrimiento, el control o la migración a una nueva plataforma como Microsoft Office365.

Gestión legal de la retención: La gestión legal de la retención está vinculada a los conductores anteriores y a menudo parece tomar la forma de eliminar cientos o incluso miles de retenciones antiguas y reducirlas a un número razonable y manejable.

Privacidad de los datos y gobernanza de la información: Las regulaciones recientes en todo el mundo han llevado a un nuevo interés en la gobernanza de la información. El Reglamento General de Protección de Datos (RGPD) de la Unión Europea, contiene medidas para que las empresas respondan a las solicitudes de acceso de los interesados y eliminen la información previa solicitud en virtud de sus disposiciones sobre el «derecho al olvido». Junto con esto, la Ley de Protección al Consumidor de California (CCPA) ha introducido protecciones similares en los Estados Unidos que probablemente se propagarán a otros estados.

Lea el artículo completo en Encontrar estructura para sus datos no estructurados usando lagos de datos

Lectura adicional

¿Cuáles son los problemas que más preocupan a los profesionales de eDiscovery en la actualidad? Restricciones presupuestarias (otoño de 2019)

Automatización de eDiscovery: un marco estratégico

Fuente: ComplexDiscovery