Data Lakes: uma importante abordagem tecnológica para dados e descoberta legal

As highlighted by Jennifer Zaino in BizTech, a data lake is an architecture for storing high-volume, high-velocity, high-variety, as-is data in a centralized repository for Big Data and real-time analytics. And the technology is an attention-getter: The global data lakes market is expected to grow at a rate of 28 percent between 2017 and 2023.

en flag
nl flag
fr flag
de flag
pt flag
es flag

Nota do editor: Os data lakes fornecem uma abordagem arquitetônica para armazenar dados de alto volume, alta velocidade e alta variedade. Essa abordagem de armazenamento é de interesse crescente para os profissionais de negócios, tecnologia da informação e jurídica, pois eles buscam lidar com volumes e tipos crescentes de dados, juntamente com o desafio de interrogar, identificar e indexar dados para que possam ser analisados para ajudar as organizações a descobrir informações sobre benefícios comerciais, obrigações de conformidade e requisitos de litígio. Fornecida neste post é uma compilação de extractos de artigos informativos que podem ser úteis para aqueles que procuram aprender mais sobre o benefício dos lagos de dados e seu potencial na esfera da descoberta de dados e descoberta legal.

Um extrato de um artigo de Jennifer Zaino via BizTech

Data Lakes provam a chave para plataformas de dados modernas

O que é um Data Lake?

Os data lakes armazenam dados de qualquer tipo em sua forma bruta, tanto quanto um lago real fornece um habitat onde todos os tipos de criaturas podem viver juntos.

Um data lake é uma arquitetura para armazenar dados de alto volume, alta velocidade e alta variedade em um repositório centralizado para Big Data e análises em tempo real. E a tecnologia é um chamador de atenção: o mercado global de data lakes deverá crescer a uma taxa de 28 por cento entre 2017 e 2023.

As empresas podem obter grandes quantidades de dados — estruturados, semiestruturados e não estruturados — em tempo real em um data lake, de qualquer lugar. Os dados podem ser ingeridos a partir de sensores da Internet of Things, atividade de clickstream em um site, arquivos de log, feeds de mídia social, vídeos e sistemas de processamento de transações on-line (OLTP), por exemplo. Não há restrições sobre a origem dos dados, mas é uma boa idéia usar a marcação de metadados para adicionar algum nível de organização ao que é ingerido, para que os dados relevantes possam ser exibidos para consultas e análises.

“Para garantir que um lago não se torne um pântano, é muito útil fornecer um catálogo que torne os dados visíveis e acessíveis aos negócios, bem como aos profissionais de TI e gerenciamento de dados”, diz Doug Henschen, vice-presidente e analista principal da Constellation Research.

Data Lakes versus Data Warehouses

Os data lakes não devem ser confundidos com data warehouses. Onde os data lakes armazenam dados brutos, os armazéns armazenam dados atuais e históricos de forma organizada.

As equipes de TI e os engenheiros de dados devem pensar em um data warehouse como um ambiente altamente estruturado, onde racks e contêineres são claramente rotulados e itens semelhantes são empilhados juntos para eficiência da cadeia de suprimentos.

A diferença entre um data lake e um data warehouse refere-se principalmente à análise.

Os data warehouses são os melhores para analisar dados estruturados rapidamente e com grande precisão e transparência para fins gerenciais ou regulatórios. Enquanto isso, data lakes são preparados para a experimentação, explica Kelle O'Neal, fundador e CEO da empresa de consultoria de gestão First San Francisco Partners.

Com um data lake, as empresas podem carregar rapidamente uma variedade de tipos de dados de várias fontes e realizar análises ad hoc. Ou, uma equipe de dados poderia aproveitar o aprendizado de máquina em um data lake para encontrar “uma agulha em um palheiro”, diz O'Neal.

“A rápida inclusão de novos conjuntos de dados nunca seria possível em um data warehouse tradicional, com seu modelo de dados — estruturas específicas e suas restrições na adição de novas fontes ou alvos”, diz O'Neal.

Os data warehouses seguem uma abordagem de “esquema em gravação”, que implica definir um esquema para dados antes de poder gravá-lo no banco de dados. A tecnologia de processamento analítico on-line (OLAP) pode ser usada para analisar e avaliar dados em um armazém, permitindo respostas rápidas a consultas analíticas complexas.

Os data lakes adotam uma abordagem “esquema na leitura”, onde os dados são estruturados e transformados somente quando estão prontos para serem usados. Por esse motivo, é fácil trazer novas fontes de dados, e os usuários não precisam saber antecipadamente as perguntas que querem responder. Com lagos, “diferentes tipos de análise em seus dados — como consultas SQL, análises de Big Data, pesquisa de texto completo, análise em tempo real e aprendizado de máquina — podem ser usados para descobrir insights”, de acordo com a Amazon. Além disso, os data lakes são capazes de ações em tempo real baseadas em análises orientadas por algoritmos.

As empresas podem usar data lakes e data warehouses. A decisão sobre qual usar ativa “entender e otimizar o que as diferentes soluções fazem melhor”, diz O'Neal.

Leia o artigo completo em Data Lakes Prove Key to Modern Data Platforms

Um extrato de um artigo de Bernard Marr via Forbes

O que é um Data Lake? Uma explicação super simples para qualquer pessoa

Alguns acreditam erroneamente que um data lake é apenas a versão 2.0 de um data warehouse. Embora sejam semelhantes, são ferramentas diferentes que devem ser usadas para diferentes fins. James Dixon, o CTO de Pentaho é creditado por nomear o conceito de um data lake. Ele usa a seguinte analogia:

“Se você pensa em um datamart como um armazenamento de água engarrafada — limpa, embalada e estruturada para fácil consumo — o data lake é um grande corpo de água em um estado mais natural. O conteúdo do data lake flui de uma fonte para encher o lago, e vários usuários do lago podem vir para examinar, mergulhar ou tirar amostras.”

Um data lake contém dados de forma não estruturada e não há hierarquia ou organização entre os dados individuais. Ele mantém os dados em sua forma mais desnorte—eles não são processados ou analisados. Além disso, um data lake aceita e retém todos os dados de todas as fontes de dados, suporta todos os tipos de dados e esquemas (a forma como os dados são armazenados em um banco de dados) são aplicados somente quando os dados estão prontos para serem usados.

Leia o artigo completo no What Is A Data Lake? Uma explicação super simples para qualquer pessoa

Um extrato de um artigo de Lance Weaver via Equinix

Por que as empresas estão entrando em Data Lakes

Os data lakes são uma entidade em desenvolvimento, e o setor não se aglutinou em torno de uma única definição universalmente aceita. Uma definição de consenso, derivada da consulta de várias fontes diferentes, segue: “Um data lake é um mecanismo de armazenamento projetado para facilitar a colocação e uso de muitos tipos diferentes de dados, incluindo dados que são definidos por data usando vários esquemas, estruturas estruturais, blobs e outros arquivos. ”

A esperança é que um data lake possibilite que uma empresa obtenha novas percepções de negócios acumulando grandes quantidades de dados, no formato escolhido por cada carga de trabalho e, em seguida, facilite o processamento usando análises de big data, análise de carga de trabalho cruzada, relatórios, pesquisas e até mesmo algumas formas de cargas de trabalho transacionais.

O movimento para a implementação de data lakes está no cruzamento de várias tendências. Um deles é um movimento de provedores de serviços em nuvem que estão buscando inovar e fornecer novos produtos de armazenamento.

Outra tendência vê as empresas passando por mudanças fundamentais nas fontes de seus dados e como eles estão usando. Os dados agora vêm de muitos tipos de dispositivos e sistemas focados no usuário final e ainda estão sendo gerados e processados por sistemas tradicionais. Estão em curso esforços para combinar todos esses dados estruturados e não estruturados, independentemente de sua forma ou intenção original, facilitando a união com outros sistemas de registro. É aí que os data lakes entram.

Leia o artigo completo em Why Companies are jumping Into Data Lakes

Um extrato de um artigo de Michael Lappin via Nuix

Localizando Estrutura para Seus Dados Não Estruturados Usando Data Lakes

Por que encher o lago?

Geralmente, vimos uma mistura de drivers proativos e reativos empurrando as empresas para criar e preencher um data lake.

Descoberta eletrônica contínua: o driver mais popular que vemos com as empresas é a frustração com lentidão ou falta de precisão ao completar tarefas iterativas de eDiscovery. Essas tarefas incluem a pesquisa e a produção de dados antigos para os guardiões em retenção legal.

Migração ou extração de arquivos de e-mail herdados: grandes arquivos de e-mail são muito comuns e ingerenciáveis. Muitas pessoas acreditam que você precisa extrair os dados — ou, pelo menos, a parte dele que faz sentido (por um custodiante ou por data) — indexá-los e prepará-los para descoberta, governança ou migração para uma nova plataforma como o Microsoft Office365.

Legal Hold Management: A gestão de retenção legal está ligada aos motoristas anteriores e muitas vezes parece assumir a forma de remover centenas ou mesmo milhares de retenções antigas e reduzi-los a um número razoável e gerenciável.

Privacidade de dados e governança da informação: regulamentos recentes em todo o mundo levaram a um novo interesse na governança da informação. O mais divulgado, o Regulamento Geral de Proteção de Dados (RGPD) da União Europeia, contém medidas para que as empresas respondam aos pedidos de acesso dos titulares dos dados e excluam as informações mediante solicitação sob suas disposições de “direito de ser esquecido”. Junto com isso, a California Consumer Protection Act (CCPA) introduziu proteções semelhantes nos EUA que provavelmente se espalharão para outros estados.

Leia o artigo completo em Encontrar estrutura para seus dados não estruturados usando Data Lakes

Leitura adicional

Quais problemas mais preocupam os profissionais de negócios de eDiscovery hoje? Restrições Orçamentárias (Outono de 2019)

Automatização de eDiscovery: uma estrutura estratégica

Fonte: ComplexDiscovery