Falta alguma coisa? Modelagem de tópicos em eDiscovery

The basic idea behind topic modeling, according to eDiscovery expert and author Herbert Roitblat, is that documents consist of words that are derived from some mixture of topics. The goal of eDiscovery, argues the author, is to get the information contained in a collection of documents, not to get the documents themselves. The documents are just a means to reach the information.

en flag
nl flag
et flag
fi flag
fr flag
de flag
pt flag
ru flag
es flag

Nota do editor: Como autor, colaborador e palestrante em eDiscovery, Herbert Roitblat é um empreendedor de tecnologia, inventor e especialista que não precisa de introdução a profissionais sérios no ecossistema de eDiscovery. Atualmente atuando como Cientista de Dados Principal na Mimecast, ele é um especialista reconhecido em áreas que vão desde ciência cognitiva e recuperação de informações até eDiscovery e aprendizado de máquina. Prolífico pesquisador e autor, seu artigo recentemente publicado sobre o estudo da modelagem tópica em eDiscovery chama a atenção para o processo de busca na descoberta legal e destaca que um processo de busca assistida por computador não é apenas razoável, mas também é completo quando medido por tópicos. Este artigo, compartilhado com permissão, é fornecido para sua consideração.

Está faltando alguma coisa? Modelagem de tópicos em eDiscovery

Por Herbert Roitblat, Ph.D.

Abstrato

Em eDiscovery legal, as partes são obrigadas a pesquisar através de suas informações armazenadas eletronicamente para encontrar documentos que são relevantes para um caso específico. As negociações sobre o âmbito destas buscas baseiam-se frequentemente no receio de que algo se perca. Este artigo continua um argumento de que a descoberta deve ser baseada na identificação dos fatos de um caso. Se um processo de pesquisa estiver menor do que concluído (se tiver Recall inferior a 100%), ele ainda pode estar completo na apresentação de todos os tópicos relevantes disponíveis. Neste estudo, a alocação latente de Dirichlet foi utilizada para identificar 100 tópicos de todos os documentos relevantes conhecidos. Os documentos foram então categorizados em cerca de 80% Recall (ou seja, 80% dos documentos relevantes foram encontrados pelo categorizador, designou o conjunto de acertos e 20% foram perdidos, designado o conjunto perdido). Apesar do fato de que menos do que todos os documentos relevantes foram identificados pelo categorizador, os documentos identificados continham todos os tópicos derivados do conjunto completo de documentos. Esse mesmo padrão manteve se o categorizador era um categorizador Bayes ingênuo treinado em uma seleção aleatória de documentos ou uma Máquina de Vetor de Suporte treinada com Aprendizagem Ativa Contínua (que concentra a avaliação nos documentos mais provávelmente relevantes). Nenhum tópico foi identificado no conjunto perdido do categorizador que ainda não foram vistos no conjunto de ocorrências. Não só um processo de busca assistida por computador é razoável (conforme exigido pelas Regras Federais de Processo Civil), como também está completo quando medido por tópicos.

Revise o documento completo (PDF)

Modelagem de Tópicos em eDiscovery — Herbert Roitblat Ph.D

Leia o artigo original via ARXIV® (Cornell University)

Leitura Adicional

É tudo relativo? Pesquisa de Tecnologias e Protocolos de Codificação Preditiva - Resultados da Primavera de 2020

Das plataformas aos fluxos de trabalho: Pesquisa de tecnologias e protocolos de codificação preditiva - Resultados do outono de 2019

Fonte: ComplexDiscovery

Da detecção proativa às revisões de violação de dados: descoberta e extração de dados confidenciais com Ascema

A steady rise in the number of sensitive data discovery requirements...

Redefinindo a linha de base? Ajustes de tamanho do mercado de eDiscovery

An unanticipated pandemeconomic-driven retraction in eDiscovery spending during 2020 has resulted...

Novidades do NIST: Integrando a Segurança Cibernética e o Gerenciamento de Riscos Empresariais (ERM)

NIST has released NISTIR 8286, Integrating Cybersecurity and Enterprise Risk Management...

Uma Aliança Nublada? Uma nuvem de próxima geração para a Europa

According to Thierry Breton, Commissioner for the Internal Market, "Europe needs...

A Running List: Top 100+ eDiscovery Providers

Based on a compilation of research from analyst firms and industry...

Guia de Compradores de Sistemas de Disclosure — Edição 2020 (Andrew Haslam)

Authored by industry expert Andrew Haslam, the eDisclosure Buyers Guide continues...

A Corrida para a Linha de Partida? Anúncios recentes de revisão remota segura

Not all secure remote review offerings are equal as the apparent...

Ativando a Descoberta Eletrônica Remota? Um instantâneo de DAaS

Desktop as a Service (DaaS) providers are becoming important contributors to...

Redefinindo a linha de base? Ajustes de tamanho do mercado de eDiscovery

An unanticipated pandemeconomic-driven retraction in eDiscovery spending during 2020 has resulted...

Para casa ou para fora? Considerações de preço e dimensionamento do mercado de coleta de eDiscovery

One of the key home (onsite) or away (remote) decisions that...

Revisões e decisões? Novas considerações sobre análises remotas seguras de eDiscovery

One of the key revision and decision areas that business, legal,...

Uma visão macro do tamanho do mercado de descoberta eletrônica passado e projetado de 2012 a 2024

From a macro look at past estimations of eDiscovery market size...

Uma Temporada de Mudança? Dezoito observações sobre a confiança dos negócios do eDiscovery no outono de 2020

In the fall of 2020, 77.2% of eDiscovery Business Confidence Survey...

O Caso Continuado de Restrições Orçamentárias no Negócio de eDiscovery

In the fall of 2020, 49.4% of respondents viewed budgetary constraints...

Contas pendentes? Métricas operacionais de eDiscovery no outono de 2020

In the fall of 2020, eDiscovery Business Confidence Survey more...

Segurando o leme? Resultados da Pesquisa de Confiança Empresarial de eDiscovery

This is the twentieth quarterly eDiscovery Business Confidence Survey conducted by...

DISCO levanta US $60 milhões

According to the media release, DISCO will use this investment to...

Rampiva e o Grupo RYABI

According to today's announcement, the RYABI Group merger is Rampiva's first...

eDiscovery Fusões, aquisições e investimentos no terceiro trimestre de 2020

From HaystackID and NightOwl Global to Reveal Data and NexLP, the...

Mitratech adquire Acuity ELM

According to Mike Williams, CEO of Mitratech, “We came to the...

Cinco ótimas leituras sobre eDiscovery em outubro de 2020

From business confidence and captive ALSPs to digital republics and mass...

Cinco ótimas leituras sobre eDiscovery em setembro de 2020

From cloud forensics and cyber defense to social media and surveys,...

Cinco grandes leituras sobre eDiscovery para agosto de 2020

From predictive coding and artificial intelligence to antitrust investigations and malware,...

Cinco grandes leituras sobre eDiscovery em julho de 2020

From business confidence and operational metrics to data protection and privacy...