Falta alguma coisa? Modelagem de tópicos em eDiscovery

The basic idea behind topic modeling, according to eDiscovery expert and author Herbert Roitblat, is that documents consist of words that are derived from some mixture of topics. The goal of eDiscovery, argues the author, is to get the information contained in a collection of documents, not to get the documents themselves. The documents are just a means to reach the information.

en flag
nl flag
et flag
fi flag
fr flag
de flag
pt flag
ru flag
es flag

Nota do editor: Como autor, colaborador e palestrante em eDiscovery, Herbert Roitblat é um empreendedor de tecnologia, inventor e especialista que não precisa de introdução a profissionais sérios no ecossistema de eDiscovery. Atualmente atuando como Cientista de Dados Principal na Mimecast, ele é um especialista reconhecido em áreas que vão desde ciência cognitiva e recuperação de informações até eDiscovery e aprendizado de máquina. Prolífico pesquisador e autor, seu artigo recentemente publicado sobre o estudo da modelagem tópica em eDiscovery chama a atenção para o processo de busca na descoberta legal e destaca que um processo de busca assistida por computador não é apenas razoável, mas também é completo quando medido por tópicos. Este artigo, compartilhado com permissão, é fornecido para sua consideração.

Está faltando alguma coisa? Modelagem de tópicos em eDiscovery

Por Herbert Roitblat, Ph.D.

Abstrato

Em eDiscovery legal, as partes são obrigadas a pesquisar através de suas informações armazenadas eletronicamente para encontrar documentos que são relevantes para um caso específico. As negociações sobre o âmbito destas buscas baseiam-se frequentemente no receio de que algo se perca. Este artigo continua um argumento de que a descoberta deve ser baseada na identificação dos fatos de um caso. Se um processo de pesquisa estiver menor do que concluído (se tiver Recall inferior a 100%), ele ainda pode estar completo na apresentação de todos os tópicos relevantes disponíveis. Neste estudo, a alocação latente de Dirichlet foi utilizada para identificar 100 tópicos de todos os documentos relevantes conhecidos. Os documentos foram então categorizados em cerca de 80% Recall (ou seja, 80% dos documentos relevantes foram encontrados pelo categorizador, designou o conjunto de acertos e 20% foram perdidos, designado o conjunto perdido). Apesar do fato de que menos do que todos os documentos relevantes foram identificados pelo categorizador, os documentos identificados continham todos os tópicos derivados do conjunto completo de documentos. Esse mesmo padrão manteve se o categorizador era um categorizador Bayes ingênuo treinado em uma seleção aleatória de documentos ou uma Máquina de Vetor de Suporte treinada com Aprendizagem Ativa Contínua (que concentra a avaliação nos documentos mais provávelmente relevantes). Nenhum tópico foi identificado no conjunto perdido do categorizador que ainda não foram vistos no conjunto de ocorrências. Não só um processo de busca assistida por computador é razoável (conforme exigido pelas Regras Federais de Processo Civil), como também está completo quando medido por tópicos.

Revise o documento completo (PDF)

Modelagem de Tópicos em eDiscovery — Herbert Roitblat Ph.D

Leia o artigo original via ARXIV® (Cornell University)

Leitura Adicional

É tudo relativo? Pesquisa de Tecnologias e Protocolos de Codificação Preditiva - Resultados da Primavera de 2020

Das plataformas aos fluxos de trabalho: Pesquisa de tecnologias e protocolos de codificação preditiva - Resultados do outono de 2019

Fonte: ComplexDiscovery

Revelar e Brainspace Mesclar

According to Wendell Jisa, founder and CEO of Reveal, "Backed by...

Fusões, aquisições e investimentos de eDiscovery em 2020

Since beginning to track the number of publicly highlighted merger, acquisition,...

Relatividade adquire VerQu

According to Relativity CEO Mike Gamson, "It's imperative that the legal...

Fusões, aquisições e investimentos do eDiscovery no 4º trimestre de 2020

From Nuix and DISCO to Exterro and AccessData, the following findings,...

A New Era in eDiscovery? Framing Market Growth Through the Lens of Six Eras

There are many excellent resources for considering chronological and historiographical approaches...

Um Mashup de tamanho do mercado de eDiscovery: 2020-2025 Visão geral mundial de software e serviços

While the Compound Annual Growth Rate (CAGR) for worldwide eDiscovery software...

Redefinindo a linha de base? Ajustes de tamanho do mercado de eDiscovery

An unanticipated pandemeconomic-driven retraction in eDiscovery spending during 2020 has resulted...

Para casa ou para fora? Considerações de preço e dimensionamento do mercado de coleta de eDiscovery

One of the key home (onsite) or away (remote) decisions that...

Cinco ótimas leituras sobre eDiscovery para janeiro 2021

From eDiscovery business confidence and operational metrics to merger and acquisition...

Cinco ótimas leituras sobre eDiscovery para dezembro de 2020

May the peace and joy of the holiday season be with...

Cinco ótimas leituras sobre eDiscovery para novembro de 2020

From market sizing and cyber law to industry investments and customer...

Cinco ótimas leituras sobre eDiscovery em outubro de 2020

From business confidence and captive ALSPs to digital republics and mass...

Só uma questão de tempo? HayStackID lança novo serviço para descoberta e revisão de violação de dados

According to HaystackID's Chief Innovation Officer and President of Global Investigations,...

É um fósforo! Concentrando-se no custo total da análise de eDiscovery com ReviewRight Match

As a leader in remote legal document review, HaystackID provides clients...

Da detecção proativa às revisões de violação de dados: descoberta e extração de dados confidenciais com Ascema

A steady rise in the number of sensitive data discovery requirements...

A Running List: Top 100+ eDiscovery Providers

Based on a compilation of research from analyst firms and industry...

Problemas que afetam o desempenho dos negócios do eDiscovery: uma visão geral do inverno 2021

In the winter of 2021, 43.3% of respondents viewed budgetary constraints...

Não é tão excelente? Métricas operacionais de eDiscovery no inverno de 2021

In the winter of 2021, eDiscovery Business Confidence Survey more...

Resultados da pesquisa de confiança dos negócios do eDiscovery do inverno 2021

This is the twenty-first quarterly eDiscovery Business Confidence Survey conducted by...

Cinco alto? Uma visão geral agregada de cinco pesquisas de preços semestral de descoberta eletrônica

As we are in the midst of a pandemic that has...