Что-то не хватает? Моделирование тем в раскрытии электронных данных

The basic idea behind topic modeling, according to eDiscovery expert and author Herbert Roitblat, is that documents consist of words that are derived from some mixture of topics. The goal of eDiscovery, argues the author, is to get the information contained in a collection of documents, not to get the documents themselves. The documents are just a means to reach the information.

en flag
nl flag
et flag
fi flag
fr flag
de flag
pt flag
ru flag
es flag

Примечание редактора: Как автор, автор и докладчик по раскрытию электронных данных, Герберт Ройтблат является технологическим предпринимателем, изобретателем и экспертом, который не нуждается в знакомстве с серьезными профессионалами в экосистеме eDiscovery. В настоящее время он является главным ученым по данным в Mimecast, признанным экспертом в различных областях: от когнитивных наук и поиска информации до раскрытия электронных данных и машинного обучения. Его недавно опубликованная статья об исследовании тематического моделирования в eDiscovery, являясь плодовитым исследователем и автором, обращает внимание на поисковый процесс в раскрытии юридических данных и подчеркивает, что компьютерный поиск не только является разумным, но и является полным при измерении по темам. Этот документ, совместно представленный с разрешения, представлен на ваше рассмотрение.

Есть что-то, что я упускаю? Моделирование тем в раскрытии электронных данных

Герберт Ройтблат, доктор философии.

Аннотация

При юридическом раскрытии электронных данных стороны обязаны искать информацию, хранящуюся в электронной форме, чтобы найти документы, имеющие отношение к конкретному случаю. Переговоры о масштабах этих поисков часто основываются на опасениях, что что-то будет пропущено. В настоящем документе продолжается аргумент о том, что открытие должно основываться на выявлении фактов дела. Если процесс поиска не завершен (если он имеет значение Recall менее 100%), он все равно может быть завершен в представлении всех соответствующих доступных тем. В этом исследовании Latent Dirichlet Allocation был использован для определения 100 тем из всех известных соответствующих документов. Документы были затем классифицированы примерно до 80% Recall (т.е. 80% соответствующих документов были найдены классификатором, обозначены набор хитов и 20% были пропущены, обозначены пропущенным набором). Несмотря на то, что классификатор определил менее всех соответствующих документов, идентифицированные документы содержали все темы, вытекающие из полного набора документов. Эта же модель заключалась в том, был ли классификатор наивным категоризатором Байеса, обученным случайным выбором документов, или машиной вектора поддержки, обученной непрерывным активным обучением (которая фокусирует оценку на наиболее вероятных, чтобы быть релевантными документами). Ни в одном из пропущенных наборов классификаторов не были выявлены темы, которые еще не были видны в наборе хитов. Процесс компьютерного поиска является не только разумным (как того требуют Федеральные гражданские процессуальные нормы), но и полным, если он измеряется по темам.

Ознакомьтесь с полным документом (PDF)

Моделирование тем в раскрытии электронных данных — Herbert Roitblat Ph.D.

Читайте оригинальную статью через arXiv® (Корнельский университет)

Дополнительное чтение

Все ли это относительно? Исследование технологий и протоколов прогнозного кодирования - результаты весны 2020

От платформ к рабочим процессам: исследование технологий и протоколов прогнозного кодирования - результаты осени 2019

Источник: КомплексДискавери

Цена успеха? Обзор ценообразования на раскрытие электронной документации (зима 2021 года)

Based on the complexity of data and legal discovery, it is...

Глубокое Стейт? Тринадцать исследовательских отчетов о состоянии бизнеса по раскрытию электронной документации в 2020 году

As part of its coverage of the business of eDiscovery, ComplexDiscovery...

X-Road® в соответствии со стандартом цифровых общественных благ

X-Road® implements a set of standard features to support and facilitate...

Пять отличных чтений по раскрытию электронной документации за ноябрь 2020 года

From market sizing and cyber law to industry investments and customer...

A Running List: Top 100+ eDiscovery Providers

Based on a compilation of research from analyst firms and industry...

Руководство по покупателям систем электронного раскрытия информации — издание 2020 года (Эндрю Хаслам)

Authored by industry expert Andrew Haslam, the eDisclosure Buyers Guide continues...

Гонка на стартовой линии? Недавние объявления о безопасному удаленному обзору

Not all secure remote review offerings are equal as the apparent...

Включение удаленного обнаружения электронных данных? Снимок DaaS

Desktop as a Service (DaaS) providers are becoming important contributors to...

Новая эра в раскрытии электронных данных? Обрамление роста рынка через призму шести эпох

There are many excellent resources for considering chronological and historiographical approaches...

Mashup на рынке раскрытия электронной документации: 2020-2025 годы Обзор программного обеспечения и услуг по всему миру

While the Compound Annual Growth Rate (CAGR) for worldwide eDiscovery software...

Сброс базовой линии? Корректировка размера рынка раскрытия электронных данных на 2020 год

An unanticipated pandemeconomic-driven retraction in eDiscovery spending during 2020 has resulted...

Домой или уходом? Соображения по вопросам размера и ценообразования на рынке коллекции электронных данных Discovery

One of the key home (onsite) or away (remote) decisions that...

Цена успеха? Обзор ценообразования на раскрытие электронной документации (зима 2021 года)

Based on the complexity of data and legal discovery, it is...

Глубокое Стейт? Тринадцать исследовательских отчетов о состоянии бизнеса по раскрытию электронной документации в 2020 году

As part of its coverage of the business of eDiscovery, ComplexDiscovery...

Сезон перемен? Восемнадцать замечаний о доверии бизнеса по раскрытию электронных данных осенью 2020 года

In the fall of 2020, 77.2% of eDiscovery Business Confidence Survey...

Продолжающийся случай бюджетных ограничений в сфере раскрытия электронных данных

In the fall of 2020, 49.4% of respondents viewed budgetary constraints...

Epiq приобретает глобальных партнеров Hyperion

According to Ziad Mantoura, SVP and General Manager for Epiq's legal...

Smash приобретает цифровые рассуждения

According to the media release, Tim Estes, Founder and CEO of...

Суд Рейнен обеспечивает дополнительное финансирование

According to the media release, Reynen Court has secured $4.5 million...

DISCO поднимает 60 миллионов долларов

According to the media release, DISCO will use this investment to...

Пять отличных чтений по раскрытию электронной документации за ноябрь 2020 года

From market sizing and cyber law to industry investments and customer...

Пять замечательных чтений по раскрытию электронных данных за октябрь 2020 года

From business confidence and captive ALSPs to digital republics and mass...

Пять замечательных чтений по раскрытию электронных данных за сентябрь 2020 года

From cloud forensics and cyber defense to social media and surveys,...

Пять замечательных чтений по раскрытию электронных данных за август 2020 года

From predictive coding and artificial intelligence to antitrust investigations and malware,...