Что-то не хватает? Моделирование тем в раскрытии электронных данных

The basic idea behind topic modeling, according to eDiscovery expert and author Herbert Roitblat, is that documents consist of words that are derived from some mixture of topics. The goal of eDiscovery, argues the author, is to get the information contained in a collection of documents, not to get the documents themselves. The documents are just a means to reach the information.

en flag
nl flag
et flag
fi flag
fr flag
de flag
pt flag
ru flag
es flag

Примечание редактора: Как автор, автор и докладчик по раскрытию электронных данных, Герберт Ройтблат является технологическим предпринимателем, изобретателем и экспертом, который не нуждается в знакомстве с серьезными профессионалами в экосистеме eDiscovery. В настоящее время он является главным ученым по данным в Mimecast, признанным экспертом в различных областях: от когнитивных наук и поиска информации до раскрытия электронных данных и машинного обучения. Его недавно опубликованная статья об исследовании тематического моделирования в eDiscovery, являясь плодовитым исследователем и автором, обращает внимание на поисковый процесс в раскрытии юридических данных и подчеркивает, что компьютерный поиск не только является разумным, но и является полным при измерении по темам. Этот документ, совместно представленный с разрешения, представлен на ваше рассмотрение.

Есть что-то, что я упускаю? Моделирование тем в раскрытии электронных данных

Герберт Ройтблат, доктор философии.

Аннотация

При юридическом раскрытии электронных данных стороны обязаны искать информацию, хранящуюся в электронной форме, чтобы найти документы, имеющие отношение к конкретному случаю. Переговоры о масштабах этих поисков часто основываются на опасениях, что что-то будет пропущено. В настоящем документе продолжается аргумент о том, что открытие должно основываться на выявлении фактов дела. Если процесс поиска не завершен (если он имеет значение Recall менее 100%), он все равно может быть завершен в представлении всех соответствующих доступных тем. В этом исследовании Latent Dirichlet Allocation был использован для определения 100 тем из всех известных соответствующих документов. Документы были затем классифицированы примерно до 80% Recall (т.е. 80% соответствующих документов были найдены классификатором, обозначены набор хитов и 20% были пропущены, обозначены пропущенным набором). Несмотря на то, что классификатор определил менее всех соответствующих документов, идентифицированные документы содержали все темы, вытекающие из полного набора документов. Эта же модель заключалась в том, был ли классификатор наивным категоризатором Байеса, обученным случайным выбором документов, или машиной вектора поддержки, обученной непрерывным активным обучением (которая фокусирует оценку на наиболее вероятных, чтобы быть релевантными документами). Ни в одном из пропущенных наборов классификаторов не были выявлены темы, которые еще не были видны в наборе хитов. Процесс компьютерного поиска является не только разумным (как того требуют Федеральные гражданские процессуальные нормы), но и полным, если он измеряется по темам.

Ознакомьтесь с полным документом (PDF)

Моделирование тем в раскрытии электронных данных — Herbert Roitblat Ph.D.

Читайте оригинальную статью через arXiv® (Корнельский университет)

Дополнительное чтение

Все ли это относительно? Исследование технологий и протоколов прогнозного кодирования - результаты весны 2020

От платформ к рабочим процессам: исследование технологий и протоколов прогнозного кодирования - результаты осени 2019

Источник: КомплексДискавери

От упреждающего обнаружения до проверки нарушений данных: обнаружение и извлечение конфиденциальных данных с помощью Ascema

A steady rise in the number of sensitive data discovery requirements...

Сброс базовой линии? Корректировка размера рынка раскрытия электронных данных на 2020 год

An unanticipated pandemeconomic-driven retraction in eDiscovery spending during 2020 has resulted...

Новое от NIST: интеграция кибербезопасности и управления рисками предприятия (ERM)

NIST has released NISTIR 8286, Integrating Cybersecurity and Enterprise Risk Management...

Облачный альянс? Облако следующего поколения для Европы

According to Thierry Breton, Commissioner for the Internal Market, "Europe needs...

A Running List: Top 100+ eDiscovery Providers

Based on a compilation of research from analyst firms and industry...

Руководство по покупателям систем электронного раскрытия информации — издание 2020 года (Эндрю Хаслам)

Authored by industry expert Andrew Haslam, the eDisclosure Buyers Guide continues...

Гонка на стартовой линии? Недавние объявления о безопасному удаленному обзору

Not all secure remote review offerings are equal as the apparent...

Включение удаленного обнаружения электронных данных? Снимок DaaS

Desktop as a Service (DaaS) providers are becoming important contributors to...

Сброс базовой линии? Корректировка размера рынка раскрытия электронных данных на 2020 год

An unanticipated pandemeconomic-driven retraction in eDiscovery spending during 2020 has resulted...

Домой или уходом? Соображения по вопросам размера и ценообразования на рынке коллекции электронных данных Discovery

One of the key home (onsite) or away (remote) decisions that...

Изменения и решения? Новые соображения по безопасному удаленному проверку обнаружения электронных данных

One of the key revision and decision areas that business, legal,...

A Macro Look at Past and Projected eDiscovery Market Size from 2012 to 2024

From a macro look at past estimations of eDiscovery market size...

Сезон перемен? Восемнадцать замечаний о доверии бизнеса по раскрытию электронных данных осенью 2020 года

In the fall of 2020, 77.2% of eDiscovery Business Confidence Survey...

Продолжающийся случай бюджетных ограничений в сфере раскрытия электронных данных

In the fall of 2020, 49.4% of respondents viewed budgetary constraints...

Непогашенные счета? Операционные метрики обнаружения электронных данных осенью 2020 года

In the fall of 2020, eDiscovery Business Confidence Survey more...

Держа Руль? Результаты исследования доверия бизнеса к раскрытию электронной документации осенью 2020 г.

This is the twentieth quarterly eDiscovery Business Confidence Survey conducted by...

DISCO поднимает 60 миллионов долларов

According to the media release, DISCO will use this investment to...

Рампива и объединение RYABI Group

According to today's announcement, the RYABI Group merger is Rampiva's first...

Слияния, поглощения и инвестиции в раскрытие электронных данных в третьем квартале 2020 года

From HaystackID and NightOwl Global to Reveal Data and NexLP, the...

Митратех приобретает остроту ELM

According to Mike Williams, CEO of Mitratech, “We came to the...

Пять замечательных чтений по раскрытию электронных данных за октябрь 2020 года

From business confidence and captive ALSPs to digital republics and mass...

Пять замечательных чтений по раскрытию электронных данных за сентябрь 2020 года

From cloud forensics and cyber defense to social media and surveys,...

Пять замечательных чтений по раскрытию электронных данных за август 2020 года

From predictive coding and artificial intelligence to antitrust investigations and malware,...

Пять отличных данных по раскрытию электронных данных за июль 2020 года

From business confidence and operational metrics to data protection and privacy...