Что-то не хватает? Моделирование тем в раскрытии электронных данных

The basic idea behind topic modeling, according to eDiscovery expert and author Herbert Roitblat, is that documents consist of words that are derived from some mixture of topics. The goal of eDiscovery, argues the author, is to get the information contained in a collection of documents, not to get the documents themselves. The documents are just a means to reach the information.

en flag
nl flag
et flag
fi flag
fr flag
de flag
pt flag
ru flag
es flag

Примечание редактора: Как автор, автор и докладчик по раскрытию электронных данных, Герберт Ройтблат является технологическим предпринимателем, изобретателем и экспертом, который не нуждается в знакомстве с серьезными профессионалами в экосистеме eDiscovery. В настоящее время он является главным ученым по данным в Mimecast, признанным экспертом в различных областях: от когнитивных наук и поиска информации до раскрытия электронных данных и машинного обучения. Его недавно опубликованная статья об исследовании тематического моделирования в eDiscovery, являясь плодовитым исследователем и автором, обращает внимание на поисковый процесс в раскрытии юридических данных и подчеркивает, что компьютерный поиск не только является разумным, но и является полным при измерении по темам. Этот документ, совместно представленный с разрешения, представлен на ваше рассмотрение.

Есть что-то, что я упускаю? Моделирование тем в раскрытии электронных данных

Герберт Ройтблат, доктор философии.

Аннотация

При юридическом раскрытии электронных данных стороны обязаны искать информацию, хранящуюся в электронной форме, чтобы найти документы, имеющие отношение к конкретному случаю. Переговоры о масштабах этих поисков часто основываются на опасениях, что что-то будет пропущено. В настоящем документе продолжается аргумент о том, что открытие должно основываться на выявлении фактов дела. Если процесс поиска не завершен (если он имеет значение Recall менее 100%), он все равно может быть завершен в представлении всех соответствующих доступных тем. В этом исследовании Latent Dirichlet Allocation был использован для определения 100 тем из всех известных соответствующих документов. Документы были затем классифицированы примерно до 80% Recall (т.е. 80% соответствующих документов были найдены классификатором, обозначены набор хитов и 20% были пропущены, обозначены пропущенным набором). Несмотря на то, что классификатор определил менее всех соответствующих документов, идентифицированные документы содержали все темы, вытекающие из полного набора документов. Эта же модель заключалась в том, был ли классификатор наивным категоризатором Байеса, обученным случайным выбором документов, или машиной вектора поддержки, обученной непрерывным активным обучением (которая фокусирует оценку на наиболее вероятных, чтобы быть релевантными документами). Ни в одном из пропущенных наборов классификаторов не были выявлены темы, которые еще не были видны в наборе хитов. Процесс компьютерного поиска является не только разумным (как того требуют Федеральные гражданские процессуальные нормы), но и полным, если он измеряется по темам.

Ознакомьтесь с полным документом (PDF)

Моделирование тем в раскрытии электронных данных — Herbert Roitblat Ph.D.

Читайте оригинальную статью через arXiv® (Корнельский университет)

Дополнительное чтение

Все ли это относительно? Исследование технологий и протоколов прогнозного кодирования - результаты весны 2020

От платформ к рабочим процессам: исследование технологий и протоколов прогнозного кодирования - результаты осени 2019

Источник: КомплексДискавери

Твердый взгляд из Европы? Деятельность по слиянию и поглощению юридических технологий с Майком Брайантом и Джоном Джейкобсом

From Special Purpose Acquisition Companies (SPACs) to the recent flurry of...

Gimmal приобретает программное обеспечение Sherpa

According to Mark Johnson, Chief Executive Officer at Gimmal, "With the...

Магнитная криминалистика закрывает IPO на 115 миллионов долларов

According to Adam Belsher, Magnet Forensics' CEO, "I'm proud of the...

XDD приобретает Парало

According to Bob Polus, XDD Founder and CEO, “As part of...

Новая эра в раскрытии электронных данных? Обрамление роста рынка через призму шести эпох

There are many excellent resources for considering chronological and historiographical approaches...

Mashup на рынке раскрытия электронной документации: 2020-2025 годы Обзор программного обеспечения и услуг по всему миру

While the Compound Annual Growth Rate (CAGR) for worldwide eDiscovery software...

Сброс базовой линии? Корректировка размера рынка раскрытия электронных данных на 2020 год

An unanticipated pandemeconomic-driven retraction in eDiscovery spending during 2020 has resulted...

Домой или уходом? Соображения по вопросам размера и ценообразования на рынке коллекции электронных данных Discovery

One of the key home (onsite) or away (remote) decisions that...

Пять великих чтений об раскрытии электронных данных за апрель 2021 года

From X-Road® and risk management to business confidence and cybersecurity, the...

Пять великих чтений об раскрытии электронных данных за март 2021 года

From data breach economics and vulnerabilities to private-equity investments and vendor...

Пять великих чтений по раскрытию электронных данных за февраль 2021 года

From litigation trends and legal tech investing to facial recognition and...

Пять великих чтений об раскрытии электронных данных за январь 2021 года

From eDiscovery business confidence and operational metrics to merger and acquisition...

Gimmal приобретает программное обеспечение Sherpa

According to Mark Johnson, Chief Executive Officer at Gimmal, "With the...

Есть совместимость? CloudNine запускает портал обнаружения

According to Jacob Hesse, VP of Product at CloudNine, “Discovery Portal...

Магнитная криминалистика закрывает IPO на 115 миллионов долларов

According to Adam Belsher, Magnet Forensics' CEO, "I'm proud of the...

XDD приобретает Парало

According to Bob Polus, XDD Founder and CEO, “As part of...

Восемнадцать наблюдений за уверенностью бизнеса по раскрытию электронной документации весной 2021 года

In the spring of 2021, 60.0% of eDiscovery Business Confidence Survey...

Проблемы, влияющие на производительность бизнеса по раскрытию электронной документации: обзор весны 2021 года

In the spring of 2021, 25.0% of respondents viewed budgetary constraints...

Счастливые дни снова близки? Операционные метрики раскрытия электронной документации весной 2021 года

In the spring of 2021, 93 eDiscovery Business Confidence Survey participants...

Всплеск оптимизма? Весной 2021 года результаты опроса доверия бизнеса по раскрытию электронной документации

This is the twenty-second quarterly eDiscovery Business Confidence Survey conducted by...