Sun. Sep 25th, 2022
    en flag
    nl flag
    et flag
    fi flag
    fr flag
    de flag
    he flag
    ja flag
    lv flag
    pl flag
    pt flag
    ru flag
    es flag

    Примечание редактора: Это седьмой полугодовой опрос технологий и протоколов предиктивного кодирования, проведенный компанией ComplexDiscovery. Первоначальные шесть опросов дали подробные отзывы примерно 384* специалистов по юридическим, деловым и технологическим вопросам об использовании конкретных технологий машинного обучения в предиктивном кодировании, а также показали использование этих технологий машинного обучения в качестве примера анализа с помощью технологий протоколы. Эта итерация опроса по-прежнему сосредоточена на технологиях, протоколах, рабочих процессах и использовании прогнозного кодирования в экосистеме eDiscovery. Первоначально состоявший из четырех основных вопросов, начиная с осени 2020 года, в опрос был включен один новый вопрос о распространенности использования прогнозного кодирования в рамках рабочих процессов обнаружения электронной документации.

    Технологии и протоколы предиктивного кодирования (опрос)

    Опрос из пяти вопросов

    Ниже приведена ссылка на простой опрос из пяти вопросов, предназначенный для отслеживания текущего применения технологий, протоколов, рабочих процессов и использования прогнозного кодирования в экосистеме eDiscovery.

    Специалистам по правовым вопросам, информационным технологиям и бизнесу, участвующим в организационной деятельности, связанной с использованием предиктивного кодирования, предлагается завершить краткий опрос из пяти вопросов.

    Результаты опроса (за исключением контактных данных респондента) будут обобщены и опубликованы в блоге ComplexDiscovery для использования сообществом eDiscovery.

    Технологии и протоколы предиктивного кодирования (Backgrounder)

    Как определено в Глоссарии Технологического обзора Гроссмана-Кормака (1), прогнозное кодирование — это специфический для отрасли термин, обычно используемый для описания технологического процесса обзора, включающего использование алгоритма машинного обучения для отличия релевантных от нерелевантных документов на основе темы кодирование экспертом по материи учебного комплекта документов. Это определение предиктивного кодирования предоставляет базовое описание, которое определяет одну конкретную функцию, которую общий набор общепринятых алгоритмов машинного обучения может использовать в технологическом обзоре (TAR).

    В связи с растущим осознанием и использованием предиктивного кодирования в правовой сфере сегодня становится все более важным, чтобы специалисты по электронным обнаружению имели общее представление о технологиях, которые могут быть внедрены на платформах электронного обнаружения для упрощения прогнозного кодирования информации, хранящейся в электронном виде. Это общее понимание крайне важно, поскольку каждый потенциальный алгоритмический подход обладает преимуществами и недостатками эффективности, которые могут повлиять на эффективность и эффективность прогнозного кодирования.

    Чтобы помочь развить общее представление о технологиях предиктивного кодирования и предоставить поставщикам электронных исследований возможность делиться технологиями и протоколами, которые они используют на своих платформах для предиктивного кодирования, следующие рабочие списки предиктивного кодирования технологии и протоколы TAR предоставляются для вашего использования. Рабочие списки рабочих процессов и видов использования предиктивного кодирования также включены на ваше рассмотрение, поскольку они помогают определить, как внедряются и используются технологии прогнозирования кодирования и протоколы TAR.

    Рабочий список технологий предиктивного кодирования (1,2,3,4)

    Ниже представлен неполный рабочий список идентифицированных технологий машинного обучения, которые были применены или могут быть применены к дисциплине eDiscovery для упрощения предиктивное кодирование. Этот рабочий список предназначен для того, чтобы служить ориентиром для выявленных технологий прогнозного кодирования и со временем может включать дополнения, корректировки и поправки, основанные на отзывах экспертов и организаций, применяющих и внедряющих эти основные технологии на своих конкретных платформах раскрытия электронных данных.

    В алфавитном порядке

    Активное обучение: обычно итеративный процесс, в рамках которого используется алгоритм для выбора документов, которые должны быть рассмотрены для обучения на основе стратегии, помогающей алгоритму классификации эффективно учиться.

    Дерево принятия решений: пошаговый метод разграничения релевантных и нерелевантных документов в зависимости от того, какое сочетание слов (или других особенностей) они содержат. Дерево принятия решений для идентификации документов, относящихся к производным финансовым инструментам, может сначала определить, содержит ли документ слово «своп». Если это так, дерево решений может затем определить, содержит ли документ «кредит» и так далее. Дерево принятия решений может быть создано с помощью инженерии знаний или машинного обучения.

    Классификатор K-narest Neighbor Classifier (K-nN): алгоритм классификации, который анализирует k примеров документов, наиболее похожих (ближайших) с классифицируемым документом, чтобы определить наилучшую классификацию для документа. Если k слишком мал (например, k=1), добиться высокого уровня отзыва может быть крайне сложно.

    Латентный семантический анализ (LSA): математическое представление документов, в котором сильно коррелированные слова (т.е. слова, которые обычно встречаются в одних и тех же документах) как эквивалентные или взаимозаменяемые. Такая эквивалентность или взаимозаменяемость позволяют алгоритмам идентифицировать документы как концептуально схожие, даже если они не используют одни и те же слова (например, потому что синонимы могут сильно коррелировать), хотя они также отбрасывают потенциально полезную информацию и могут привести к нежелательным результатам, вызванным ложные корреляции.

    Логистическая регрессия: современный алгоритм машинного обучения с контролируемым контролем, который оценивает вероятность того, что документ будет релевантным, исходя из содержащихся в нем функций. В отличие от Naïve Bayes, алгоритм логистической регрессии определяет особенности, которые различают релевантные и нерелевантные документы.

    Наивный байесовский классификатор: система, которая изучает вероятность того, что каждое слово в новом документе было получено из распространения слов, полученных из подготовленного адаптивного документа или подготовленных документов, не отвечающих требованиям. Система наивна в том смысле, что она предполагает, что все слова не зависят друг от друга.

    Нейросеть: искусственная нейронная сеть (ANN) — это вычислительная модель. Она основана на структуре и функциях биологических нейронных сетей. Это работает так же, как человеческий мозг обрабатывает информацию. Он включает в себя большое количество подключенных процессоров, которые совместно обрабатывают информацию.

    Вероятностный скрытый семантический анализ (PLSA): по духу это похоже на LSA, но при этом используется вероятностная модель для достижения результатов, которые, как ожидается, будут лучше.

    Случайные леса: метод обучения ансамблю для классификации, регрессии и других задач, который работает путем построения множества деревьев решений во время обучения и вывода класса, который является режимом классов (классификации) или средним предсказанием (регрессией) отдельных деревьев. Леса случайного принятия решений подходят для привычки деревьев принятия решений переписываться в их тренировочный набор.

    Обратная связь по актуальности: активный процесс обучения, в котором документы с наибольшей вероятностью релевантности кодируются человеком и добавляются в учебный набор.

    Support Vector Machine: Математический подход, который стремится найти линию, отделяющую отзывчивые и неотвечающие документы, так что в идеале все отзывчивые документы находятся на одной стороне линии, а все нереагирующие — с другой стороны.

    Общие протоколы TAR (5,6,7,8,9,10)

    Кроме того, эти технологии обычно используются в протоколе TAR, который определяет, как эти технологии используются. Примеры протоколов TAR включают в себя:

    В алфавитном порядке

    Непрерывное активное обучение® (CAL®): в CAL® методе TAR, разработанном, используемом и пропагандируемом Маурой Р. Гроссман и Гордоном В. Кормаком, после первоначального набора обучения учащийся неоднократно выбирает следующие наиболее подходящие документы (которые еще не рассматривались) для проверки, кодирования и обучения, и продолжает делать это до тех пор, пока она не сможет больше найти соответствующие документы. Второго обзора, как правило, нет, поскольку к моменту прекращения обучения учащийся все документы, которые он считает актуальными, уже идентифицированы и проверены вручную.

    Гибридный мультимодальный метод: подход, разработанный группой электронного обнаружения (Ralph Losey), который включает все типы методов поиска с упором на прогнозное кодирование и использование высокорейтинговых документов для непрерывного активного обучения.

    Масштабируемое непрерывное активное обучение (S-CAL): существенное различие между S-CAL и CAL® заключается в том, что для S-CAL для маркировки выбирается только конечная выборка документов из каждой последовательной партии, и процесс продолжается до тех пор, пока не будет исчерпан сбор или большая случайная выборка коллекции. В совокупности конечные выборки образуют стратифицированную выборку совокупности документов, из которой можно получить статистическую оценку ρ.

    Простое активное обучение (SAL): в методах SAL после набора начальной подготовки учащийся выбирает документы для проверки и кодирования преподавателем и используются в качестве примеров обучения, и продолжает отбирать примеры до тех пор, пока они не будут достаточно обучены. Как правило, учащийся выбирает документы, о которых учащийся меньше всего уверен, и, следовательно, из которых он узнает больше всего. После получения достаточного обучения учащийся используется для маркировки каждого документа в коллекции. Как и в случае с SPL, документы, обозначенные как соответствующие, обычно пересматриваются вручную.

    Простое пассивное обучение (SPL): в простых методах пассивного обучения («SPL») учитель (т.е. человек-оператор) выбирает документы для использования в качестве учебных примеров; учащийся обучается на этих примерах, и после достаточной подготовки используется для маркировки каждого документа в коллекции как релевантного или нерелевантного. актуально. Как правило, документы, обозначенные учащимся как соответствующие, пересматриваются вручную. Этот ручной обзор представляет собой небольшую часть коллекции и, следовательно, небольшую часть времени и затрат на исчерпывающий ручной обзор.

    Рабочие процессы TAR (11)

    Рабочие процессы TAR представляют собой практическое применение технологий и протоколов предиктивного кодирования для определения подходов к выполнению задач прогнозного кодирования. Три примера рабочих процессов TAR:

    TAR 1.0 включает в себя стадию обучения, за которой следует этап проверки, и набор управления используется для определения оптимальной точки перехода от обучения к обзору. Система больше не учится после завершения этапа обучения. Набор управления представляет собой случайный набор документов, которые были проверены и отмечены как релевантные или нерелевантные. Документы контрольного набора не используются для обучения системы. Они используются для оценки прогнозов системы, чтобы обучение было прекращено, когда преимущества дополнительного обучения больше не перевешивают стоимость дополнительного обучения. Обучение может проводиться с использованием случайно отобранных документов, известных как простое пассивное обучение (SPL), или включать документы, выбранные системой для оптимизации эффективности обучения, известные как простое активное обучение (SAL).

    TAR 2.0 использует подход, называемый Continued Active Learning® (CAL®), что означает, что нет разделения между обучением и обзором — система продолжает учиться на протяжении всего времени. Хотя для выбора документов для рецензирования можно использовать множество подходов, важным компонентом CAL® является множество итераций прогнозирования, какие документы наиболее актуальны, их анализ и обновление прогнозов. В отличие от TAR 1.0, TAR 2.0, как правило, очень эффективен даже при низком уровне распространенности. Поскольку нет разделения между обучением и проверкой, TAR 2.0 не требует набора управления. Создание контрольного набора может включать анализ большого (особенно при низкой распространенности) количества нерелевантных документов, поэтому желательно избегать наборов контроля.

    TAR 3.0 требует высококачественного алгоритма концептуальной кластеризации, который формирует узкофокусированные кластеры фиксированного размера в концептуальном пространстве. Методология TAR 2.0 применяется только к кластерным центрам, что обеспечивает проверку разнообразного набора потенциально релевантных документов. Как только релевантные кластерные центры не будут найдены, рассматриваемые кластерные центры используются в качестве учебных документов для прогнозирования всей совокупности документов. Нет необходимости в наборе управления — система хорошо обучена, когда не удается найти дополнительных соответствующих кластерных центров. Анализ рассмотренных кластерных центров дает оценку распространенности и количества нерелевантных документов, которые будут подготовлены, если бы документы были подготовлены исключительно на основе прогнозов без человеческого анализа. Пользователь может принять решение о выпуске документов (не идентифицированных как потенциально привилегированные) без проверки, аналогично SAL из TAR 1.0 (но без набора управления), или он/она может рассмотреть документы, которые имеют слишком большой риск нерелевантности (которые могут быть использованы в качестве дополнительного обучения для системы, т.е. CAL®). Ключевым моментом является то, что пользователь имеет информацию, необходимую ему для принятия решения о том, как действовать после завершения проверки центров кластера, которые могут быть актуальны, и ничего не сделано до того, как это решение не будет признано недействительным (по сравнению с TAR 1.0, пересмотром набора элементов управления, нахождением что прогнозы недостаточно хороши для создания документов без проверки, а затем перехода на TAR 2.0, что делает набор управления практически бесполезным).

    Использует TAR (12)

    Технологии, протоколы и рабочие процессы TAR могут эффективно использоваться, чтобы помочь специалистам по раскрытию электронных данных выполнять множество задач по обнаружению данных и юридическому раскрытию. Девять часто рассматриваемых примеров использования ТАР включают:

    Идентификация соответствующих документов

    Ранняя оценка/расследование дела

    Приоритизация для проверки

    Классификация (по вопросам, для конфиденциальности или конфиденциальности)

    Проверка привилегий

    Контроль качества и обеспечение качества

    Обзор входящих продуктов

    Подготовка к депозиции/пробной подготовке

    Управление информацией и распоряжение данными

    Информация об обследовании (13,14,15,16,17,18, 19, 20, 21)

    Ссылки

    (1) Гроссман, М. и Кормак, Г. (2013). Глоссарий по технологической оценке Гроссмана-Кормака. [электронная книга] Обзор законодательства федеральных судов. Доступно по адресу: http://www.fclr.org/fclr/articles/html/2010/grossman.pdf [Доступ к 31 августа 2018 г.].

    (2) Димм, Б. (2018). Опыт в области предиктивного кодирования. [электронная почта].

    (3) Ройтблат, Г. (2013). Введение в предиктивное кодирование. [электронная книга] Orcatec. Доступно по адресу: 31 августа 2018 г.].

    (4) Треденник, Дж. и Пикенс, Дж. (2017). Глубокое обучение в области электронного обнаружения: движение мимо ажиотажирования. [онлайн] CatalystSecure.com. Доступно по адресу: 31 августа 2018 г.].

    (5) Гроссман, М. и Кормак, Г. (2017). Технологический обзор в области электронного обнаружения. [электронная книга] Доступно по адресу: 31 августа 2018 г.].

    (6) Гроссман, М. и Кормак, Г. (2016). Непрерывное активное обучение для TAR. [электронная книга] Практическое право. Доступно по адресу: 31 августа 2018 г.].

    (7) Гроссман, М. и Кормак, Г. (2016). Масштабируемость непрерывного активного обучения для надежной классификации текста с высоким отзывом. [электронная книга] Доступно по адресу: 3 сентября 2018 г.].

    (8) Лози, Р., Салливан, Дж. и Райхенбергер, Т. (2015). Команда электронного обнаружения на Total Recall Track Total Recall Track TREC 2015. [электронная книга] Доступно по адресу: 1 сентября 2018 г.].

    (9) «Торговая марка непрерывного активного обучения Мауры Гроссман и Гордона Кормака — Регистрационный номер 5876987 — Серийный номер 86634255። Торговые марки Justia». Trademarks.Justia.com, 2020, 12 февраля 2020 г.].

    (10) «Торговая марка CAL Моры Гроссман и Гордона Кормака — Регистрационный номер 5876988 — серийный номер 86634265። Торговые марки Justia». Trademarks.Justia.com, 2020, 12 февраля 2020 г.].

    (11) Димм, Б. (2016), TAR 3.0 Производительность. [online] Блог Clustify — раскрытие электронных данных, кластеризация документов, предиктивное кодирование, извлечение информации и разработка программного обеспечения. Доступно: 18 февраля 2019 г.].

    (12) Справочная модель электронного обнаружения (EDRM) (2019). Руководство по техническому обзору (TAR). [онлайн] Доступно: 18 февраля 2019 г.].

    (13) Димм, Б. (2018). TAR, пропорциональность и плохие алгоритмы (1-NN). [online] Блог Clustify — раскрытие электронных данных, кластеризация документов, предиктивное кодирование, извлечение информации и разработка программного обеспечения. Доступно по адресу: 31 августа 2018 г.].

    (14) Робинсон, Р. (2013). Результаты бега: опрос по внедрению провайдера прогнозного кодирования с одним вопросом. [онлайн] ComplexDiscovery: информация об обнаружении электронных данных Доступно по адресу: 31 августа 2018 г.].

    (15) Робинсон, Р. (2018). Бегущий список: более 100 лучших поставщиков электронных данных. [онлайн] ComplexDiscovery: информация об обнаружении электронных данных Доступно по адресу: 31 августа 2018 г.].

    (16) Робинсон, Р. (2018) Относительно говоря: технологии и протоколы предиктивного кодирования Результаты опроса [онлайн] ComplexDiscovery: информация об обнаружении электронных данных. Доступно: 18 февраля 2019 г.].

    (17) Робинсон, Р. (2019) Активно учиться? Технологии и протоколы предиктивного кодирования Результаты опроса [онлайн] ComplexDiscovery: информация об обнаружении электронных данных. Доступно по адресу: 22 августа 2019 г.]

    (18) Робинсон, Р. (2019) От платформ к рабочим процессам: опрос технологий и протоколов предиктивного кодирования — результаты осени 2019 года [онлайн] ComplexDiscovery: информация об обнаружении электронных данных. Доступно: 12 февраля 2020 г.].

    (19) Робинсон, Р. (2020) Все это относительно? Исследование технологий и протоколов предиктивного кодирования - Весенние результаты [online] ComplexDiscovery: информация об обнаружении электронных данных. Доступно по адресу: [Доступ к 7 августа 2020 г.].

    (20) Робинсон, Р. (2020) Кастинг более широкой сети? Исследование технологий и протоколов предиктивного кодирования — осень 2020 года [online] ComplexDiscovery: информация об обнаружении электронных данных. Доступно по адресу: [Доступно 5 февраля 2021 года].

    (21) Робинсон, Р. (2021) Улов холодной погоды? Исследование технологий и протоколов предиктивного кодирования - весна 2021 года [online] ComplexDiscovery: информация об обнаружении электронных данных. Доступно по адресу: [Доступ к 8 августа 2021 года].

    Нажмите здесь, чтобы предоставить конкретные дополнения, исправления и обновления.

    * Респонденты опросов прогнозного кодирования: шесть опросов

    Респонденты опросов прогнозного кодирования — шесть опросов

    Источник: комплексный обнаружение

    Leaning Forward? The CISA 2023-2025 Strategic Plan

    The purpose of the CISA Strategic Plan is to communicate the...

    Continuous Risk Improvement? Q3 Cyber Round-Up From Cowbell Cyber

    According to Manu Singh, director of risk engineering at Cowbell, "Every...

    Комплексный ресурс по киберобнаружению? Диаграмма политики в области кибербезопасности МО от CSIAC

    The Cyber Security and Information Systems Information Analysis Center (CSIAC) is...

    Rapidly Evolving Cyber Insurance? Q2 Cyber Round-Up From Cowbell Cyber

    According to Isabelle Dumont, SVP of Marketing and Technology Partners at...

    Revealing Response? Nuix Responds to ASX Request for Information

    The following investor news update from Nuix shares a written response...

    Revealing Reports? Nuix Notes Press Speculation

    According to a September 9, 2022 market release from Nuix, the...

    Regards to Broadway? HaystackID® Acquires Business Intelligence Associates

    According to HaystackID CEO Hal Brooks, “BIA is a leader in...

    One Large Software and Cloud Business? OpenText to Acquire Micro Focus

    According to OpenText CEO & CTO Mark J. Barrenechea, “We are...

    Five Great Reads on Cyber, Data, and Legal Discovery for September 2022

    From privacy legislation and special masters to acquisitions and investigations, the...

    Five Great Reads on Cyber, Data, and Legal Discovery for August 2022

    From AI and Big Data challenges to intriguing financial and investment...

    Five Great Reads on Cyber, Data, and Legal Discovery for July 2022

    From lurking business undercurrents to captivating deepfake developments, the July 2022...

    Five Great Reads on Cyber, Data, and Legal Discovery for June 2022

    From eDiscovery ecosystem players and pricing to data breach investigations and...

    Cooler Temperatures? Fall 2022 eDiscovery Business Confidence Survey Results

    Since January 2016, 2,874 individual responses to twenty-eight quarterly eDiscovery Business...

    Inflection or Deflection? An Aggregate Overview of Eight Semi-Annual eDiscovery Pricing Surveys

    Initiated in the winter of 2019 and conducted eight times with...

    Changing Currents? Eighteen Observations on eDiscovery Business Confidence in the Summer of 2022

    In the summer of 2022, 54.8% of survey respondents felt that...

    Challenging Variants? Issues Impacting eDiscovery Business Performance: A Summer 2022 Overview

    In the summer of 2022, 28.8% of respondents viewed increasing types...

    Nuclear Options? Ukraine Conflict Assessments in Maps (September 17 – 21, 2022)

    According to a recent update from the Institute for the Study...

    Mass Graves and Torture Chambers? Ukraine Conflict Assessments in Maps (September 12 – 16, 2022)

    According to a recent update from the Institute for the Study...

    On The Run? Ukraine Conflict Assessments in Maps (September 7 – 11, 2022)

    According to a recent update from the Institute for the Study...

    Tangible Degradation? Ukraine Conflict Assessments in Maps (September 2 – 6, 2022)

    According to a recent update from the Institute for the Study...