Sun. Sep 25th, 2022
    en flag
    nl flag
    et flag
    fi flag
    fr flag
    de flag
    he flag
    ja flag
    lv flag
    pl flag
    pt flag
    ru flag
    es flag

    編集者注:これは、ComplexDiscoveryが実施する半年に1回目の予測コーディング技術とプロトコルに関する調査です。最初の6つの調査では、予測コーディングにおける特定の機械学習技術の使用に関する法律、ビジネス、およびテクノロジーの専門家から約384名の詳細なフィードバックが提供され、技術支援レビューの例としてこれらの機械学習技術の使用が強調されました。プロトコル。この調査の反復では、eDiscoveryエコシステム全体の予測コーディング技術、プロトコル、ワークフロー、および用途に焦点を当てています。もともと 4 つの主要な質問で構成されていましたが、2020 年の秋から、この調査では、eDiscovery ワークフローの一部として予測コーディングの使用率に関する新しい質問が 1 つ含まれていました。

    予測符号化技術とプロトコル (調査)

    5 質問アンケート

    以下に、eDiscoveryエコシステムにおけるテクノロジー、プロトコル、ワークフロー、予測コーディングの現在の用途を把握するための簡単な5質問アンケートへのリンクを示します。

    予測コーディングの使用を含む組織活動に関与する法律、情報技術、およびビジネスの専門家は、短い5質問調査を完了することをお勧めします。

    アンケートの結果(回答者の連絡先情報を除く)は、電子情報開示コミュニティが使用するために ComplexDiscovery ブログに集約され、公開されます。

    予測符号化技術とプロトコル (調査バックグラウンダー)

    Grossman-Cormack 技術支援レビュー用語集 (1) で定義されているように、予測符号化は、一般に、関連する文書と関係のない文書を区別するための機械学習アルゴリズムの使用を含む技術支援によるレビュープロセスを記述するために使用される業界固有の用語です。マターエキスパートのトレーニングセットの文書をコーディングします。この予測コーディングの定義は、一般的に受け入れられている機械学習アルゴリズムが技術支援レビュー (TAR) で使用する可能性のある特定の関数を特定するベースライン記述を提供します。

    今日の法的分野における予測コーディングの認識と使用が高まる中、予測コーディングを容易にするために、電子ディスカバリープラットフォームに実装される可能性のあるテクノロジーを電子ディスカバリのプロフェッショナルが全般的に理解することがますます重要になっています。電子的に保存された情報の。この一般的な理解は、潜在的なアルゴリズムアプローチには効率の長所と短所があり、予測符号化の効率と有効性に影響を与える可能性があるため、不可欠です。

    この予測コーディング技術の一般的な理解を深めるのに役立ち、電子ディスカバリープロバイダーが、予測コーディングを実現するために、およびプラットフォームで使用するテクノロジーとプロトコルを共有する機会を提供するために、次の予測コーディングのワーキングリストを示します。テクノロジーと TAR プロトコルは、お客様が使用できるように提供されています。予測コーディングのワークフローと用途に関する作業リストも、予測符号化テクノロジーと TAR プロトコルの実装方法および使用方法の定義に役立つため、考慮事項に含まれています。

    予測符号化技術の作業リスト (1,2,3,4)

    専門的出版物および個人的な会話に基づく電子情報開示の専門家から集めたもので、以下に示すのは、電子情報開示の分野に適用されている、または電子情報開示の分野に適用される可能性のある特定された機械学習テクノロジーの包括的な作業リストです。予測コーディング。この作業リストは、特定された予測コーディング技術の参照ポイントを提供するように設計されており、特定の電子情報開示プラットフォームでこれらのメインストリームテクノロジーを適用および実装する専門家や組織からのフィードバックに基づく追加、調整、および修正を含む場合があります。

    五十音順に記載

    アクティブラーニング:分類アルゴリズムが効率的に学習できるようにするための戦略に基づいて、学習のためにレビューする必要があるドキュメントを選択するアルゴリズムを使用して、通常は反復的なプロセスです。

    Decision Tree:関連するドキュメントと非関連ドキュメントを、含まれる単語(またはその他の機能)の組み合わせに応じて、段階的に区別する手法です。財務デリバティブに関連する文書を識別するためのDecision Treeでは、文書に「スワップ」という単語が含まれているかどうかを最初に判断できます。その場合、Decision Treeは、ドキュメントに「クレジット」が含まれているかどうかを判定します。Decision Treeは、ナレッジエンジニアリングまたは機械学習のいずれかで作成できます。

    K-最近傍分類器(K-nn):文書に最適な分類を決定するために、分類される文書に最も類似した(最も近い)k 個の文書例を分析する分類アルゴリズム。k が小さすぎると (例:k=1)、高いリコールを達成することが非常に難しい場合があります。

    Latent Semantic Analysis(LSA):相関性の高い単語(つまり、同じ文書内で発生する傾向がある単語)を、ある意味で同等または交換可能なものとして扱う文書の数学的表現。この等価性または互換性により、アルゴリズムは同じ単語を使用していなくても(例えば、同義語が高度に相関する可能性があるため)文書を概念的に類似しているものとして識別できます。ただし、潜在的に有用な情報を破棄し、スプリアス相関。

    ロジスティック回帰:機械学習のための最先端の教師あり学習アルゴリズム。ドキュメントに含まれる特徴に基づいて、ドキュメントが関連している確率を推定します。Naïve Bayes、アルゴリズムとは対照的に、ロジスティック回帰は、関連ドキュメントと非関連ドキュメントを区別する特徴を特定します。

    Naïve Bayesian Classifier:新しい文書内の各単語が、トレーニングされた応答文書または学習済み非応答文書から派生した単語分布に由来する確率を調べるシステム。システムは、すべての単語が互いに独立していることを前提としているという意味でナイーブです。

    ニューラルネットワーク:人工ニューラルネットワーク (ANN) は計算モデルです。これは、生物学的ニューラルネットワークの構造と機能に基づいています。人間の脳が情報を処理する方法のように機能します。これには、情報を処理するために連携して動作する多数の接続された処理ユニットが含まれています。

    確率的潜在的意味分析(PLSA):これはLSAと似ていますが、確率モデルを使用して、より良いことが期待される結果を達成します。

    ランダムフォレスト:分類、回帰、およびその他のタスクのためのアンサンブル学習法。学習時に多数の決定木を構築し、個々の木のクラス(分類)または平均予測(回帰)のモードであるクラスを出力することによって動作します。ランダムディシジョンフォレストは、ディシジョンツリーのトレーニングセットに過剰適合する習慣を正します。

    関連性フィードバック:関連性が最も高いドキュメントが人間によってコード化され、トレーニングセットに追加されるアクティブラーニングプロセス。

    Support Vector Machine:レスポンシブドキュメントと非応答ドキュメントを分離する線を見つけようとする数学的アプローチ。理想的には、すべてのレスポンシブドキュメントが行の片側にあり、応答しないドキュメントがすべて反対側に配置されるようにします。

    一般的な TAR プロトコル (5,6,7,8,9,10)

    さらに、これらのテクノロジーは、通常、テクノロジーの使用方法を決定する TAR プロトコルの一部として使用されます。TAR プロトコルの例は次のとおりです。

    五十音順に記載

    継続的アクティブラーニング®(CAL®):CAL® では、マウラ・R・グロスマンとゴードン・V・コーマックによって開発、使用、提唱されたTAR法が、最初のトレーニングセットの後、学習者はレビュー、コーディング、およびトレーニングのために、次に関連性が高いドキュメント(まだ考慮されていない)を繰り返し選択し、関連ドキュメントがこれ以上見つかりなくなるまで、引き続きそのようにしています。通常、2回目のレビューはありません。学習者が学習を停止するまでに、学習者が関連するとみなされるすべての文書がすでに特定され、手動でレビューされているためです。

    ハイブリッドマルチモーダル手法:e-Discovery Team(Ralph Losey)が開発したアプローチ。あらゆる種類の検索方法を含み、予測コーディングと継続的なアクティブトレーニングのための上位ランクドキュメントの使用に主な依存があります。

    スケーラブルな連続アクティブラーニング(S-CAL):S-CAL と CAL® の主な違いは、S-CAL では、連続する各バッチのドキュメントの有限サンプルのみがラベリング用に選択され、コレクション(またはコレクションの大規模なランダムサンプル)が使い果たされるまで処理が継続することです。一緒に、有限サンプルは文書母集団の層別標本を形成し、そこからρの統計的推定値が導かれる。

    Simple Active Learning(SAL):SALメソッドでは、最初のトレーニングセットの後、学習者は教師によってレビューおよびコード化される文書を選択し、トレーニング例として使用し、十分に訓練されるまで例を選択し続けます。通常、学習者が選択する文書は、学習者が最も確実でない文書であり、したがって最も学習する文書です。十分なトレーニングを終えたら、学習者はコレクション内のすべての文書にラベルを付けるために使用されます。SPL と同様に、関連性のあるラベルが付いたドキュメントは、通常、手動で再審査されます。

    Simple Passive Learning (SPL): 単純な受動的学習 (「SPL」) メソッドでは、教師 (すなわち、人間の演算子) がトレーニングの例として使用する文書を選択します。学習者はこれらの例を使用して訓練され、十分に訓練された後は、コレクション内のすべての文書に関連または非ラベルを付けるために使用されます関連する。通常、学習者が関連としてラベル付けされた文書は、手動で再審査されます。この手動レビューは、コレクションのごく一部を表し、完全な手動レビューの時間とコストのほんの一部を表します。

    TAR ワークフロー (11)

    TAR ワークフローは、予測コーディングタスクを完了するためのアプローチを定義するための予測コーディング技術とプロトコルの実用化を表します。TAR ワークフローの例としては、次の 3 つがあります。

    TAR 1.0 には、トレーニングフェーズの後にレビューフェーズが含まれ、トレーニングからレビューに切り替える必要がある最適なポイントを決定するためにコントロールセットが使用されます。トレーニングフェーズの完了後、システムは学習しなくなります。コントロールセットは、レビューされ、関連または非関連としてマークされたドキュメントのランダムなセットです。コントロールセットドキュメントは、システムのトレーニングには使用されません。これらは、システムの予測を評価するために使用され、追加のトレーニングのメリットが追加トレーニングのコストを上回らなくなったときにトレーニングを終了できます。トレーニングは、シンプルパッシブラーニング(SPL)と呼ばれるランダムに選択されたドキュメントを使用するか、シンプルアクティブラーニング(SAL)と呼ばれる学習効率を最適化するためにシステムによって選択されたドキュメントを含めることができます。

    TAR 2.0 では、連続アクティブラーニング® (CAL®) と呼ばれるアプローチを使用します。つまり、トレーニングとレビューの間には分離がなく、システム全体で学習を続けています。レビュー対象のドキュメントを選択するには多くのアプローチを使用できますが、CAL® の重要な要素は、どのドキュメントが関連性が最も高いのかを予測し、レビューし、予測を更新するという多くの反復です。TAR 1.0と異なり、TAR 2.0は有病率が低い場合でも非常に効率的になる傾向がある。トレーニングとレビューの間隔がないため、TAR 2.0 では制御セットは必要ありません。コントロールセットの生成には、多数の関連しないドキュメントをレビューする(特に普及率が低い場合)が含まれる可能性があるため、制御セットを避けることをお勧めします。

    TAR 3.0 では、概念空間で固定サイズの狭く焦点を絞ったクラスタを形成する高品質の概念クラスタリングアルゴリズムが必要です。TAR 2.0 手法をクラスタセンターだけに適用し、関連する可能性のあるさまざまなドキュメントを確実にレビューします。関連するクラスタセンターがもう見つからなくなると、レビュー済みのクラスタセンターがトレーニングドキュメントとして使用され、ドキュメント全体の母集団の予測が行われます。制御セットは必要ありません。関連するクラスタセンターがさらに見つからない場合は、システムが十分に訓練されています。レビューされたクラスターセンターの分析は、人間のレビューなしで純粋に予測に基づいて文書が作成された場合に生成されるであろう有病率と非関連文書数の推定値を提供します。ユーザーは、TAR 1.0(ただし、コントロールセットなし)のSALと同様に、レビューなしでドキュメント(潜在的に特権として特定されない)を作成するか、または関連性がないというリスクが多すぎるドキュメント(システムの追加トレーニング、CAL® として使用可能)をレビューすることを決定できます。重要な点は、関連性が高いクラスタセンターのレビューを完了した後に、そのポイントが無効になる前に何も行われていないことをユーザーが決定するために必要な情報をユーザーが持っているということです(TAR 1.0で始まり、コントロールセットのレビュー、見つける)予測はレビューなしでドキュメントを生成するのに十分ではなく、TAR 2.0に切り替えると、コントロールセットは事実上役に立たない)。

    タールの使用 (12)

    TAR テクノロジ、プロトコル、ワークフローを効果的に使用して、電子情報開示のプロフェッショナルが多くのデータディスカバリおよび法的証拠開示タスクを実行できるようにします。TARの使用例として一般的に考えられている9つの例を挙げる。

    関連文書の特定

    早期ケース評価/調査

    レビューの優先順位付け

    分類 (問題別、機密保持またはプライバシーのため)

    特権レビュー

    品質管理と品質保証

    入ってくるプロダクションのレビュー

    処分/裁判の準備

    情報ガバナンスとデータ処分

    調査情報 (13,14,15,16,17,18, 19, 20, 21)

    参考文献

    (1) グロスマン, M. and Cormack, G. (2013)。グロスマン・コーマック技術支援レビューの用語集。[電子ブック] 連邦裁判所法審査。利用可能:http://www.fclr.org/fclr/articles/html/2010/grossman.pdf [2018年8月31日アクセス]。

    (2) Dimm, B. (2018)。予測コーディングに関する専門知識。[メール]。

    (3) Roitblat, H. (2013)。予測コーディングの概要。[電子ブック] Orcatec。利用可能:2018年8月31日]。

    (4) Tredennick, J. and Pickens, J. (2017)。E-Discovery におけるディープラーニング:誇大広告を過ぎて動く。[オンライン] CatalystSecure.com。利用可能:2018年8月31日]。

    (5) Grossman, M. and Cormack, G. (2017)。電子ディスカバリーにおける技術支援レビュー。[電子ブック] 2018年8月31日で入手可能]。

    (6) Grossman, M. and Cormack, G. (2016)。TAR の継続的なアクティブラーニング。[電子ブック] 実用法。利用可能:2018年8月31日]。

    (7) Grossman, M. and Cormack, G. (2016).信頼性の高い高リコールテキスト分類のための継続的なアクティブラーニングのスケーラビリティ。[電子ブック] 2018年9月3日] で入手できます。

    (8) Losey, R., Sullivan, J. and Reichenberger, T. (2015)。TREC 2015 Total Recall Track でeディスカバリーチーム。[電子ブック] 2018年9月1日] で入手できます。

    (9)「マウラ・グロスマンとゴードン・V・コーマックの連続アクティブラーニング商標-登録番号5876987-シリアル番号 86634255። Justia 商標」。商標。Justia.com、2020、2020年2月12日]。

    (10)「マウラ・グロスマンとゴードン・V・コーマックのCAL商標-登録番号5876988-シリアル番号 86634265። Justia 商標」。商標。Justia.com、2020、2020年2月12日]。

    (11) Dimm, B. (2016), TAR 3.0 公演。[オンライン] Clustify ブログ — 電子情報開示、ドキュメントクラスタリング、予測コーディング、情報検索、ソフトウェア開発。利用可能:2019年2月18日]。

    (12) 電子検出参照モデル (EDRM) (2019)。テクノロジー支援レビュー (TAR) ガイドライン。[オンライン] 2019年2月18日] で利用できます。

    (13) Dimm, B. (2018)。TAR、比例性、および不良アルゴリズム (1-NN)。[オンライン] Clustify ブログ — 電子情報開示、ドキュメントクラスタリング、予測コーディング、情報検索、ソフトウェア開発。利用可能:2018年8月31日]。

    (14) ロビンソン, R. (2013).実行結果:予測符号化 1 質問プロバイダー実装アンケート。[オンライン] complexDiscovery: 電子情報開示情報。利用可能:2018年8月31日]。

    (15) ロビンソン, R. (2018).実行リスト:上位 100 以上の電子情報開示プロバイダー。[オンライン] complexDiscovery: 電子情報開示情報。利用可能:2018年8月31日]。

    (16) ロビンソン, R. (2018) 比較的言えば:予測符号化技術とプロトコル調査結果 [オンライン] complexDiscovery: 電子情報開示情報.利用可能:2019年2月18日]。

    (17) ロビンソン、R. (2019) 積極的に学ぶ?予測コーディング技術とプロトコル調査結果 [オンライン] complexDiscovery: 電子情報開示情報。利用可能:2019年8月22日]

    (18) Robinson, R. (2019) プラットフォームからワークフローへ:予測コーディング技術とプロトコル調査 — 2019 秋結果 [オンライン] complexDiscovery: 電子情報開示情報利用可能:2020 年 2 月 12 日]。

    (19) ロビンソン, R. (2020) それはすべて相対的ですか予測符号化技術とプロトコル調査-春の結果 [オンライン] complexDiscovery: 電子情報開示情報.利用可能:[2020年8月7日アクセス]。

    (20) ロビンソン、R. (2020) より広いネットをキャスティングする?予測コーディング技術とプロトコル調査-2020 秋 [オンライン] complexDiscovery: 電子情報開示情報。利用可能:[2021年2月5日アクセス]。

    (21) ロビンソン、R. (2021) 寒さキャッチ?予測コーディング技術とプロトコル調査-2021年春 [オンライン] complexDiscovery: 電子情報開示情報.利用可能:[2021年8月8日アクセス]。

    ここをクリックして、特定の追加、修正、更新情報を提供してください。

    * 予測コーディングアンケートの回答者:6 つの調査

    予測コーディングアンケートの回答者 — 6 つのアンケート

    出典:ComplexDiscover

    前かがみ?CISA 2023-2025戦略計画

    The purpose of the CISA Strategic Plan is to communicate the...

    継続的なリスク改善?Cowbell Cyberからの第3四半期サイバーラウンドアップ

    According to Manu Singh, director of risk engineering at Cowbell, "Every...

    包括的なサイバーディスカバリーリソース?CSIAC の DoD サイバーセキュリティポリシーチャート

    The Cyber Security and Information Systems Information Analysis Center (CSIAC) is...

    急速に回転するサイバー保険?Q2 Cowbell Cyberからのサイバーラウンドアップ

    According to Isabelle Dumont, SVP of Marketing and Technology Partners at...

    反応が明らかになった?NuixがASXの情報要求に応える

    The following investor news update from Nuix shares a written response...

    レポートを明らかにする?Nuix Notes プレス投機

    According to a September 9, 2022 market release from Nuix, the...

    HayStackID® がビジネスインテリジェンスアソシエイツを買収

    According to HaystackID CEO Hal Brooks, “BIA is a leader in...

    1つの大規模なソフトウェアとクラウドビジネス?OpenTextでマイクロフォーカスを獲得

    According to OpenText CEO & CTO Mark J. Barrenechea, “We are...

    移動中?2022年の電子情報開示市場の動態:5つの関心分野

    Recently ComplexDiscovery was provided an opportunity to share with the eDiscovery...

    プロセスを信頼しますか?2021 電子情報開示処理タスク、支出、コストデータ

    Based on the complexity of cybersecurity, information governance, and legal discovery,...

    今年の振り返り?2021 eDiscovery レビュータスク、支出、コストのデータポイント

    Based on the complexity of cybersecurity, information governance, and legal discovery,...

    2021年のeDiscoveryコレクションの見方:タスク、支出、およびコストのデータポイント

    Based on the complexity of cybersecurity, information governance, and legal discovery,...

    2022年9月のサイバー、データ、法的証拠開示に関する5つの優れた読み物

    From privacy legislation and special masters to acquisitions and investigations, the...

    2022年8月のサイバー、データ、法的証拠開示に関する5つの優れた読み物

    From AI and Big Data challenges to intriguing financial and investment...

    2022年7月のサイバー、データ、法的証拠開示に関する5つの優れた読み物

    From lurking business undercurrents to captivating deepfake developments, the July 2022...

    2022年6月のサイバー、データ、法的証拠開示に関する5つの特集

    From eDiscovery ecosystem players and pricing to data breach investigations and...

    気温が低い?2022年秋電子情報開示ビジネス信頼度調査結果

    Since January 2016, 2,874 individual responses to twenty-eight quarterly eDiscovery Business...

    変曲かたわみ?8つの半年ごとの電子情報開示価格調査の概要

    Initiated in the winter of 2019 and conducted eight times with...

    電流を変える?2022年夏の電子情報開示のビジネス信頼に関する18の観察

    In the summer of 2022, 54.8% of survey respondents felt that...

    挑戦的な変種?電子情報開示のビジネスパフォーマンスに影響を与える問題:2022 年夏の概要

    In the summer of 2022, 28.8% of respondents viewed increasing types...

    核オプション?地図で見るウクライナ紛争評価(2022年9月17日~21日)

    According to a recent update from the Institute for the Study...

    集団墓地と拷問室?地図で見るウクライナ紛争評価(2022年9月12日~16日)

    According to a recent update from the Institute for the Study...

    オンザラン?マップでのウクライナ紛争評価(2022年9月7日~11日)

    According to a recent update from the Institute for the Study...

    目に見える劣化?マップでのウクライナ紛争評価(2022年9月2~6日)

    According to a recent update from the Institute for the Study...