Sun. Sep 25th, 2022
    en flag
    nl flag
    et flag
    fi flag
    fr flag
    de flag
    he flag
    ja flag
    lv flag
    pl flag
    pt flag
    ru flag
    es flag

    Nota do Editor: Esta é a sétima pesquisa semestral de tecnologias e protocolos de codificação preditiva conduzida pela ComplexDiscovery. As seis pesquisas iniciais forneceram feedback detalhado de aproximadamente 384* profissionais jurídicos, empresariais e de tecnologia sobre o uso de tecnologias específicas de aprendizado de máquina na codificação preditiva e também destacaram o uso dessas tecnologias de aprendizado de máquina como parte do exemplo revisão assistida por tecnologia protocolos. Essa iteração da pesquisa continua a se concentrar em tecnologias de codificação preditiva, protocolos, fluxos de trabalho e usos em todo o ecossistema de eDiscovery. Originalmente consistindo em quatro questões principais, a partir do outono de 2020, a pesquisa incluiu uma nova pergunta sobre a prevalência do uso de codificação preditiva como parte dos fluxos de trabalho de eDiscovery.

    Tecnologias e protocolos de codificação preditiva (pesquisa)

    Uma pesquisa com cinco perguntas

    Abaixo está um link para uma simples pesquisa de cinco perguntas projetada para capturar a aplicação atual de tecnologias, protocolos, fluxos de trabalho e usos de codificação preditiva no ecossistema eDiscovery.

    Os profissionais jurídicos, de tecnologia da informação e de negócios envolvidos em atividades organizacionais envolvendo o uso de codificação preditiva são incentivados a concluir a breve pesquisa de cinco perguntas.

    Os resultados da pesquisa (excluindo as informações de contato do respondente) serão agregados e publicados no blog ComplexDiscovery para uso pela comunidade eDiscovery.

    Tecnologias e protocolos de codificação preditiva (segundo plano da pesquisa)

    Conforme definido em The Grossman-Cormack Glossary of Technology-Assisted Review (1), Predictive Coding é um termo específico do setor geralmente usado para descrever um processo de revisão assistida por tecnologia envolvendo o uso de um algoritmo de aprendizado de máquina para distinguir documentos relevantes de não relevantes, com base em um assunto codificação do especialista em matéria de um conjunto de documentos de treinamento. Essa definição de codificação preditiva fornece uma descrição de linha de base que identifica uma função específica que um conjunto geral de algoritmos de aprendizado de máquina comumente aceitos pode usar em uma revisão assistida por tecnologia (TAR).

    Com a crescente conscientização e uso da codificação preditiva na arena legal hoje, parece que é cada vez mais importante que os profissionais de descoberta eletrônica tenham uma compreensão geral das tecnologias que podem ser implementadas em plataformas de descoberta eletrônica para facilitar a codificação preditiva de informações armazenadas eletronicamente. Esse entendimento geral é essencial, pois cada abordagem algorítmica potencial tem vantagens e desvantagens de eficiência que podem afetar a eficiência e a eficácia da codificação preditiva.

    Para ajudar no desenvolvimento dessa compreensão geral das tecnologias de codificação preditiva e fornecer uma oportunidade para os provedores de descoberta eletrônica compartilharem as tecnologias e protocolos que usam em e com suas plataformas para realizar a codificação preditiva, as seguintes listas de trabalho de codificação preditiva tecnologias e protocolos TAR são fornecidos para seu uso. Listas de trabalho sobre fluxos de trabalho de codificação preditiva e usos também são incluídas para sua consideração, pois ajudam a definir como as tecnologias de codificação preditiva e os protocolos TAR são implementados e usados.

    Uma lista de trabalho de tecnologias de codificação preditiva (1,2,3,4)

    Agregado a partir de especialistas em descoberta eletrônica com base em publicações profissionais e conversas pessoais, fornecida abaixo está uma lista de trabalho não inclusiva de tecnologias de aprendizado de máquina identificadas que foram aplicadas ou têm o potencial de serem aplicadas à disciplina de eDiscovery para facilitar codificação preditiva. Esta lista de trabalho foi projetada para fornecer um ponto de referência para tecnologias de codificação preditiva identificadas e pode, ao longo do tempo, incluir adições, ajustes e emendas com base no feedback de especialistas e organizações que aplicam e implementam essas tecnologias convencionais em suas plataformas específicas de eDiscovery.

    Listado em Ordem alfabética

    Aprendizagem ativa: Um processo, tipicamente iterativo, pelo qual um algoritmo é usado para selecionar documentos que devem ser revisados para treinamento com base em uma estratégia para ajudar o algoritmo de classificação a aprender de forma eficiente.

    Árvore decisória: Um método passo a passo de distinguir entre documentos relevantes e não relevantes, dependendo da combinação de palavras (ou outros recursos) que eles contêm. Uma árvore decisória para identificar documentos relativos a derivados financeiros pode primeiro determinar se um documento continha ou não a palavra “troca”. Se isso aconteceu, a Árvore Decisória poderá determinar se o documento continha ou não “crédito”, e assim por diante. Uma árvore decisória pode ser criada por meio de engenharia de conhecimento ou aprendizado de máquina.

    Classificador vizinho mais próximo de K (k-nn): Um algoritmo de classificação que analisa os documentos de exemplo k que são mais semelhantes (mais próximos) ao documento que está sendo classificado para determinar a melhor classificação para o documento. Se k for muito pequeno (por exemplo, k=1), pode ser extremamente difícil conseguir um alto recall.

    Análise Semântica Latente (LSA): Uma representação matemática de documentos que trata palavras altamente correlacionadas (ou seja, palavras que tendem a ocorrer nos mesmos documentos) como sendo, em certo sentido, equivalentes ou intercambiáveis. Essa equivalência ou permutabilidade pode permitir que algoritmos identifiquem documentos como sendo conceitualmente semelhantes, mesmo quando não estão usando as mesmas palavras (por exemplo, porque os sinônimos podem estar altamente correlacionados), embora também descarte algumas informações potencialmente úteis e pode levar a resultados indesejáveis causados por correlações espúrias.

    Regressão logística: Um algoritmo de aprendizado supervisionado de última geração para aprendizado de máquina que estima a probabilidade de que um documento seja relevante, com base nos recursos que ele contém. Em contraste com o Naïve Bayes, algoritmo, a Regressão Logística identifica recursos que discriminam documentos relevantes e não relevantes.

    Naïve Bayesian Classifier: Um sistema que examina a probabilidade de que cada palavra em um novo documento tenha vindo da distribuição de palavras derivada de um documento responsivo treinado ou de documentos não responsivos treinados. O sistema é ingênuo no sentido em que pressupõe que todas as palavras são independentes umas das outras.

    Rede Neural: Uma Rede Neural Artificial (ANN) é um modelo computacional. Baseia-se na estrutura e nas funções das redes neurais biológicas. Funciona como o cérebro humano processa a informação. Ele inclui um grande número de unidades de processamento conectadas que trabalham juntas para processar informações.

    Análise Semântica Latente Probabilística (PLSA): Isso é semelhante em espírito ao LSA, mas usa um modelo probabilístico para alcançar resultados que devem ser melhores.

    Florestas Aleatórias: Um método de aprendizado de conjunto para classificação, regressão e outras tarefas, que operam construindo uma infinidade de árvores de decisão no momento do treinamento e produzindo a classe que é o modo das classes (classificação) ou predição média (regressão) das árvores individuais. Florestas de decisão aleatórias corretas para o hábito das árvores de decisão de se ajustarem demais ao seu conjunto de treinamento.

    Feedback de relevância: Um processo de aprendizagem ativo no qual os documentos com maior probabilidade de relevância são codificados por um humano e adicionados ao conjunto de treinamento.

    Máquina de vetores de suporte: Uma abordagem matemática que busca encontrar uma linha que separa documentos responsivos de não responsivos para que, idealmente, todos os documentos responsivos estejam de um lado da linha e todos os não responsivos estejam do outro lado.

    Protocolos TAR gerais (5,6,7,8,9,10)

    Além disso, essas tecnologias geralmente são empregadas como parte de um protocolo TAR que determina como as tecnologias são usadas. Exemplos de protocolos TAR incluem:

    Listado em Ordem alfabética

    Continuous Active Learning® (CAL®): Na CAL®, o método TAR desenvolvido, usado e defendido por Maura R. Grossman e Gordon V. Cormack, após o conjunto de treinamento inicial, o aluno seleciona repetidamente os documentos mais propensos a serem relevantes (que ainda não foram considerados) para revisão, codificação e treinamento, e continua a fazê-lo até que não consiga mais encontrar documentos mais relevantes. Geralmente não há uma segunda revisão porque, quando o aluno parar de aprender, todos os documentos considerados relevantes pelo aluno já foram identificados e revisados manualmente.

    Método multimodal híbrido: Uma abordagem desenvolvida pela equipe de e-Discovery (Ralph Losey) que inclui todos os tipos de métodos de pesquisa, com dependência primária colocada na codificação preditiva e o uso de documentos de alto nível para treinamento ativo contínuo.

    Aprendizagem ativa contínua escalável (S-CAL): A diferença essencial entre S-CAL e CAL® é que, para S-CAL, apenas uma amostra finita de documentos de cada lote sucessivo é selecionada para rotulagem, e o processo continua até que a coleta — ou uma grande amostra aleatória da coleção — esteja esgotada. Juntas, as amostras finitas formam uma amostra estratificada da população documental, da qual uma estimativa estatística de ρ pode ser derivada.

    Aprendizagem Ativa Simples (SAL): Nos métodos SAL, após o conjunto de treinamento inicial, o aluno seleciona os documentos a serem revisados e codificados pelo professor, e usado como exemplos de treinamento, e continua a selecionar exemplos até que seja suficientemente treinado. Normalmente, os documentos que o aluno escolhe são aqueles sobre os quais o aluno é menos certo e, portanto, dos quais ele aprenderá mais. Depois de treinado o suficiente, o aluno é usado para rotular todos os documentos da coleção. Assim como no SPL, os documentos rotulados como relevantes geralmente são revisados novamente manualmente.

    Aprendizagem Passiva Simples (SPL): Em métodos simples de aprendizagem passiva (“SPL”), o professor (ou seja, operador humano) seleciona os documentos a serem usados como exemplos de treinamento; o aluno é treinado usando esses exemplos e, uma vez suficientemente treinado, é usado para rotular cada documento da coleção como relevante ou não relevante. Geralmente, os documentos rotulados como relevantes pelo aluno são revisados novamente manualmente. Esta revisão manual representa uma pequena fração da coleção e, portanto, uma pequena fração do tempo e custo de uma revisão manual exaustiva.

    Fluxos de trabalho TAR (11)

    Os fluxos de trabalho TAR representam a aplicação prática de tecnologias e protocolos de codificação preditiva para definir abordagens para concluir tarefas de codificação preditiva. Três exemplos de fluxos de trabalho TAR incluem:

    O TAR 1.0 envolve uma fase de treinamento seguida por uma fase de revisão com um conjunto de controle sendo usado para determinar o ponto ideal quando você deve mudar de treinamento para revisão. O sistema não aprende mais quando a fase de treinamento for concluída. O conjunto de controle é um conjunto aleatório de documentos que foram revisados e marcados como relevantes ou não relevantes. Os documentos do conjunto de controle não são usados para treinar o sistema. Eles são usados para avaliar as previsões do sistema para que o treinamento possa ser encerrado quando os benefícios do treinamento adicional não superam mais o custo do treinamento adicional. O treinamento pode ser com documentos selecionados aleatoriamente, conhecidos como Aprendizagem Passiva Simples (SPL), ou pode envolver documentos escolhidos pelo sistema para otimizar a eficiência do aprendizado, conhecido como Simple Active Learning (SAL).

    O TAR 2.0 usa uma abordagem chamada Continuous Active Learning® (CAL®), o que significa que não há separação entre treinamento e revisão — o sistema continua aprendendo por toda parte. Embora muitas abordagens possam ser usadas para selecionar documentos para revisão, um componente significativo da CAL® é muitas iterações de prever quais documentos são mais propensos a serem relevantes, revisá-los e atualizar as previsões. Ao contrário do TAR 1.0, o TAR 2.0 tende a ser muito eficiente mesmo quando a prevalência é baixa. Como não há separação entre treinamento e revisão, o TAR 2.0 não requer um conjunto de controle. Gerar um conjunto de controle pode envolver a revisão de um número grande (especialmente quando a prevalência é baixa) de documentos não relevantes, portanto, é desejável evitar conjuntos de controle.

    O TAR 3.0 requer um algoritmo de agrupamento conceitual de alta qualidade que forma clusters de tamanho fixo com foco estreito no espaço conceitual. Ele aplica a metodologia TAR 2.0 apenas aos centros de cluster, o que garante que um conjunto diversificado de documentos potencialmente relevantes seja revisado. Quando não forem encontrados centros de cluster mais relevantes, os centros de cluster revisados são usados como documentos de treinamento para fazer previsões para a população completa de documentos. Não há necessidade de um conjunto de controle — o sistema é bem treinado quando nenhum centro de cluster relevante adicional pode ser encontrado. A análise dos centros de agrupamento revisados fornece uma estimativa da prevalência e do número de documentos não relevantes que seriam produzidos se os documentos fossem produzidos com base puramente nas previsões sem revisão humana. O usuário pode decidir produzir documentos (não identificados como potencialmente privilegiados) sem revisão, semelhante ao SAL de TAR 1.0 (mas sem um conjunto de controle), ou ele pode decidir revisar documentos que têm muito risco de não serem relevantes (que podem ser usados como treinamento adicional para o sistema, ou seja, CAL®). O ponto chave é que o usuário tem as informações de que ele precisa para tomar uma decisão sobre como proceder após concluir a revisão dos centros de cluster que provavelmente serão relevantes, e nada feito antes que esse ponto seja invalidado pela decisão (comparar com começar com TAR 1.0, revisar um conjunto de controle, encontrar que as previsões não são boas o suficiente para produzir documentos sem revisão e, em seguida, mudar para TAR 2.0, o que torna o conjunto de controle praticamente inútil).

    Usos TAR (12)

    As tecnologias, protocolos e fluxos de trabalho TAR podem ser usados de forma eficaz para ajudar os profissionais de eDiscovery a realizar muitas tarefas de descoberta de dados e descoberta legal. Nove exemplos comumente considerados de uso de TAR incluem:

    Identificação de documentos relevantes

    Avaliação antecipada/investigação de casos

    Priorização para revisão

    Categorização (por questões, para confidencialidade ou privacidade)

    Análise de privilégios

    Controle de qualidade e garantia de qualidade

    Revisão de produções recebidas

    Preparação de dispositição/teste

    Governança de informações e disposição de dados

    Informações da pesquisa (13,14,15,16,17,18, 19, 20, 21)

    Referências

    (1) Grossman, M. e Cormack, G. (2013). Glossário Grossman-Cormack de revisão assistida por tecnologia. [ebook] Revisão da Lei dos Tribunais Federais. Disponível em: http://www.fclr.org/fclr/articles/html/2010/grossman.pdf [Acessado em 31 de agosto de 2018].

    (2) Dimm, B. (2018). Experiência em codificação preditiva. [email].

    (3) Roitblat, H. (2013). Introdução à codificação preditiva. [ebook] Orcatec. Disponível em: 31 de agosto de 2018].

    (4) Tredennick, J. e Pickens, J. (2017). Aprendizado profundo no e-Discovery: passando pelo hype. [online] CatalystSecure.com. Disponível em: 31 de agosto de 2018].

    (5) Grossman, M. e Cormack, G. (2017). Revisão assistida por tecnologia em descoberta eletrônica. [ebook] Disponível em: 31 de agosto de 2018].

    (6) Grossman, M. e Cormack, G. (2016). Aprendizado ativo contínuo para TAR. [ebook] Lei prática. Disponível em: 31 de agosto de 2018].

    (7) Grossman, M. e Cormack, G. (2016). Escalabilidade do Aprendizado Ativo Contínuo para Classificação de Texto de Alto Recall [ebook] Disponível em: 3 de setembro de 2018].

    (8) Losey, R., Sullivan, J. e Reichenberger, T. (2015). Equipe de e-Discovery no TREC 2015 Total Recall Track. [ebook] Disponível em: 1 de setembro de 2018].

    (9) “MARCA DE APRENDIZAGEM ATIVA CONTÍNUA De Maura Grossman e Gordon V. Cormack — Número de Registro 5876987 — Número de Série 86634255። Marcas Comerciais Justia”. Trademarks.Justia.com, 2020, 12 de fevereiro de 2020].

    (10) “Marca comercial CAL de Maura Grossman e Gordon V. Cormack — Número de registro 5876988 — Número de série 86634265። Marcas comerciais Justia”. Trademarks.Justia.com, 2020, 12 de fevereiro de 2020].

    (11) Dimm, B. (2016), Desempenho TAR 3.0. [online] Clustify Blog — eDiscovery, Clustering de documentos, codificação preditiva, recuperação de informações e desenvolvimento de software. Disponível em: 18 de fevereiro de 2019].

    (12) Modelo de Referência de Descoberta Eletrônica (EDRM) (2019). Diretrizes de revisão assistida por tecnologia (TAR). [online] Disponível em: 18 de fevereiro de 2019].

    (13) Dimm, B. (2018). TAR, proporcionalidade e algoritmos ruins (1-NN). [online] Clustify Blog — eDiscovery, Clustering de documentos, codificação preditiva, recuperação de informações e desenvolvimento de software. Disponível em: 31 de agosto de 2018].

    (14) Robinson, R. (2013). Resultados em execução: Pesquisa de implementação de provedor de uma pergunta de codificação preditiva. [online] ComplexDiscovery: informações de descoberta eletrônica. Disponível em: 31 de agosto de 2018].

    (15) Robinson, R. (2018). Uma lista em execução: mais de 100 principais provedores de descoberta eletrônica. [online] ComplexDiscovery: informações de descoberta eletrônica. Disponível em: 31 de agosto de 2018].

    (16) Robinson, R. (2018) Relativamente falando: Tecnologias e protocolos de codificação preditiva Resultados da pesquisa [online] ComplexDiscovery: informações de descoberta eletrônica. Disponível em: 18 de fevereiro de 2019].

    (17) Robinson, R. (2019) Aprendendo ativamente? Tecnologias e protocolos de codificação preditiva Resultados da pesquisa [online] ComplexDiscovery: informações de descoberta eletrônica. Disponível em: 22 de agosto de 2019]

    (18) Robinson, R. (2019) De plataformas a fluxos de trabalho: Pesquisa de protocolos e tecnologias de codificação preditiva — Resultados do outono de 2019 [online] ComplexDiscovery: informações de descoberta eletrônica. Disponível em: 12 de fevereiro de 2020].

    (19) Robinson, R. (2020) Tudo é relativo? Pesquisa de protocolos e tecnologias de codificação preditiva - Resultados da mola [online] ComplexDiscovery: informações de descoberta eletrônica. Disponível em: [Acessado em 7 de agosto de 2020].

    (20) Robinson, R. (2020) Lançando uma rede mais ampla? Pesquisa sobre tecnologias e protocolos de codificação preditiva - Outono de 2020 [online] ComplexDiscovery: informações de descoberta eletrônica. Disponível em: [Acessado em 5 de fevereiro de 2021].

    (21) Robinson, R. (2021) Captura do tempo frio? Pesquisa de protocolos e tecnologias de codificação preditiva - Primavera de 2021 [online] ComplexDiscovery: informações de descoberta eletrônica. Disponível em: [Acessado em 8 de agosto de 2021].

    Clique aqui para fornecer adições, correções e atualizações específicas.

    * Respondentes da pesquisa de codificação preditiva: seis pesquisas

    Respondentes da pesquisa de codificação preditiva — seis pesquisas

    Fonte: ComplexDiscovery

    Inclinando-se para frente? O Plano Estratégico CISA 2023-2025

    The purpose of the CISA Strategic Plan is to communicate the...

    Melhoria contínua do risco? Resumo cibernético do terceiro trimestre da Cowbell Cyber

    According to Manu Singh, director of risk engineering at Cowbell, "Every...

    Um recurso abrangente de descoberta cibernética? O gráfico de políticas de segurança cibernética do DoD do CSIAC

    The Cyber Security and Information Systems Information Analysis Center (CSIAC) is...

    Seguro cibernético em rápida rotação? Resumo cibernético do segundo trimestre da Cowbell Cyber

    According to Isabelle Dumont, SVP of Marketing and Technology Partners at...

    Resposta reveladora? Nuix responde à solicitação de informações da ASX

    The following investor news update from Nuix shares a written response...

    Relatórios reveladores? Nuix Notes Especulação da imprensa

    According to a September 9, 2022 market release from Nuix, the...

    HayStackID® adquire a Business Intelligence Associates

    According to HaystackID CEO Hal Brooks, “BIA is a leader in...

    Um grande negócio de software e nuvem? OpenText para adquirir a Micro Focus

    According to OpenText CEO & CTO Mark J. Barrenechea, “We are...

    Em movimento? Cinética de mercado de eDiscovery 2022: cinco áreas de interesse

    Recently ComplexDiscovery was provided an opportunity to share with the eDiscovery...

    Confiando no processo? Dados de tarefas, gastos e custos de processamento de eDiscovery 2021

    Based on the complexity of cybersecurity, information governance, and legal discovery,...

    O ano em análise? 2021 eDiscovery Analise pontos de dados de tarefas, gastos e custos

    Based on the complexity of cybersecurity, information governance, and legal discovery,...

    Uma análise de 2021 da coleção de eDiscovery: pontos de dados de tarefas, gastos e custos

    Based on the complexity of cybersecurity, information governance, and legal discovery,...

    Cinco ótimas leituras sobre descobertas cibernéticas, de dados e legais para setembro de 2022

    From privacy legislation and special masters to acquisitions and investigations, the...

    Cinco ótimas leituras sobre descoberta cibernética, de dados e jurídica para agosto de 2022

    From AI and Big Data challenges to intriguing financial and investment...

    Cinco ótimas leituras sobre descoberta cibernética, de dados e jurídica para julho de 2022

    From lurking business undercurrents to captivating deepfake developments, the July 2022...

    Cinco ótimas leituras sobre descoberta cibernética, de dados e legal para junho de 2022

    From eDiscovery ecosystem players and pricing to data breach investigations and...

    Temperaturas mais baixas? Resultados da pesquisa de confiança empresarial eDiscovery do outono de 2022

    Since January 2016, 2,874 individual responses to twenty-eight quarterly eDiscovery Business...

    Inflexão ou deflexão? Uma visão geral agregada de oito pesquisas semestrais de preços de eDiscovery

    Initiated in the winter of 2019 and conducted eight times with...

    Mudando as correntes? Dezoito observações sobre a confiança dos negócios de eDiscovery no verão de 2022

    In the summer of 2022, 54.8% of survey respondents felt that...

    Variantes desafiadoras? Problemas que afetam o desempenho comercial de eDiscovery: uma visão geral do verão de 2022

    In the summer of 2022, 28.8% of respondents viewed increasing types...