Desafios de segurança cibernética para inteligência artificial: considerando o ciclo de vida da IA

Artificial Intelligence (AI) is influencing people’s everyday lives and playing a key role in digital transformation through its automated decision-making capabilities. The benefits of this emerging technology are significant, but so are the concerns. In this recent report, The EU Agency for Cybersecurity (ENISA) warns that AI may open new avenues in manipulation and attack methods, as well as new privacy and data protection challenges.

en flag
nl flag
et flag
fi flag
fr flag
de flag
pt flag
ru flag
es flag

Nota do Editor: A Agência da União Europeia para a Cibersegurança, ENISA, é a agência da União dedicada a alcançar um alto nível comum de cibersegurança em toda a Europa. Em dezembro de 2020, a ENISA publicou o relatório AI Cybersecurity Challenges - Threat Landscape for Artificial Intelligence. O relatório apresenta o mapeamento ativo da Agência do ecossistema de segurança cibernética de IA e seu cenário de ameaças. Como parte do relatório, um modelo de referência de ciclo de vida genérico para IA é fornecido para permitir uma abordagem estruturada e metódica para entender as diferentes facetas da IA. Esse ciclo de vida genérico de IA pode ser benéfico para profissionais legais, comerciais e de segurança da informação no eDiscovery eDiscovery, começando a considerar a cibersegurança e seu relacionamento com a IA.

Desafios de cibersegurança da IA - Agência da União Europeia para a ciber

Extração de relatório sobre o ciclo de vida da IA compartilhado com permissão*

Fases do ciclo de vida da IA

Figura - Modelo de referência genérico do ciclo de vida da IA

Modelo de referência genérico do ciclo de vida da IA

Nesta seção, fornecemos uma definição curta para cada etapa do ciclo de vida da IA e recapitulamos as etapas individuais que envolve (“Fase em poucas palavras”).

Definição do objetivo do negócio

Antes de realizar qualquer desenvolvimento de aplicativo/sistema de IA, é importante que a organização do usuário entenda completamente o contexto de negócios do aplicativo/sistema de IA e os dados necessários para atingir os objetivos de negócios do aplicativo de IA, bem como as métricas de negócios a serem usadas para avaliar o grau em que esses objetivos foram alcançados.

Fase de Definição de Objetivos de Negócios em poucas palavras: Identificar o objetivo comercial do aplicativo/sistema de IA. Vincule a finalidade com a pergunta a ser respondida pelo modelo de IA a ser usado no aplicativo/sistema. Identifique o tipo de modelo com base na pergunta.

Ingestão de dados

A ingestão de dados é o estágio do ciclo de vida da IA em que os dados são obtidos de várias fontes (os dados brutos podem ser de qualquer forma estruturada ou não estruturada) para compor pontos de dados multidimensionais, chamados vetores, para uso imediato ou para armazenamento para serem acessados e usados posteriormente. A ingestão de dados está na base de qualquer aplicativo de IA. Os dados podem ser ingeridos diretamente de suas fontes em tempo real, de forma contínua, também conhecida como streaming, ou importando lotes de dados, onde os dados são importados periodicamente em grandes lotes de macro ou em pequenos micro-lotes.

Diferentes mecanismos de ingestão podem estar ativos simultaneamente no mesmo aplicativo, sincronizando ou dissociando a ingestão de lotes e fluxo dos mesmos fluxos de dados. Os componentes de ingestão também podem especificar anotação de dados, ou seja, se a ingestão é realizada com ou sem metadados (dicionário de dados ou ontologia/taxonomia dos tipos de dados). Muitas vezes, o controle de acesso opera durante a ingestão de dados modelando o status de privacidade dos dados (dados pessoais/não pessoais), escolhendo técnicas adequadas de preservação de privacidade e levando em consideração a troca possível entre o impacto da privacidade e a precisão analítica. O cumprimento do quadro jurídico aplicável em matéria de privacidade e proteção de dados da UE deve ser assegurado em todos os casos.

O status de privacidade atribuído aos dados é usado para definir o Acordo de Nível de Serviço (SLA) de acordo com o quadro jurídico aplicável em matéria de privacidade e proteção de dados da UE, incluindo, entre outras coisas, a possibilidade de inspeção/auditoria das autoridades reguladoras competentes (como a Proteção de Dados Autoridades). É importante observar que, na ingestão de dados, pode surgir um conflito de governança de TI. Por um lado, os dados são compartimentados por seus proprietários, a fim de garantir o controle de acesso e proteção da privacidade; por outro lado, devem ser integrados para permitir a análise. Muitas vezes, diferentes políticas e regras de política se aplicam a itens da mesma categoria. Para fontes de dados multimídia, os protocolos de acesso podem até seguir uma abordagem de gerenciamento de direitos digitais (DRM), onde a prova de retenção deve ser negociada pela primeira vez com servidores de licença. É da responsabilidade do designer de aplicativos de IA garantir que a ingestão seja feita respeitando as políticas dos provedores de dados sobre o uso de dados e o quadro legal aplicável à privacidade e proteção de dados da UE.

Fase de coleta de dados/ingestão em poucas palavras: identifique os dados de entrada (dinâmicos) a serem coletados e os metadados de contexto correspondentes. Organize a ingestão de acordo com os requisitos do aplicativo de IA, importando dados de forma stream, lote ou multimodal.

Exploração de dados

A exploração de dados é o estágio em que os insights começam a ser retirados dos dados ingeridos. Embora possa ser ignorado em alguns aplicativos de IA onde os dados são bem compreendidos, geralmente é uma fase muito demorada do ciclo de vida da IA. Nesta fase, é importante entender o tipo de dados que foram coletados. Deve ser feita uma distinção fundamental entre os diferentes tipos de dados possíveis, sendo numéricos e categóricos as categorias mais proeminentes, juntamente com os dados multimédia (por exemplo, imagem, áudio, vídeo, etc.). Dados numéricos se presta a plotagem e permite calcular estatísticas descritivas e verificar se os dados se encaixam em distribuições paramétricas simples como a gaussiana. Valores de dados ausentes também podem ser detectados e manipulados na fase de exploração. Variáveis categóricas são aquelas que têm duas ou mais categorias, mas sem uma ordem intrínseca. Se a variável tiver uma ordenação clara, então ela será considerada como uma variável ordinal.

Validação/Exploração de Dados em poucas palavras: Verifique se os dados se encaixam em uma distribuição de estatísticas conhecidas, seja por componente (distribuições mono-variadas) ou como vetores (distribuição multivariada). Estimar os parâmetros estatísticos correspondentes.

Pré-processamento de dados

A fase de pré-processamento de dados emprega técnicas para limpar, integrar e transformar os dados. Este processo visa melhorar a qualidade dos dados que melhore o desempenho e a eficiência do sistema global de IA, economizando tempo durante a fase de formação dos modelos analíticos e promovendo uma melhor qualidade dos resultados. Especificamente, o termo limpeza de dados designa técnicas para corrigir inconsistências, remover ruído e anonimizar/pseudonimizar dados.

A integração de dados reúne dados provenientes de várias fontes, enquanto a transformação de dados prepara os dados para alimentar um modelo analítico, normalmente codificando-os em um formato numérico. Uma codificação típica é a codificação one-hot usada para representar variáveis categóricas como vetores binários. Esta codificação primeiro requer que os valores categóricos sejam mapeados para valores inteiros. Em seguida, cada valor inteiro é representado como um vetor binário que é todos os valores zero, exceto a posição do inteiro, que é marcado com um 1.

Uma vez convertidos em números, os dados podem estar sujeitos a outros tipos de transformação: re-dimensionamento, padronização, normalização e rotulagem. Ao final deste processo, obtém-se um conjunto de dados numéricos, que será a base para treinar, testar e avaliar o modelo de IA.

Como ter um conjunto de dados suficientemente grande é um dos principais fatores de sucesso ao treinar adequadamente um modelo, é comum aplicar diferentes técnicas de aumento de dados aos conjuntos de dados de treinamento que são muito pequenos. Por exemplo, é comum incluir em um conjunto de dados de treinamento diferentes versões dimensionadas ou giradas de imagens, que já estavam nesse conjunto de dados. Outro exemplo de técnica de aumento de dados que pode ser usado ao processar texto é substituir uma palavra por seu sinônimo. Mesmo nos casos em que o conjunto de dados de treinamento é grande o suficiente, as técnicas de aumento de dados podem melhorar o modelo treinado final. Os dados também podem ser aumentados, a fim de aumentar sua quantidade e a diversidade de cenários abordados. O aumento de dados geralmente consiste em aplicar transformações que são conhecidas por serem preservando rótulo, ou seja, o modelo não deve alterar sua saída (ou seja, previsão) quando apresentado com os itens de dados transformados. O aumento de dados pode servir para melhorar o desempenho de um modelo e, em particular, sua robustez para perturbações benignas. Uma tarefa em que o aumento de dados é usado por padrão é a classificação de imagens, onde os dados podem ser aumentados, por exemplo, aplicando traduções, rotações e filtros de desfocagem.

Pré-processamento de dados em poucas palavras: Converter dados ingeridos para um formato métrico (numérico), integrar dados de diferentes fontes, lidar com valores faltando/nulos por interpolação, densificar para reduzir a esparsidade de dados, desruído, outliers de filtro, alterar intervalo de representação, anonimizar/pseudonimizar dados, aumentar dados.

Seleção de recurso

Seleção de recursos (em engenharia geral de recursos) é o estágio em que o número de componentes ou recursos (também chamados de dimensões) que compõem cada vetor de dados é reduzido, identificando os componentes que se acredita serem os mais significativos para o modelo de IA. O resultado é um conjunto de dados reduzido, pois cada vetor de dados tem menos componentes do que antes. Além da redução de custos computacional, a seleção de recursos pode trazer modelos mais precisos.

Além disso, os modelos construídos sobre dados de dimensões inferiores são mais compreensíveis e explicáveis. Esse estágio também pode ser incorporado na fase de construção do modelo (por exemplo, ao processar dados de imagem ou fala), a ser discutido na próxima seção.

Seleção de feição em poucas palavras: Identifique as dimensões do conjunto de dados que representam um parâmetro global, por exemplo, a variação geral dos rótulos. Conjunto de dados do projeto ao longo dessas dimensões, descartando as outras.

Seleção de modelos/construção

Esta etapa executa a seleção/construção do melhor modelo ou algoritmo de IA para analisar os dados. É uma tarefa difícil, muitas vezes sujeita a tentativa e erro. Com base no objetivo de negócios e no tipo de dados disponíveis, diferentes tipos de técnicas de IA podem ser usados. As três categorias principais comumente identificadas são a aprendizagem supervisionada, a aprendizagem não supervisionada e os modelos de aprendizagem por reforço. Técnicas supervisionadas lidam com dados rotulados: o modelo de IA é usado para aprender o mapeamento entre exemplos de entrada e as saídas de destino.

Modelos supervisionados podem ser projetados como Classificadores, cujo objetivo é prever um rótulo de classe, e Regressores, cujo objetivo é prever uma função de valor numérico das entradas. Aqui alguns algoritmos comuns são Máquinas Vetoriais de Suporte, Bayes Naïve, Modelo Markov Hidden, redes Bayesianas e Redes Neurais.

Técnicas não supervisionadas usam dados de treinamento não rotulados para descrever e extrair relações a partir dele, seja com o objetivo de organizá-los em clusters, destacar a associação entre espaço de entrada de dados, resumir a distribuição de dados e reduzir a dimensionalidade dos dados (este tópico já foi abordado como um passo para a preparação de dados na seção sobre seleção de recursos). O aprendizado de reforço mapeia situações com ações, aprendendo comportamentos que maximizarão uma função de recompensa desejada.

Embora o tipo de dados de treinamento, rotulados ou não, seja fundamental para o tipo de técnica a ser usada e selecionada, os modelos também podem ser construídos a partir do zero (embora isso seja bastante improvável), com o cientista de dados projetando e codificando o modelo, com as técnicas inerentes de engenharia de software; ou construindo um modelo por combinando uma composição de métodos. É importante observar que a seleção do modelo (ou seja, escolher o modelo adaptado aos dados) pode desencadear uma transformação adicional dos dados de entrada, uma vez que diferentes modelos de IA exigem diferentes codificações numéricas dos vetores de dados de entrada.

De um modo geral, a escolha de um modelo inclui também a escolha da sua estratégia de formação. No contexto da aprendizagem supervisionada, por exemplo, o treinamento envolve a computação (uma função de aprendizagem de) a diferença entre a saída do modelo quando recebe cada conjunto de treinamento item de dados D como entrada, e o rótulo de D. Este resultado é usado para modificar o modelo, a fim de diminuir a diferença.

Muitos algoritmos de treinamento para minimização de erros estão disponíveis, a maioria deles com base na descida de gradiente. Os algoritmos de treinamento têm seus próprios hiperparâmetros, incluindo a função a ser usada para calcular o erro do modelo (por exemplo, erro quadrado médio) e o tamanho do lote, ou seja, o número de amostras rotuladas a serem alimentadas ao modelo para acumular um valor do erro a ser usado para adaptar o próprio modelo.

Seleção de modelo AI em poucas palavras: Escolha o tipo de modelo AI adequado para a aplicação. Codifique os vetores de entrada de dados para corresponder ao formato de entrada preferido do modelo.

Modelo de Treinamento

Tendo selecionado um modelo de IA, que no contexto desse modelo de referência se refere principalmente a um modelo de Machine Learning (ML), começa a fase de treinamento do sistema de IA. No contexto da aprendizagem supervisionada, o modelo de ML selecionado deve passar por uma fase de treinamento, onde parâmetros internos do modelo como pesos e viés são aprendidos a partir dos dados. Isso permite que o modelo obtenha compreensão sobre os dados que estão sendo utilizados e, assim, tornar-se mais capaz de analisá-los. Novamente, o treinamento envolve a computação (uma função de) a diferença entre a saída do modelo quando recebe cada conjunto de treinamento item de dados D como entrada, e o rótulo de D. Esse resultado é usado para modificar o modelo, a fim de diminuir a diferença entre resultado inferido e o resultado desejado e, portanto, leva progressivamente a resultados mais precisos e esperados.

A fase de treinamento alimentará o modelo ML com lotes de vetores de entrada e usará a função de aprendizagem selecionada para adaptar os parâmetros internos do modelo (pesos e viés) com base em uma medida (por exemplo, linear, quadrática, perda de log) da diferença entre a saída do modelo e os rótulos. Muitas vezes, o conjunto de dados disponível é particionado nesta fase em um conjunto de treinamento, usado para definir os parâmetros do modelo, e um conjunto de testes, em que os critérios de avaliação (por exemplo, taxa de erro) são registrados apenas para avaliar o desempenho do modelo fora do conjunto de treinamento. Os esquemas de validação cruzada dividem aleatoriamente várias vezes um conjunto de dados em um treinamento e uma porção de teste de tamanhos fixos (por exemplo, 80% e 20% dos dados disponíveis) e, em seguida, repetir as fases de treinamento e validação em cada partição.

Treinamento de modelo de IA em poucas palavras: aplique o algoritmo de treinamento selecionado com os parâmetros apropriados para modificar o modelo escolhido de acordo com dados de treinamento. Validar o treinamento do modelo no conjunto de testes de acordo com uma estratégia de validação cruzada.

Ajuste do modelo

O ajuste do modelo geralmente se sobrepõe ao treinamento do modelo, uma vez que o ajuste geralmente é considerado dentro do processo de treinamento. Optamos por separar os dois estágios do ciclo de vida da IA para destacar as diferenças em termos de operação funcional, embora seja mais provável que, na maioria dos sistemas de IA, eles façam parte do processo de treinamento.

Certos parâmetros definem conceitos de alto nível sobre o modelo, como sua função de aprendizagem ou modalidade, e não podem ser aprendidos com dados de entrada. Esses parâmetros especiais, muitas vezes chamados de hiperparâmetros, precisam ser configurados manualmente, embora possam, sob certas circunstâncias, ser ajustados automaticamente pesquisando o espaço dos parâmetros do modelo. Esta pesquisa, chamada otimização de hiperparâmetros, é frequentemente realizada usando técnicas clássicas de otimização como Grid Search, mas Random Search e otimização Bayesiana podem ser usadas. É importante observar que o estágio Model Tuning usa um conjunto de dados especial (muitas vezes chamado de conjunto de validação), distinto dos conjuntos de treinamento e teste usados nos estágios anteriores. Uma fase de avaliação também pode ser considerada para estimar os limites de saídas e avaliar como o modelo se comportaria em condições extremas, por exemplo, usando conjuntos de dados incorrectos/inseguros. É importante notar que, dependendo do número de hiper-parâmetros a serem ajustados, tentar todas as combinações possíveis pode simplesmente não ser viável.

Ajuste de modelo de IA em poucas palavras: aplique a adaptação do modelo aos hiper-parâmetros do modelo de IA treinado usando um conjunto de dados de validação, de acordo com a condição de implantação.

Transferência de aprendizagem

Nesta fase, a organização do usuário obtém um modelo de IA pré-treinado e pré-ajustado e usa-o como ponto de partida para treinamento adicional para alcançar uma convergência mais rápida e melhor. Este é geralmente o caso quando poucos dados estão disponíveis para treinamento. Deve-se notar que todas as etapas descritas acima (ajuste, teste, etc.) também se aplicam ao aprendizado de transferência. Além disso, uma vez que em muitos casos o aprendizado de transferência está sendo aplicado, pode-se considerar a transferência de aprendizagem como parte da fase de treinamento modelo, uma vez que o aprendizado de transferência geralmente serve como ponto de partida do algoritmo de treinamento. Para garantir um escopo mais amplo, distinguimos o aprendizado de transferência em uma fase distinta do ciclo de vida da IA apresentado aqui.

Transferir o aprendizado em poucas palavras: Fonte de um modelo de IA pré-treinado no mesmo domínio de aplicativo e aplique treinamento adicional a ele, conforme necessário para melhorar sua precisão na produção.

Implantação do modelo

Um modelo de Machine Learning trará conhecimento para uma organização somente quando suas previsões estiverem disponíveis para os usuários finais. Implantação é o processo de adotar um modelo treinado e torná-lo disponível para os usuários.

Implantação de modelo em poucas palavras: Gere uma encarnação em produção do modelo como software, firmware ou hardware. Implante a encarnação do modelo na borda ou na nuvem, conectando fluxos de dados em produção.

Manutenção do modelo

Após a implantação, os modelos de IA precisam ser monitorados e mantidos continuamente para lidar com alterações de conceito e potenciais derivações de conceito que possam surgir durante a operação. Uma mudança de conceito acontece quando o significado de uma entrada para o modelo (ou de um rótulo de saída) muda, por exemplo, devido a regulamentos modificados. Uma deriva conceito ocorre quando a mudança não é drástica, mas emerge lentamente. A deriva é muitas vezes devido à incrustação do sensor, ou seja, evolução lenta ao longo do tempo na resolução do sensor (a menor diferença detectável entre dois valores) ou intervalo de representação geral. Uma estratégia popular para lidar com a manutenção do modelo é o reaprendizado baseado em janelas, que se baseia em pontos de dados recentes para construir um modelo de ML. Outra técnica útil para a manutenção do modelo de IA é o teste de volta. Na maioria dos casos, a organização do usuário sabe o que aconteceu no rescaldo da adoção do modelo de IA e pode comparar a previsão do modelo com a realidade. Isso destaca as mudanças de conceito: se um conceito subjacente mudar, as organizações vêem uma diminuição do desempenho. Outra maneira de detectar esses desvios conceituais pode envolver a caracterização estatisticamente do conjunto de dados de entrada utilizado para treinar o modelo de IA, de modo que seja possível comparar esse conjunto de dados de treinamento com os dados de entrada atuais em termos de propriedades estatísticas. Diferenças significativas entre conjuntos de dados podem ser indicativas da presença de potenciais derivações conceituais que podem exigir a realização de um processo de reaprendizagem, mesmo antes de a produção do sistema ser significativamente afetada. Desta forma, processos de reformação/reaprendizagem, que podem ser potencialmente demorados e recursos, só podem ser realizados quando exigidos em vez de periodicamente, como nas estratégias de reaprendizagem baseadas em janelas acima mencionadas. A manutenção do modelo também reflete a necessidade de monitorar as metas e ativos de negócios que podem evoluir ao longo do tempo e, consequentemente, influenciar o próprio modelo.

Manutenção do modelo em poucas palavras: Monitore os resultados da inferência de ML do modelo AI implantado, bem como os dados de entrada recebidos pelo modelo, a fim de detectar possíveis alterações de conceito ou desvios. Retreine o modelo quando necessário.

Compreensão empresarial

Construir um modelo de IA geralmente é caro e sempre demorado. Ela representa vários riscos comerciais, incluindo não ter um impacto significativo na organização do usuário, bem como a falta de prazos de produção após a conclusão. O entendimento dos negócios é o estágio em que as empresas que implementam modelos de IA obtêm insights sobre o impacto da IA em seus negócios e tentam maximizar a probabilidade de sucesso.

Compreensão de negócios em poucas palavras: avalie a proposta de valor do modelo de IA implantado. Estime (antes da implantação) e verifique (após a implantação) seu impacto nos negócios.

Desafios de cibersegurança de inteligência artificial

Leia o Relatório Completo (PDF)

Relatório ENISA — Desafios de segurança cibernética de IA

Leia a comunicação original.

*Compartilhado com permissão sob Creative Commons — Attribution 4.0 International (CC BY 4.0) — licença.

Leitura Adicional

Custos subindo? Considerando a economia da violação de dados

Sorte dos irlandeses? Comissão de Proteção de Dados da Irlanda publica Relatório Anual

Fonte: ComplexDiscovery

Ataque SPAC? Cellebrite se move para se tornar uma empresa pública

According to Adam Clammer, Chief Executive Officer of TWC Tech Holdings,...

Cobra Legal Solutions recebe investimento da Blue Sage Capital

According to Eric Weiner, Partner at Blue Sage, “We are excited...

Fusões, aquisições e investimentos de eDiscovery no 1º trimestre de 2021

From Relativity and Reveal to Compliance (System One) and Veristar, the...

Risco Cibernético e Recompensa? Kroll Adquire Redscan

According to Redscan CEO, Mike Fenton, “Merging Redscan’s innovative culture and...

A New Era in eDiscovery? Framing Market Growth Through the Lens of Six Eras

There are many excellent resources for considering chronological and historiographical approaches...

Um Mashup de tamanho do mercado de eDiscovery: 2020-2025 Visão geral mundial de software e serviços

While the Compound Annual Growth Rate (CAGR) for worldwide eDiscovery software...

Redefinindo a linha de base? Ajustes de tamanho do mercado de eDiscovery

An unanticipated pandemeconomic-driven retraction in eDiscovery spending during 2020 has resulted...

Para casa ou para fora? Considerações de preço e dimensionamento do mercado de coleta de eDiscovery

One of the key home (onsite) or away (remote) decisions that...

Cinco ótimas leituras sobre eDiscovery para março 2021

From data breach economics and vulnerabilities to private-equity investments and vendor...

Cinco grandes leituras sobre eDiscovery para fevereiro 2021

From litigation trends and legal tech investing to facial recognition and...

Cinco ótimas leituras sobre eDiscovery para janeiro 2021

From eDiscovery business confidence and operational metrics to merger and acquisition...

Cinco ótimas leituras sobre eDiscovery para dezembro de 2020

May the peace and joy of the holiday season be with...

Cobra Legal Solutions recebe investimento da Blue Sage Capital

According to Eric Weiner, Partner at Blue Sage, “We are excited...

Corporação Z? Lançamentos aprovados pela ZDiscovery Platform

According to the announcement, Monica Enand, Zapproved Founder and CEO, shared,...

Cabeça nas Nuvens? CloudNine lança atualizações de revisão

According to Tony Caputo, CEO of CloudNine, “CloudNine is 100% dedicated...

Tudo por Um e Um por Todos? Epiq lança experiência unificada de cliente digital

According to the announcement, Epiq Access is available globally and provides...

Um otimismo de aquecimento? Pesquisa de confiança empresarial do eDiscovery da primavera 2021

The eDiscovery Business Confidence Survey is a nonscientific quarterly survey designed...

Catch Tempo Frio? Pesquisa de Tecnologias e Protocolos de Codificação Preditiva — Resultados da Primavera 2021

The Predictive Coding Technologies and Protocols Survey is a non-scientific semi-annual...

Saindo da floresta? Dezoito observações sobre a confiança dos negócios do eDiscovery no inverno de 2021

In the winter of 2021, 85.0% of eDiscovery Business Confidence Survey...

Problemas que afetam o desempenho dos negócios do eDiscovery: uma visão geral do inverno 2021

In the winter of 2021, 43.3% of respondents viewed budgetary constraints...