Проблемы кибербезопасности для искусственного интеллекта: рассмотрение жизненного цикла ИИ

Artificial Intelligence (AI) is influencing people’s everyday lives and playing a key role in digital transformation through its automated decision-making capabilities. The benefits of this emerging technology are significant, but so are the concerns. In this recent report, The EU Agency for Cybersecurity (ENISA) warns that AI may open new avenues in manipulation and attack methods, as well as new privacy and data protection challenges.

en flag
nl flag
et flag
fi flag
fr flag
de flag
pt flag
ru flag
es flag

Примечание редактора: Агентство Европейского Союза по кибербезопасности, ENISA, является агентством Союза, занимающееся достижением высокого общего уровня кибербезопасности по всей Европе. В декабре 2020 года ENISA опубликовала отчет AI Cybersecurity Challenges - Threat Landscape для искусственного интеллекта. В докладе представлено активное отображение Агентством экосистемы кибербезопасности ИИ и ее ландшафта угроз. В рамках отчета предусмотрена общая эталонная модель жизненного цикла для ИИ, позволяющая использовать структурированный и методический подход к пониманию различных аспектов ИИ. Этот общий жизненный цикл искусственного интеллекта может быть полезен для юристов, бизнеса и специалистов по информационной безопасности в экосистеме eDiscovery, которые начинают рассматривать кибербезопасность и ее отношения с искусственным интеллектом.

Проблемы кибербезопасности ИИ - Агентство Европейского Союза по кибербезопасности

Выдержка отчета о жизненном цикле искусственного интеллекта совместно с разрешением

Фазы жизненного цикла AI

Рисунок - Общая эталонная модель жизненного цикла ИИ

Универсальная эталонная модель жизненного цикла

В этом разделе мы предоставляем краткое определение для каждого этапа жизненного цикла ИИ и резюмируем отдельные шаги, которые он включает в себя («Фаза в двух словах»).

Определение бизнес-цели

Перед разработкой любого приложения/системы ИИ важно, чтобы организация-пользователь полностью понимала бизнес-контекст приложения/системы ИИ и данные, необходимые для достижения бизнес-целей приложения ИИ, а также бизнес-метрики, которые будут использоваться для оценки степени, в которой эти цели были достигнуты.

Фаза определения бизнес-цели в двух словах: Определите бизнес-цель приложения/системы искусственного интеллекта. Свяжите цель с вопросом, на который отвечает модель ИИ, которая будет использоваться в приложении/системе. Определите тип модели на основе вопроса.

Прием данных

Data Ingestion - это этап жизненного цикла ИИ, на котором данные получаются из нескольких источников (необработанные данные могут быть любой формы структурированной или неструктурированной) для создания многомерных точек данных, называемых векторами, для немедленного использования или для хранения, чтобы быть доступны и использованы позже. Прием данных лежит в основе любого приложения ИИ. Данные могут поступать непосредственно из источников в режиме реального времени, непрерывным способом, также известным как потоковая передача, или путем импорта пакетов данных, где данные периодически импортируются большими макропакетами или небольшими микропакетами.

Различные механизмы приема могут быть активны одновременно в одном приложении, синхронизируя или развязывая пакет и поток приема одних и тех же потоков данных. Компоненты приема также могут указывать аннотацию данных, то есть, выполняется ли прием с метаданными или без них (словарь данных или онтология/таксономия типов данных). Часто контроль доступа осуществляется во время приема данных, моделируя статус конфиденциальности данных (персональных/неперсональных данных), выбирая подходящие методы сохранения конфиденциальности и принимая во внимание достижимый компромисс между воздействием на конфиденциальность и аналитической точностью. Во всех случаях необходимо обеспечить соблюдение применимых правовых рамок ЕС о конфиденциальности и защите данных.

Статус конфиденциальности, присвоенный данным, используется для определения соглашения об уровне обслуживания приложений искусственного интеллекта (SLA) в соответствии с применимой правовой базой ЕС о конфиденциальности и защите данных, включая, среди прочего, возможность проверки/аудита компетентных регулирующих органов (таких как Data Protection Органы власти). Важно отметить, что при вдании данных может возникнуть конфликт управления ИТ. С одной стороны, данные разделываются их владельцами, чтобы обеспечить контроль доступа и защиту конфиденциальности; с другой стороны, они должны быть интегрированы для обеспечения аналитики. Часто к элементам одной и той же категории применяются различные политики и правила политики. Для мультимедийных источников данных протоколы доступа могут даже соответствовать подходу управления цифровыми правами (DRM), при котором подтверждение удержания должно быть сначала согласовано с серверами лицензий. Дизайнер приложений искусственного интеллекта несет ответственность за то, чтобы обеспечить соблюдение политики поставщиков данных в отношении использования данных и применимой правовой базы ЕС о конфиденциальности и защите данных.

Фаза сбора/приема данных/приема в двух словах: Определите входные (динамические) данные для сбора и соответствующие контекстные метаданные. Организуйте прием в соответствии с требованиями приложения искусственного интеллекта, импортируя данные потоковым, пакетным или мультимодальным способом.

Исследование данных

Исследование данных — это этап, на котором аналитические данные начинают браться из принимаемых данных. Хотя он может быть пропущен в некоторых приложениях искусственного интеллекта, где данные хорошо поняты, это, как правило, очень трудоемкая фаза жизненного цикла ИИ. На данном этапе важно понимать тип данных, которые были собраны. Необходимо проводить ключевое различие между различными возможными типами данных, при этом числовые и категориальные являются наиболее заметными категориями, наряду с мультимедийными данными (например, изображения, аудио, видео и т.д.). Числовые данные поддаются построению и позволяют вычислять описательную статистику и проверять, соответствуют ли данные простым параметрическим распределениям, таким как гауссовое. Отсутствующие значения данных также могут быть обнаружены и обработаны на этапе разведки. Категориальные переменные - это те, которые имеют две или более категорий, но без внутреннего порядка. Если переменная имеет четкий порядок, то она рассматривается как порядковая переменная.

Проверка данных/анализ данных в двух словах: проверьте, соответствуют ли данные известному распределению статистики либо по компонентам (моновариационные распределения), либо в виде векторов (многомерное распределение). Оцените соответствующие статистические параметры.

Предварительная обработка данных

На этапе предварительной обработки данных используются методы очистки, интеграции и преобразования данных. Этот процесс направлен на улучшение качества данных, что позволит повысить производительность и эффективность всей системы ИИ за счет экономии времени на этапе обучения аналитических моделей и повышения качества результатов. В частности, термин «очистка данных» обозначает методы исправления несоответствий, устранения шума и анонимизации/псевдонимизации данных.

Интеграция данных объединяет данные, поступающие из нескольких источников, в то время как преобразование данных подготавливает данные для подачи аналитической модели, как правило, путем кодирования их в числовом формате. Типичная кодировка - это одногорячая кодировка, используемая для представления категориальных переменных в виде двоичных векторов. Эта кодировка сначала требует, чтобы категориальные значения были сопоставлены с целочисленными значениями. Затем каждое целочисленное значение представлено в виде двоичного вектора, который является все нулевые значения, кроме позиции целого числа, которое помечено 1.

После преобразования в числа данные могут подвергаться дальнейшим типам преобразования: повторному масштабированию, стандартизации, нормализации и маркировке. В конце этого процесса получается числовой набор данных, который станет основой для обучения, тестирования и оценки модели ИИ.

Поскольку наличие достаточно большого набора данных является одним из ключевых факторов успеха при правильном обучении модели, обычно применяются различные методы увеличения данных к тем наборам обучающих данных, которые слишком малы. Например, обычно в обучающий набор данных включаются различные масштабированные или повернутые версии изображений, которые уже были в этом наборе данных. Другим примером метода увеличения данных, который может быть использован при обработке текста, является замена слова его синонимом. Даже в тех случаях, когда учебный набор данных достаточно велик, методы увеличения данных могут улучшить окончательную обученную модель. Данные также могут быть дополнены, с тем чтобы увеличить их количество и разнообразие охватываемых сценариев. Увеличение данных обычно заключается в применении преобразований, которые, как известно, сохраняют метки, то есть модель не должна изменять свои выходные данные (а именно предсказание) при представлении с преобразованными элементами данных. Увеличение данных может служить для повышения производительности модели и, в частности, ее надежности к доброкачественным возмущениям. Одной из задач, в которой по умолчанию используется увеличение данных, является классификация изображений, где данные могут быть дополнены, например, путем применения переводов, поворотов и фильтров размытия.

Предварительная обработка данных в двух словах: преобразование поступающих данных в метрический (числовой) формат, интеграция данных из различных источников, обработка отсутствующих/нулевых значений путем интерполяции, уплотнение для уменьшения разреженности данных, снятивание шума, фильтрация выбросов, интервал представления изменения, анонимизирование/псевдонимизация данных, увеличение данных.

Выбор объекта

Выбор объектов (в общем проектировании объектов) — это этап, на котором количество компонентов или объектов (также называемых измерениями), составляющих каждый вектор данных, уменьшается путем определения компонентов, которые считаются наиболее значимыми для модели ИИ. Результатом является уменьшенный набор данных, так как каждый вектор данных имеет меньше компонентов, чем раньше. Помимо снижения вычислительных затрат, выбор функций может принести более точные модели.

Кроме того, модели, построенные поверх данных нижних размеров, более понятны и объяснимы. Этот этап также может быть встроен в фазу построения модели (например, при обработке изображений или речевых данных), который будет обсуждаться в следующем разделе.

Выбор объектов в двух словах: Определите размеры набора данных, которые учитывают глобальный параметр, например, общую дисперсию надписей. Данные проекта задаются вдоль этих измерений, отбрасывая остальные.

Выбор модели/Здание

На этом этапе выполняется выбор/построение лучшей модели ИИ или алгоритма для анализа данных. Это сложная задача, часто подвергнута проб и ошибкам. Основываясь на бизнес-цели и типе доступных данных, можно использовать различные типы методов искусственного интеллекта. Тремя широко определенными основными категориями являются контролируемое обучение, неконтролируемое обучение и подкрепляющие модели обучения. Контролируемые методы имеют дело с помеченными данными: модель ИИ используется для изучения отображения между входными примерами и целевыми выходами.

Контролируемые модели могут быть спроектированы как классификаторы, целью которых является предсказание метки класса, и регрессоры, целью которых является предсказание функции числовых значений входных данных. Здесь некоторые распространенные алгоритмы: вспомогательные векторные машины, наивные байес, скрытая модель Маркова, байесовские сети и нейронные сети.

Неконтролируемые методы используют немаркированные обучающие данные для описания и извлечения связей из них, либо с целью организации их в кластеры, выделения связи между пространством ввода данных, суммирования распределения данных и уменьшения размерности данных (эта тема уже рассматривалась в качестве предварительного для подготовки данных в разделе о выборе объектов). Усиление обучения отображает ситуации с действиями, изучая поведение, которое максимизирует желаемую функцию вознаграждения.

Хотя тип обучающих данных, помеченных или нет, является ключевым для типа метода, который будет использоваться и выбираться, модели также могут быть построены с нуля (хотя это довольно маловероятно), при этом ученый по обработке данных проектирует и кодирует модель с помощью присущих им методов разработки программного обеспечения; или построение модели с помощью сочетая композицию методов. Важно отметить, что выбор модели (а именно выбор модели, адаптированной к данным) может вызвать дальнейшее преобразование входных данных, поскольку различные модели ИИ требуют различных числовых кодировок векторов входных данных.

Вообще говоря, выбор модели также включает в себя выбор ее стратегии обучения. В контексте контролируемого обучения, например, обучение включает в себя вычисление (функция обучения) разницы между выходными данными модели, когда она получает каждый элемент данных учебного набора D в качестве входных данных, и меткой D. Этот результат используется для изменения модели, чтобы уменьшить разницу.

Доступно множество обучающих алгоритмов для минимизации ошибок, большинство из которых основаны на градиентном спуске. Алгоритмы обучения имеют свои собственные гиперпараметры, включая функцию, которая будет использоваться для вычисления ошибки модели (например, ошибка среднего квадрата), и размер партии, то есть количество помеченных образцов, которые будут поданы в модель для накопления значения ошибки, которая будет использоваться для адаптации самой модели.

Выбор модели AI в двух словах: Выберите тип модели искусственного интеллекта, подходящий для применения. Кодируйте векторы ввода данных в соответствии с предпочтительным входным форматом модели.

Модельное обучение

Выбрав модель ИИ, которая в контексте этой эталонной модели в основном относится к модели машинного обучения (ML), начинается этап обучения системы ИИ. В контексте контролируемого обучения выбранная модель ML должна пройти этап обучения, где внутренние параметры модели, такие как веса и смещение, изучаются из данных. Это позволяет модели получить представление об используемых данных и, таким образом, стать более способной анализировать их. Опять же, обучение включает в себя вычисление (функция) разницы между выходными данными модели, когда она получает каждый элемент данных учебного набора D в качестве входных данных, и меткой D. Этот результат используется для изменения модели, чтобы уменьшить разницу между предполагаемым результатом и желаемым результатом и, таким образом, постепенно приводит к более точным, ожидаемым результатам.

Этап обучения будет подавать модель ML пакетами входных векторов и будет использовать выбранную функцию обучения для адаптации внутренних параметров модели (веса и смещения) на основе меры (например, линейной, квадратичной, логарифмической потери) разницы между выходными данными модели и метками. Зачастую имеемый набор данных на данном этапе разбивается на обучающий набор, используемый для установки параметров модели, и тестовый набор, где критерии оценки (например, частота ошибок) регистрируются только для оценки эффективности модели за пределами учебного набора. Схемы перекрестной проверки случайным образом разбивают несколько раз набор данных на обучающую и тестовую часть фиксированных размеров (например, 80% и 20% доступных данных), а затем повторяют этапы обучения и проверки на каждом разделе.

AI Model Training in a Nutshell: Примените выбранный алгоритм обучения с соответствующими параметрами, чтобы изменить выбранную модель в соответствии с обучающими данными. Проверка модели обучения на тестовом наборе в соответствии со стратегией перекрестной проверки.

Тюнинг модели

Настройка модели обычно перекрывается с обучением модели, так как настройка обычно рассматривается в процессе обучения. Мы решили разделить два этапа жизненного цикла ИИ, чтобы подчеркнуть различия с точки зрения функциональной работы, хотя, скорее всего, в большинстве систем ИИ они будут частью процесса обучения.

Некоторые параметры определяют концепции высокого уровня о модели, такие как их функция обучения или модальность, и не могут быть изучены из входных данных. Эти специальные параметры, часто называемые гиперпараметрами, необходимо настраивать вручную, хотя при определенных обстоятельствах их можно настроить автоматически путем поиска пространства параметров модели. Этот поиск, называемый оптимизацией гиперпараметров, часто выполняется с использованием классических методов оптимизации, таких как Grid Search, но можно использовать случайный поиск и байесовскую оптимизацию. Важно отметить, что на этапе настройки модели используется специальный набор данных (часто называемый набором валидации), отличный от учебных и тестовых наборов, использовавшихся на предыдущих этапах. Этап оценки может также рассматриваться для оценки предельных значений результатов и оценки того, как модель будет вести себя в экстремальных условиях, например, путем использования неправильных/небезопасных наборов данных. Важно отметить, что в зависимости от количества гиперпараметров, которые должны быть скорректированы, попытка всех возможных комбинаций может быть просто неосуществимой.

Настройка модели искусственного интеллекта в двух словах: Примените адаптацию модели к гиперпараметрам обученной модели искусственного интеллекта, используя набор данных проверки в соответствии с условием развертывания.

Трансферное обучение

На этом этапе организация-пользователь получает предварительно обученную и предварительно настроенную модель искусственного интеллекта и использует ее в качестве отправной точки для дальнейшего обучения для достижения более быстрой и лучшей конвергенции. Обычно это происходит в тех случаях, когда для обучения имеется мало данных. Следует отметить, что все описанные выше шаги (настройка, тестирование и т.д.) также применяются для трансферного обучения. Кроме того, поскольку во многих случаях применяется трансферное обучение, можно рассматривать трансферное обучение как часть модельного этапа обучения, учитывая, что трансферное обучение обычно служит отправной точкой алгоритма обучения. Чтобы обеспечить более широкий охват, мы выделяем перенос обучения в отдельную фазу жизненного цикла ИИ, представленного здесь.

Перенос обучения в двух словах: источник предварительно обученной модели искусственного интеллекта в той же области приложения и примените к ней дополнительное обучение, по мере необходимости, чтобы повысить ее точность в производстве.

Развертывание модели

Модель машинного обучения принесет знания в организацию только тогда, когда ее прогнозы станут доступны конечным пользователям. Развертывание — это процесс принятия обученной модели и предоставления ее пользователям.

Развертывание модели в двух словах: создание в производстве воплощения модели в виде программного обеспечения, микропрограммного обеспечения или аппаратного обеспечения. Разверните воплощение модели на периферии или облаке, соединяя производственные потоки данных.

Обслуживание модели

После развертывания модели искусственного интеллекта должны постоянно контролироваться и обслуживаться для обработки концептуальных изменений и потенциальных концептуальных дрейфов, которые могут возникнуть во время их работы. Изменение концепции происходит, когда значение ввода в модель (или выходной метки) изменяется, например, из-за измененных правил. Концептуальный дрейф происходит, когда изменение не является резким, но возникает медленно. Дрейф часто обусловлен инкрустацией датчика, то есть медленной эволюцией с течением времени в разрешении датчика (наименьшая обнаруживаемая разница между двумя значениями) или общим интервалом представления. Популярной стратегией для обработки обслуживания модели является переучивание на основе окон, которое опирается на последние точки данных для построения модели ML. Еще одним полезным методом для обслуживания модели искусственного интеллекта является обрательное тестирование. В большинстве случаев организация-пользователь знает, что произошло после принятия модели ИИ, и может сравнить прогнозирование модели с реальностью. Это подчеркивает изменения концепции: если базовая концепция переключается, организации видят снижение производительности. Другой способ обнаружения этих концептуальных дрейфов может включать статистическую характеристику входного набора данных, используемого для обучения модели ИИ, чтобы можно было сравнить этот обучающий набор данных с текущими входными данными с точки зрения статистических свойств. Существенные различия между наборами данных могут свидетельствовать о наличии потенциальных концептуальных дрейфов, которые могут потребовать проведения процесса переобучения, даже до того, как это будет существенно затронуто результатами системы. Таким образом, процессы переподготовки/переобучения, которые потенциально могут занимать много времени и ресурсов, могут выполняться только тогда, когда это необходимо, а не периодически, как в вышеупомянутых стратегиях перевосходства на основе окон. Обслуживание модели также отражает необходимость мониторинга бизнес-целей и активов, которые могут меняться с течением времени и соответственно влиять на саму модель.

Обслуживание модели в двух словах: отслеживайте результаты вывода ML развернутой модели ИИ, а также входные данные, полученные моделью, чтобы обнаружить возможные изменения концепции или дрейфы. При необходимости перетренируйте модель.

Понимание бизнеса

Построение модели искусственного интеллекта часто является дорогостоящим и всегда трудоемким. Это создает несколько бизнес-рисков, в том числе не оказывает значимого влияния на организацию пользователей, а также отсутствие сроков в производстве после завершения. Понимание бизнеса — это этап, на котором компании, развертывающие модели искусственного интеллекта, получают представление о влиянии ИИ на свой бизнес и пытаются максимизировать вероятность успеха.

Бизнес-понимание в двух словах: оцените ценностное предложение развернутой модели искусственного интеллекта. Оцените (перед развертыванием) и проверьте (после развертывания) его влияние на бизнес.

Проблемы кибербезопасности искусственного интеллекта*

Читать полный отчет (PDF)

Отчет ENISA — Проблемы кибербезопасности ИИ

Прочитайте оригинальное сообщение.

*Общий доступ с разрешения по лицензии Creative Commons — С указанием авторства 4.0 International (CC BY 4.0) — лицензия.

Дополнительное чтение

Парящие расходы? Рассмотрение экономики утечки данных

Удача ирландцев? Комиссия по защите данных Ирландии публикует годовой отчет

Источник: ComplexDiscovery

Атака SPAC? Cellebrite движется к тому, чтобы стать публичной компанией

According to Adam Clammer, Chief Executive Officer of TWC Tech Holdings,...

Cobra Legal Solutions получает инвестиции от Blue Sage Capital

According to Eric Weiner, Partner at Blue Sage, “We are excited...

Слияния, поглощения и инвестиции по раскрытию электронной документации в первом квартале 2021 года

From Relativity and Reveal to Compliance (System One) and Veristar, the...

Киберриск и вознаграждение? Kroll приобретает Redscan

According to Redscan CEO, Mike Fenton, “Merging Redscan’s innovative culture and...

Новая эра в раскрытии электронных данных? Обрамление роста рынка через призму шести эпох

There are many excellent resources for considering chronological and historiographical approaches...

Mashup на рынке раскрытия электронной документации: 2020-2025 годы Обзор программного обеспечения и услуг по всему миру

While the Compound Annual Growth Rate (CAGR) for worldwide eDiscovery software...

Сброс базовой линии? Корректировка размера рынка раскрытия электронных данных на 2020 год

An unanticipated pandemeconomic-driven retraction in eDiscovery spending during 2020 has resulted...

Домой или уходом? Соображения по вопросам размера и ценообразования на рынке коллекции электронных данных Discovery

One of the key home (onsite) or away (remote) decisions that...

Пять великих чтений об раскрытии электронных данных за март 2021 года

From data breach economics and vulnerabilities to private-equity investments and vendor...

Пять великих чтений по раскрытию электронных данных за февраль 2021 года

From litigation trends and legal tech investing to facial recognition and...

Пять великих чтений об раскрытии электронных данных за январь 2021 года

From eDiscovery business confidence and operational metrics to merger and acquisition...

Пять замечательных чтений по раскрытию электронной документации за декабрь 2020 года

May the peace and joy of the holiday season be with...

Cobra Legal Solutions получает инвестиции от Blue Sage Capital

According to Eric Weiner, Partner at Blue Sage, “We are excited...

Корпорация Z? Одобренные Zвыпуски платформы zDiscovery

According to the announcement, Monica Enand, Zapproved Founder and CEO, shared,...

Голова в облаках? Обновления рецензирования выпусков CloudNine

According to Tony Caputo, CEO of CloudNine, “CloudNine is 100% dedicated...

Все за одного и один за всех? Epiq запускает унифицированный цифровой клиент

According to the announcement, Epiq Access is available globally and provides...

Оптимизм потепления? Весенний 2021 год Обследование доверия бизнеса по раскрытию

The eDiscovery Business Confidence Survey is a nonscientific quarterly survey designed...

Холодная погода поймать? Исследование технологий и протоколов прогнозного кодирования — результаты весны 2021 года

The Predictive Coding Technologies and Protocols Survey is a non-scientific semi-annual...

Выезжаешь из леса? Восемнадцать наблюдений за уверенностью бизнеса по раскрытию электронной документации зимой 2021 года

In the winter of 2021, 85.0% of eDiscovery Business Confidence Survey...

Проблемы, влияющие на эффективность бизнеса по раскрытию электронной документации: обзор зимой 2021 года

In the winter of 2021, 43.3% of respondents viewed budgetary constraints...