База знаний об угрозах для искусственного интеллекта ATLAS от MITRE представляет собой комплексное руководство по тактикам и процессам, которые злоумышленники используют для компрометации и эксплуатации уязвимостей систем ИИ.

Одно дело понимать, что искусственный интеллект создает новые и быстро меняющиеся угрозы, но совсем другое — невероятно сложная задача — быть в курсе того, как выглядят эти угрозы, откуда они исходят и насколько они серьезны.

Adversarial Threat Landscape for AI Systems (ATLAS) — это попытка сделать именно это, чтобы вам самим не пришлось этого делать. Разработанный некоммерческой организацией по исследованию технологий MITRE и смоделированный по образцу ее широко популярного репозитория MITRE ATT&CK, ATLAS — это «живая база знаний о тактиках и методах противника, основанная на реальных наблюдениях за атаками и реалистичных демонстрациях от AI Red Teams и Security Groups».

MITRE рекомендует использовать ATLAS для таких видов деятельности, как анализ безопасности, разработка и внедрение ИИ, оценка угроз, а также red-teaming и отчетность об атаках на системы с поддержкой ИИ. ATLAS движется слева направо и демонстрирует жизненный цикл атаки от первоначальной разведки до окончательного воздействия.

Разведка

Разведывательная деятельность (Reconnaissance) часто включает поиск общедоступных исследовательских материалов жертв. Это может включать такие примеры, как журналы и материалы конференций, репозитории препринтов или технические блоги.

Это соответствует процессу злоумышленников, которые также могут искать общедоступный состязательный анализ уязвимостей. Он может включать информацию об уязвимостях в моделях, сервисах/провайдерах, платформах и базовых технологиях и помогает информировать об успешных атаках, ориентированных на ИИ, будь то с использованием известных методов эксплуатации или созданием новых.

Разработка ресурсов

После того, как злоумышленники провели разведку, они стремятся установить ресурсы, которые они могут использовать для своих вредоносных действий (Resource development). Это включает такие действия, как создание и приобретение ресурсов для поддержки своих действий или компрометация и кража существующих ресурсов, которые могут обеспечить как экономию средств, так и сделать их действия непрозрачными и трудно определяемыми.

В последнее время мы часто наблюдаем это в облачной инфраструктуре, но исторически это также относится к таким видам деятельности, как ботнеты, а также DDoS-атакам.

Эта тактика в ATLAS включает семь различных методов. Для краткости мы не будем рассматривать их все, но они включают в себя такие вещи, как:

  • Приобретение публичных артефактов машинного обучения (МО)
  • Получение/развитие возможностей
  • Приобретение инфраструктуры
  • Отравление данных и публикация отравленных наборов данных

Методы этой тактики включают не только традиционные ресурсы, но и создание вредоносных данных, создание моделей машинного обучения-посредников и публикацию зараженных наборов данных в открытом доступе, аналогично тому, как злоумышленники используют преимущества экосистемы с открытым исходным кодом, отравляя программные пакеты.

Первоначальный доступ

После того, как злоумышленник провел разведку и разрабатывает ресурсы для своей вредоносной деятельности, он попытается получить первоначальный доступ (Initial access) к системе AI/ML, как правило, через сети, мобильные устройства, периферийные системы или их комбинацию. Системы также могут быть локальными для предприятия или размещаться в облачной среде или у поставщика управляемых услуг.

Существует множество способов, которыми злоумышленники могут получить первоначальный доступ к системе. Некоторые примеры, которые приводит ATLAS, включают:

  • Компрометация цепочки поставок МО
  • Действительные учетные записи
  • Эксплуатация приложений
  • Внедрение подсказок LLM (LLM prompt injection)
  • Фишинг
  • Обход модели (Model evasion)

Хотя некоторые из этих методов широко распространены в других кибератаках, некоторые из них являются более новыми для ИИ/МО, например, компрометация цепочки поставок МО через аппаратное обеспечение графического процессора, данные и программное обеспечение МО или даже саму модель.

Обход модели — это метод, при котором злоумышленник создает вредоносные данные и входные данные для модели машинного обучения, которые могут оказать желаемое воздействие на целевую модель. Внедрение подсказок LLM, пожалуй, является одним из наиболее обсуждаемых типов атак против генеративных систем ИИ и LLM. Он включает в себя создание вредоносных подсказок для ввода в LLM, чтобы заставить его действовать непреднамеренными способами.

Доступ к модели машинного обучения

Уникальным методом атаки на системы AI/ML является доступ к модели ML (ML model access). Злоумышленники часто ищут доступ к модели ML, чтобы получить информацию, разработать методы атаки или ввести вредоносные данные в модель для гнусных целей. Они также могут получить доступ к модели различными путями, такими как базовая среда хостинга, через API или путем прямого взаимодействия с ней.

Методы, используемые для доступа к модели машинного обучения, включают:

  • Доступ к API вывода модели машинного обучения
  • Продукт или услуга с поддержкой МО
  • Доступ к физической среде
  • Полный доступ к модели машинного обучения

Организации все чаще используют ML и AI в своих продуктах и ​​услугах, либо напрямую через поставщика AI, либо путем прямой интеграции ML и AI в свой продуктовый портфель. Злоумышленники могут попытаться получить доступ к базовой модели ML через эти продукты и услуги или даже почерпнуть информацию из журналов и метаданных.

Выполнение

Теперь мы отправляемся в путь, поскольку злоумышленник приступает к выполнению (Execution). Это включает в себя попытку запустить вредоносный код в артефактах или программном обеспечении ML, локально или на удаленной системе. Это также помогает более широким действиям, от горизонтального перемещения до кражи конфиденциальных данных.

В этой тактике задействованы три потенциальных техники:

  • Пользовательское исполнение
  • Интерпретатор команд и скриптов
  • Компрометация плагина LLM

Выполнение может включать в себя выполнение пользователем определенных действий, таких как выполнение небезопасного кода с помощью таких методов, как социальная инженерия или вложения. Злоумышленники также могут использовать команды и скрипты для внедрения данных с целью получения начального доступа или для установлении командования и контроля.

Закрепление

После того, как начальная точка опоры установлена ​​посредством выполнения, злоумышленники стремятся закрепиться в системе (Persistence). Это часто происходит с помощью артефактов и программного обеспечения МО и направлено на то, чтобы помочь злоумышленнику сохранить доступ после перезапусков системы или ротации учетных данных, которые обычно прекращают их доступ.

Методы, используемые для закрепления, включают в себя:

  • Отравление обучающих данных (Poison training data)
  • Внедрение бэкдора в модель ML (Backdoor ML model)
  • Внедрение подсказок LLM (LLM prompt injection)

Закрепление в системе, конечно, является распространенным аспектом кибератак, но метод, которым злоумышленник устанавливает ее для систем AI/ML, может быть уникальным. Это может включать отравление наборов данных, используемых моделью ML, или ее базовых обучающих данных и меток для внедрения уязвимостей или вставки кода, который может быть запущен позже при необходимости, например, бэкдора.

Повышение привилегий

Получение первоначального доступа и закрепление в системе являются ключевыми шагами, но часто злоумышленник хочет повысить свои привилегии (Privilege escalation), чтобы достичь предполагаемого эффекта, будь то полная компрометация организации, воздействие на модели или данные или эксфильтрация данных. Злоумышленники обычно используют слабости системы, неправильные конфигурации и уязвимости, чтобы повысить свой уровень доступа.

ATLAS выделяет три метода:

  • Внедрение подсказок LLM (LLM prompt injection)
  • Компрометация плагина LLM
  • LLM-джейлбрейк

Учитывая, что мы уже несколько раз обсуждали первые два метода, мы сосредоточимся на джейлбрейке LLM. Джейлбрейк LLM включает использование инъекции подсказки для перевода LLM в состояние, которое позволяет ему свободно реагировать на любой пользовательский ввод, игнорируя ограничения, контроли и ограждения, которые мог установить владелец системы LLM.

Уклонение от защиты

Получение доступа к системе и закрепление в ней — серьезное достижение для злоумышленника, но его обнаружение может привести к потере доступа или серьезно повлиять на достижение целей злоумышленника, поэтому ключевым моментом становится уклонение от защитных мер (Defense evasion).

Подобно предыдущим тактикам, здесь используются следующие методы:

  • Уклонение от модели МО (Evading ML model)
  • Внедрение подсказок LLM (LLM prompt injection)
  • LLM-джейлбрейк

Это может помочь в таких действиях, как уклонение от обнаружения вирусов и вредоносных программ на основе МО или сканирования сети, чтобы гарантировать, что деятельность злоумышленника не будет обнаружена.

Доступ к учетным данным

Неудивительно, что в списке есть доступ к учетным данным (Credential access) и их компрометация. Хотя ATLAS перечисляет имена учетных записей и пароли, это должно быть расширено до любого вида учетных данных, включая токены доступа, ключи API, токены привилегированного доступа GitHub и многое другое, поскольку компрометация учетных данных остается ведущим вектором атак, и мы также видим рост нечеловеческих идентификаторов (NHI) из-за API, микросервисов, облаков и современного цифрового ландшафта.

Единственная техника, указанная в ATLAS в разделе «Доступ с учетными данными», это:

  • Незащищенные учетные данные

Они обсуждают небезопасно хранимые учетные данные, такие как текстовые файлы, переменные среды и репозитории.

Обнаружение

Обнаружение (Discovery) похоже на разведку, но оно происходит внутри вашей среды, а не снаружи. Злоумышленник установил доступ и закрепился в системе и теперь пытается получить представление о системе, сети и среде машинного обучения.

Четыре перечисленных техники включают в себя:

  • Обнаружение онтологии модели машинного обучения
  • Обнаружение семейства моделей ML
  • Обнаружение артефактов машинного обучения
  • Извлечение метаданных LLM

Здесь злоумышленники стремятся понять модель ML, ее онтологию, семейство моделей, к которому она принадлежит, как она реагирует на входные данные и многое другое, чтобы соответствующим образом адаптировать свои атаки. Они также стремятся понять, как LLM обрабатывает инструкции и ее внутреннюю работу, чтобы ее можно было манипулировать или заставить раскрыть конфиденциальные данные.

Сбор данных

На этом этапе жизненного цикла атаки, согласно ATLAS, злоумышленник собирает артефакты ML и другую информацию для достижения своих целей (Collection). Это часто является предвестником кражи артефактов ML или использования собранной информации для следующих шагов в своих атаках. Злоумышленники часто собирают информацию из репозиториев программного обеспечения, реестров контейнеров и моделей и т. д.

Были выявлены следующие методы:

  • Сбор артефактов МО
  • Данные из информационных хранилищ
  • Данные из локальных систем

Инсценировка атаки на МО

Теперь, когда информация собрана, злоумышленники начинают организовывать атаку, имея знания о целевых системах (ML staging attack). Они могут обучать прокси-модели, отравлять целевую модель или создавать враждебные данные для подачи в целевую модель.

Четыре выявленных метода включают в себя:

  • Создать прокси-модель ML
  • Установка бэкдора в модель ML
  • Проверить атаку
  • Создание враждебных данных

Прокси модели ML можно использовать для имитации атак и делать это в автономном режиме, пока злоумышленники оттачивают свою технику и желаемые результаты. Они также могут использовать автономные копии целевых моделей для проверки успешности атаки, не вызывая подозрений у организации-жертвы.

Эксфильтрация

После всех обсуждаемых шагов злоумышленники добираются до того, что им действительно нужно — эксфильтрации (Exfiltration). Это включает в себя кражу артефактов ML или другой информации о системе ML. Это может быть интеллектуальная собственность, финансовая информация или другие конфиденциальные данные в зависимости от варианта использования модели и задействованных систем ML.

Техники, связанные с эксфильтрацией, включают:

  • Эксфильтрация через API вывода машинного обучения
  • Эксфильтрация с помощью киберсредств
  • Извлечение метаданных LLM (LLM meta prompt extraction)
  • Утечка данных LLM

Все они включают в себя эксфильтрацию данных, будь то через API, традиционные киберметоды (например, эксфильтрация ATT&CK ) или использование промптов, чтобы заставить LLM выдать конфиденциальные данные, такие как личные данные пользователя, фирменные организационные данные и данные обучения, которые могут включать личную информацию. Это было одной из главных опасений, связанных с использованием LLM, со стороны специалистов по безопасности, поскольку организации быстро их внедряют.

Воздействие

В отличие от эксфильтрации, на этапе воздействия (Impact) злоумышленники создают хаос или ущерб, потенциально вызывая перебои, подрывая доверие или даже уничтожая системы и данные МО. На этом этапе это может включать в себя нацеливание на доступность (например, через вымогательство) или злонамеренное нарушение целостности.

Эта тактика состоит из шести приемов, в том числе:

  • Обход моделей МО
  • Отказ в обслуживании МО
  • Засорение систем машинного обучения спамом с использованием поддельных данных
  • Нарушение целостности модели машинного обучения
  • Сбор затрат (Cost harvesting)
  • Внешний вред (External harms)

Хотя мы уже обсудили некоторые из техник в рамках других тактик, здесь есть некоторые уникальные техники, связанные с воздействием. Например, отказ в обслуживании ML стремится исчерпать ресурсы или затопить системы запросами, чтобы ухудшить или отключить услугу.

Хотя большинство современных корпоративных решений на базе искусственного интеллекта размещаются в облаке с использованием эластичных вычислений, они все равно могут столкнуться с DDoS-атаками и исчерпанием ресурсов, а также повлечь за собой финансовые последствия, если не принять надлежащих мер, что скажется как на поставщике, так и на потребителях.

Кроме того, злоумышленники могут попытаться подорвать целостность модели машинного обучения, используя вредоносные входные данные, которые повлияют на доверие потребителей модели машинного обучения.

Наконец, злоумышленники могут попытаться причинить внешний вред, например, злоупотребив полученным доступом, чтобы повлиять на систему, ресурсы и организацию жертвы, например, нанести финансовый и репутационный ущерб, повлиять на пользователей или нанести более широкий общественный вред, в зависимости от сферы применения ML-системы.

Крис Хьюз

Источник: https://www.csoonline.com/article/3532290/want-to-know-how-the-bad-guys-attack-ai-systems-mitres-atlas-can-show-you.html

Ваша реакция?
+1
0
+1
1
+1
2
+1
0
+1
0
+1
0
+1
0
4.7 3 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest

1 Комментарий
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Пол Саймон
2 месяцев назад

MITRE ATT&CK, ATLAS — отличный фреймворк для моделирования угроз.

1
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x