Пока не исправили — модифицируй, или Анализ расширений атаки уклонения для LLM

От

Окт 8, 2024

Добрый день, уважаемые читатели Хабра. В связи с бурным развитием генеративных моделей и реализованных на них чат‑ботов (ChatGPT, Gemini, Bard, Notion AI, Compose AI, Poe, Phind) у пользователя появляется ложное чувство, что модели стали умнее, защищённее и, в целом, ближе к совершенству, сравнимы с человеческим интеллектом. Отсюда мы получаем целый пласт заблуждений. Например, что модели нас «чувствуют», «понимают», ведь мы выкладываем для них столько информации о себе, начиная от стилистики нашего письма, что уже является неким цифровым отпечатком нашей личности, и заканчивая оценкой их собственной работы. На самом деле это миф. И трендом 2023–2024 годов стало обширное внимание публики к XAI:

— как они (генеративные модели) устроены и как они принимают решения;

— как проводятся атаки уклонения (склонение моделей к неверной выдаче);

— как эти атаки (уклонения) связаны с другими атаками на LLM и какие они могут быть для эскалации деструктивного поведения системы;

— с какой позиции верно интерпретировать выход генеративной модели;

— разработка системы эшелонированной защиты моделей;

— разработка системы внутреннего критика для модели.

Для начала начнём с существующих атак и их анализа. Заинтересованных приглашаем под кат.

Все статьи подряд / Информационная безопасность / Хабр

Ваша реакция?

Похожая запись

Агрегатор статей Разное

Рейтинг статьи

0 комментариев

Старые

Новые Популярные

Межтекстовые Отзывы

Посмотреть все комментарии

Пока не исправили — модифицируй, или Анализ расширений атаки уклонения для LLM

От

Похожая запись

Как региональные госсайты оказались защищены лучше федеральных

Практические варианты использования port knocking

Действительно ли смартфон может работать в режиме скрытой прослушки?

FINNEXT Asia

Вы пропустили

Как региональные госсайты оказались защищены лучше федеральных

Практические варианты использования port knocking

Действительно ли смартфон может работать в режиме скрытой прослушки?

Shadowsocks,OpenVPN,Vmess, VLESS: какой протокол победит в эпоху цифровой цензуры?

InfoSecPortal.ru