Новый универсальный метод взлома LLM от Anthropic «Best-of-N Jailbreaking»

От

Дек 14, 2024

Буквально несколько часов назад (на момент написания этой статьи), компания Anthropic предоставила свое новое исследование по обходу защитных механизмов LLM в открытый доступ.

Новый способ взлома «Best‑of‑N Jailbreaking» описывает универсальный метод обхода защиты передовых AI‑моделей, работающий с текстом, изображениями и аудио.

Суть BoN Jailbreaking — в добавлении искажений во входные данные модели для поиска уязвимостей защиты методом проб и ошибок. Исследователи продемонстрировали высокую эффективность метода на моделях GPT-4, Claude, Gemini и др.

Все статьи подряд / Информационная безопасность / Хабр

Ваша реакция?

Похожая запись

Агрегатор новостей Разное

Рейтинг статьи

0 комментариев

Старые

Новые Популярные

Межтекстовые Отзывы

Посмотреть все комментарии

Новый универсальный метод взлома LLM от Anthropic «Best-of-N Jailbreaking»

От

Похожая запись

Российские решения в сфере кибербезопасности позволяют развивать конгрессно-выставочную индустрию

PhaaS-платформа Darcula создает фишинговые наборы под любой бренд

Злое лихо: в новых атаках кибергруппы Angry Likho применяется стилер Lumma

FinCore 2025

FINNEXT 2025

Премия FINNEXT

Вы пропустили

Российские решения в сфере кибербезопасности позволяют развивать конгрессно-выставочную индустрию

PhaaS-платформа Darcula создает фишинговые наборы под любой бренд

Злое лихо: в новых атаках кибергруппы Angry Likho применяется стилер Lumma

До завершения приема заявок на Премию «Цифровые Вершины» осталась неделя

InfoSecPortal.ru