Опубликован BoN, метод обхода фильтров больших языковых моделей

От

Дек 18, 2024

Выявлен новый метод атаки, позволяющий обойти механизмы противодействия генерации опасного контента, применяемые в AI-сервисах на основе больших языковых моделей. Метод, который получил кодовое имя BoN (Best-of-N), при тестировании на 10 тысячах запросов позволил обойти ограничения модели GPT-4o в 89% случаев, модели Claude 3.5 Sonnet – в 78%, а Gemini Pro – в 50%. Инструментарий для проведения атаки опубликован под лицензией MIT.

OpenNews.opennet.ru: Проблемы безопасности

Ваша реакция?

Похожая запись

Агрегатор новостей Разное

Рейтинг статьи

0 комментариев

Старые

Новые Популярные

Межтекстовые Отзывы

Посмотреть все комментарии

Опубликован BoN, метод обхода фильтров больших языковых моделей

От

Похожая запись

Операция Talent: закрыты хак-форумы Cracked и Nulled

Syncjacking использует расширения Chrome для захвата устройств

Атаки шифровальщиков в 2024 году | Блог Касперского

FinCore 2025

Вы пропустили

Операция Talent: закрыты хак-форумы Cracked и Nulled

Syncjacking использует расширения Chrome для захвата устройств

Атаки шифровальщиков в 2024 году | Блог Касперского

Отчего зависит безопасность квантовой сети? Часть 2

InfoSecPortal.ru