Выявлен новый метод атаки, позволяющий обойти механизмы противодействия генерации опасного контента, применяемые в AI-сервисах на основе больших языковых моделей. Метод, который получил кодовое имя BoN (Best-of-N), при тестировании на 10 тысячах запросов позволил обойти ограничения модели GPT-4o в 89% случаев, модели Claude 3.5 Sonnet — в 78%, а Gemini Pro — в 50%. Инструментарий для проведения атаки опубликован под лицензией MIT.

​  

​OpenNews.opennet.ru: Проблемы безопасности

Read More

Ваша реакция?
+1
0
+1
0
+1
0
+1
0
+1
0
+1
0
+1
0
0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x