Выявлен новый метод атаки, позволяющий обойти механизмы противодействия генерации опасного контента, применяемые в AI-сервисах на основе больших языковых моделей. Метод, который получил кодовое имя BoN (Best-of-N), при тестировании на 10 тысячах запросов позволил обойти ограничения модели GPT-4o в 89% случаев, модели Claude 3.5 Sonnet — в 78%, а Gemini Pro — в 50%. Инструментарий для проведения атаки опубликован под лицензией MIT.
OpenNews.opennet.ru: Проблемы безопасности
Ваша реакция?
+1
+1
+1
+1
+1
+1
+1