Исследователи из компании Truffle Security опубликовали результаты анализа публичного набора данных Common Crawl, используемого при обучении больших языковых моделей (например, DeepSeek). В исследовании использован декабрьский архив Common Crawl, включающий 400 терабайтов данных с содержимым 2.67 миллиардов web-страниц.
OpenNews.opennet.ru: Проблемы безопасности
Ваша реакция?
+1
+1
+1
+1
+1
+1
+1