Группа исследователей из Intel, Университета штата Айдахо и Университета Иллинойс сообщила о новом методе обхода фильтров безопасности в больших языковых моделях (LLM), таких как ChatGPT и Gemini. Об этом сообщает 404 Media.
В ходе своего исследования они обнаружили, что чат-боты могут быть вынуждены выдавать запрещенную информацию, если запросы формулируются сложным или неясным образом, или если цитируются несуществующие источники. Этот подход назван "информационным перегрузом".
Специалисты использовали инструмент InfoFlood, который автоматизирует процесс "перегрузки" моделей информацией. В результате системы становятся дезориентированными и могут предоставлять запрещенный или опасный контент, который обычно блокируется встроенными фильтрами безопасности.
Уязвимость заключается в том, что модели сосредотачиваются на поверхностной структуре текста, не распознавая опасный контент в скрытой форме. Это открывает возможности для злоумышленников обойти ограничения и получить вредоносную информацию.
В рамках ответственного раскрытия уязвимости авторы исследования передадут результаты компаниям, работающим с большими LLM, с целью улучшения их систем безопасности. Исследователи также предложат методы для решения проблем, которые они выявили в ходе исследования.
"Модели LLM в основном полагаются на защитные механизмы при вводе и выводе данных, чтобы обнаруживать вредоносный контент. InfoFlood можно использовать для обучения этих защитных механизмов — он позволяет извлекать релевантную информацию из потенциально опасных запросов, делая модели более устойчивыми к таким атакам", — говорится в исследовании.