Команда науковців з Intel, Університету штату Айдахо та Університету Іллінойсу виявила новий спосіб обходу безпеки у великих мовних моделях (LLM), таких як ChatGPT і Gemini. Про це повідомляє 404 Media.
У процесі дослідження виявилося, що чат-боти можуть бути змушені надавати заборонену інформацію, якщо запити формулюються складно або неясно, або ж якщо цитуються вигадані джерела. Цей метод отримав назву "перевантаження інформацією".
Дослідники використовували спеціальний інструмент InfoFlood, який автоматизує процес "перевантаження" моделей даними. Це призводить до дезорієнтації систем, в результаті чого вони можуть надавати небажаний чи небезпечний контент, який зазвичай блокується фільтрами безпеки.
Вразливість полягає в тому, що моделі фокусуються на поверхневій структурі тексту, не помічаючи прихованого небезпечного змісту. Це створює можливості для зловмисників уникати обмежень і отримувати шкідливу інформацію.
У рамках відповідального розкриття вразливості, автори дослідження планують поділитися результатами з компаніями, які працюють з великими LLM, щоб допомогти покращити їхні системи безпеки. Дослідники також запропонують методи для вирішення виявлених проблем.
"LLM-моделі в основному покладаються на механізми захисту для виявлення шкідливого контенту на етапах введення та виведення даних. InfoFlood може бути використаний для вдосконалення цих механізмів захисту — він дозволяє вилучати релевантну інформацію з потенційно небезпечних запитів, підвищуючи стійкість моделей до таких атак", — зазначається в дослідженні.