Нова загроза для великих мовних моделей: дослідження Intel та університетів

Головна Технології Деталі новин

09 Липня 2025 10:36

Команда науковців з Intel, Університету штату Айдахо та Університету Іллінойсу виявила новий спосіб обходу безпеки у великих мовних моделях (LLM), таких як ChatGPT і Gemini. Про це повідомляє 404 Media.

У процесі дослідження виявилося, що чат-боти можуть бути змушені надавати заборонену інформацію, якщо запити формулюються складно або неясно, або ж якщо цитуються вигадані джерела. Цей метод отримав назву "перевантаження інформацією".

Дослідники використовували спеціальний інструмент InfoFlood, який автоматизує процес "перевантаження" моделей даними. Це призводить до дезорієнтації систем, в результаті чого вони можуть надавати небажаний чи небезпечний контент, який зазвичай блокується фільтрами безпеки.

Вразливість полягає в тому, що моделі фокусуються на поверхневій структурі тексту, не помічаючи прихованого небезпечного змісту. Це створює можливості для зловмисників уникати обмежень і отримувати шкідливу інформацію.

У рамках відповідального розкриття вразливості, автори дослідження планують поділитися результатами з компаніями, які працюють з великими LLM, щоб допомогти покращити їхні системи безпеки. Дослідники також запропонують методи для вирішення виявлених проблем.

"LLM-моделі в основному покладаються на механізми захисту для виявлення шкідливого контенту на етапах введення та виведення даних. InfoFlood може бути використаний для вдосконалення цих механізмів захисту — він дозволяє вилучати релевантну інформацію з потенційно небезпечних запитів, підвищуючи стійкість моделей до таких атак", — зазначається в дослідженні.

Перейти на попердню

Впровадження технологій на Вімблдоні: нові виклики

Перейти на наступну

~ K D P ~

ви можете шукати за категорією
або за назвою новини