Сучасні великі мовні моделі штучного інтелекту, зокрема o3 від OpenAI, демонструють більше помилок, ніж їх попередники. Це підтверджується численними дослідженнями, про які пише The New York Times.
Такі ж труднощі спостерігаються у моделях інших компаній, наприклад, Google та китайського стартапу DeepSeek. Незважаючи на зростання їх математичних можливостей, кількість помилок у запитах лише зростає.
Однією з найпоширеніших проблем штучного інтелекту є так звані "галюцинації", коли моделі вигадують факти та інформацію без жодних джерел. Амр Авадалла, генеральний директор Vectara, відзначає, що ці галюцинації залишаться, незважаючи на зусилля розробників.
Наприклад, бот технічної підтримки інструмента Cursor неправильно стверджував, що його можна використовувати лише на одному комп'ютері, що призвело до численних скарг та видалення акаунтів. Пізніше з'ясувалося, що це була вигадка бота.
У ході тестування рівень галюцинацій у різних моделях досяг 79%. Внутрішнє тестування OpenAI показало, що модель o3 помиляється у 33% випадків, що вдвічі більше, ніж o1. Модель 04-mini продемонструвала ще гірші результати, з помилками у 48% випадків.
Під час відповідей на загальні питання, o3 та o4-mini показали ще вищі рівні галюцинацій – 51% і 79% відповідно, тоді як стара модель o1 помилялася в 44% випадків. OpenAI визнає необхідність проведення додаткових досліджень для розуміння причин цих помилок.
Незалежні тести підтверджують, що галюцинації також присутні у моделях Google та DeepSeek. Дослідження Vectara виявило, що ці моделі вигадують факти щонайменше у 3% випадків, а іноді цей показник досягає 27%. Попри зусилля компаній, за рік рівень галюцинацій знизився лише на 1-2%.