Современные большие языковые модели искусственного интеллекта, в частности o3 от OpenAI, демонстрируют больше ошибок по сравнению с предшественниками. Это подтверждается несколькими исследованиями, о которых сообщает The New York Times.
Похожие трудности наблюдаются и в моделях других компаний, таких как Google и китайский стартап DeepSeek. Несмотря на рост их математических возможностей, фактическое количество ошибок в запросах только увеличивается.
Одной из самых распространенных проблем искусственного интеллекта являются так называемые "галлюцинации", когда модели выдумывают факты и информацию без каких-либо источников. Амр Авадалла, генеральный директор Vectara, отмечает, что эти галлюцинации останутся, несмотря на усилия разработчиков.
Например, бот технической поддержки инструмента Cursor неверно утверждал, что его можно использовать только на одном компьютере, что привело к множественным жалобам и удалению аккаунтов. Позднее выяснилось, что компания не вносила никаких изменений; все это было выдумкой бота.
В ходе тестирования уровень галлюцинаций в различных моделях достиг 79%. Внутренние испытания OpenAI показали, что модель o3 допускает галлюцинации в 33% случаев, что вдвое больше, чем у o1. Модель 04-mini продемонстрировала еще более плохие результаты, ошибаясь в 48% случаев.
При ответах на общие вопросы уровень галлюцинаций у моделей o3 и o4-mini был еще выше — 51% и 79% соответственно. Для сравнения, более старая модель o1 выдумывала факты в 44% случаев. OpenAI признает необходимость проведения дополнительных исследований для понимания причин таких ошибок.
Независимые тесты, проведенные различными компаниями и исследователями, свидетельствуют о том, что галлюцинации также присутствуют в моделях Google и DeepSeek. Исследование Vectara показало, что такие модели выдумывают факты как минимум в 3% случаев, а иногда этот показатель достигает 27%. Несмотря на усилия компаний по устранению этих ошибок, за последний год уровень галлюцинаций снизился всего на 1-2%.