OpenAI представила свои последние достижения в области искусственного интеллекта, выпустив две новые открытые модели — gpt-oss-120b и gpt-oss-20b. Это первые модели с открытыми весами от компании с момента выпуска GPT-2 более пяти лет назад. Обе модели доступны бесплатно на платформе Hugging Face, что делает их идеальными для разработчиков и исследователей, стремящихся создать инновационные решения.
Модели различаются мощностью и требованиями к оборудованию:
- gpt-oss-120b — более мощная модель, которая может работать на одной графической карте NVIDIA;
- gpt-oss-20b — облегченная версия, которая может запускаться на стандартном ноутбуке с 16 ГБ оперативной памяти.
Цель OpenAI — создать открытую платформу ИИ в США, которая могла бы стать альтернативой растущему влиянию китайских лабораторий, таких как DeepSeek, Qwen (Alibaba) и Moonshot AI, активно развивающих свои собственные мощные модели.
В тестах на платформе Codeforces модель 120b набрала 2622 балла, а 20b — 2516, превзойдя DeepSeek R1, но уступив закрытым моделям o3 и o4-mini. На сложном тесте Humanity’s Last Exam (HLE) 120b достигла 19%, а 20b — 17,3%, что является лучшим показателем среди других открытых моделей, хотя и ниже, чем у o3.
Новые модели обучались по методологии, схожей с закрытыми моделями OpenAI, используя методику mixture-of-experts (MoE), которая активирует лишь часть параметров для каждого токена, что повышает эффективность. Дополнительное обучение с использованием RL позволило моделям строить логические цепочки и использовать инструменты, такие как веб-поиск или выполнение кода на Python.
Эти модели работают исключительно с текстом и не генерируют изображения или аудио. Они распространяются под лицензией Apache 2.0, что позволяет коммерческое использование без необходимости получения разрешения от OpenAI, хотя данные для обучения остаются закрытыми из-за рисков, связанных с авторским правом.
Запуск gpt-oss нацелен не только на укрепление позиций OpenAI среди разработчиков, но и на ответ на политическое давление в США, стремящемся повысить роль открытых американских моделей в глобальной конкуренции.