OpenAI представила свою найновішу флагманську мовну модель GPT-5, яка вже стала доступною як для користувачів ChatGPT, так і для розробників через API.
У компанії стверджують, що нова модель демонструє кращу точність, вищу швидкість відповідей і значно менше помиляється. Незважаючи на те, що аудиторія ChatGPT вже наближається до 700 мільйонів щотижневих користувачів, OpenAI не мала найпотужнішої моделі на ринку з моменту випуску GPT-4. Тепер у компанії сподіваються, що GPT-5 дозволить повернути лідерство, особливо у ключових галузях.
GPT-5 вже інтегровано у ChatGPT. Користувачам із безкоштовними акаунтами модель доступна з певними обмеженнями — після перевищення ліміту запитів відбуватиметься автоматичне перемикання на полегшену версію GPT-5 mini.
Вони відрізняються потужністю та вартістю використання. Крім того, ChatGPT отримав нові «особистості» для моделей — Cynic (Цинік), Robot (Робот), Listener (Слухач) та Nerd (Ботанік), а також можливість налаштовувати кольорову тему інтерфейсу для кожного окремого чату.
В OpenAI зазначають, що GPT-5 відкриває нову епоху — так зване "програмне забезпечення на вимогу". У тестах модель перевершила конкурентів на низці провідних бенчмарків для програмістів, таких як SWE-Bench, SWE-Lancer та Aider Polyglot.
Під час демонстрації на пресбрифінгу керівник департаменту постнавчання OpenAI Янн Дюбуай продемонстрував, як GPT-5 створює повноцінний сайт для вивчення французької мови за лічені секунди. Модель самостійно написала сотні рядків коду, і все працювало без помилок у реальному часі.
З моменту запуску у 2022 році ChatGPT обробляє понад 1,7 мільйона запитів на хвилину. OpenAI ставить собі амбітну мету — зробити чат-бота частиною життя кожного восьмого мешканця планети.
GPT-5 показала високі результати у різних завданнях:
SWE-Bench Verified (реальні задачі з GitHub): 74,9% успішних рішень із першої спроби — краще, ніж Claude Opus 4.1 (74,5%) і Gemini 2.5 Pro (59,6%).
"Останній іспит людства": у версії GPT-5 Pro модель отримала 42%, що трохи нижче, ніж Grok 4 Heavy від xAI (44,4%).
GPQA Diamond (PhD-рівень): 89,4%, що вище за Claude Opus 4.1 (80,9%) і Grok 4 Heavy (88,9%).
HealthBench Hard Hallucinations (точність відповідей у темі охорони здоров’я): GPT-5 помилялась лише у 1,6% випадків, значно краще за попередні версії GPT-4o (12,9%) та o3 (15,8%).
Tau-bench: у завданнях, що симулюють навігацію вебсайтами, GPT-5 показала змішані результати — 63,5% на сайтах авіакомпаній (дещо гірше за o3) та 81,1% на торговельних платформах (менше, ніж Claude Opus 4.1 із 82,4%).
OpenAI також наголошує, що GPT-5 краще справляється з творчими завданнями, написанням текстів і є «безпечнішою», менше схильною до дезінформації та маніпуляцій. Крім того, модель краще розпізнає зловмисні наміри користувачів.
Раніше повідомлялося про те, що OpenAI оголосила про запровадження нової політики для ChatGPT: відтепер чат-бот не даватиме остаточних порад у складних особистих питаннях, зокрема не рекомендуватиме користувачам розривати стосунки з партнерами.