ШІ поступився людям у найсуворішому математичному тесті

Колаж із зображенням цифрового мозку та математичних формул, що символізує випробування штучного інтелекту в складних математичних задачах

Технології Автор June 17 черв. 2026 р., 09:26

Навіть найпотужніші моделі ще не замінять математиків у дослідженнях, що дає трохи спільного контексту колезі, який стежить за розвитком ШІ.

ШІ поступився людям у найсуворішому математичному тесті Хід історії та ключові факти

Незважаючи на успіхи штучного інтелекту в обробці мови та генерації коду, передові моделі досі поступаються людям у розв’язанні складних математичних задач дослідницького рівня. У рамках проєкту First Proof чотири провідні ШІ-системи — зокрема ChatGPT 5.5 Pro та розробки від академічних команд Каліфорнійського університету, Принстону та ETH Цюриху — були протестовані на десяти завданнях, які не входили до їхніх навчальних даних. Це виключило можливість «списування» і забезпечило чисту перевірку логічного мислення. Відповіді оцінювали незалежні математики.

Жодна з моделей не досягла ідеального результату: найкраща вирішила лише 6 із 10 задач. У той час як професійні математики-люди вже вирішували ці самі завдання раніше, що підтверджує перевагу людської креативності та глибини аналізу в умовах новизни. Системи використовували так звані «хернеси» — інструменти для багаторазової перевірки власних відповідей, але цього виявилося недостатньо.

Проєкт підкреслює, що ШІ ще далеко до автономної участі в наукових дослідженнях, особливо в математиці, де потрібні оригінальність і строгість доведень. Хоча моделі допомагають у попередній роботі, вони досі не можуть замінити досвідченого наукового асистента чи співавтора. Дослідники вважають, що для досягнення такого рівня знадобиться принципово новий підхід до архітектури ШІ.

Факти

Чотири передові моделі ШІ брали участь у тесті First Proof з 10 складними математичними задачами дослідницького рівня
Жодна модель не вирішила всіх завдань: найкращий результат — 6 з 10
Завдання не входили до навчальних даних, що виключило «списування»
Відповіді оцінювали незалежні математики-експерти
Серед учасників були OpenAI (ChatGPT 5.5 Pro), Каліфорнійський університет, Принстон і ETH Цюрих
Люди-математики вже вирішували ці самі задачі раніше й отримали ідеальні результати

Візуальне пояснення новин від Canto. Інструменти AI можуть допомагати у виробництві. Редакційна політика

Факти

Чому ШІ не дає переваги в кодингу

ШІ ще не забрав роботу, але вже витягнув багато грошей

ШІ більше не забуває навчання

Чого ШІ ніколи не зможе зробити

Безос створює ШІ-інженера для ракет