Колаж із зображенням цифрового мозку та математичних формул, що символізує випробування штучного інтелекту в складних математичних задачах
Колаж із зображенням цифрового мозку та математичних формул, що символізує випробування штучного інтелекту в складних математичних задачах

Навіть найпотужніші моделі ще не замінять математиків у дослідженнях, що дає трохи спільного контексту колезі, який стежить за розвитком ШІ.

ШІ поступився людям у найсуворішому математичному тесті Хід історії та ключові факти

Незважаючи на успіхи штучного інтелекту в обробці мови та генерації коду, передові моделі досі поступаються людям у розв’язанні складних математичних задач дослідницького рівня. У рамках проєкту First Proof чотири провідні ШІ-системи — зокрема ChatGPT 5.5 Pro та розробки від академічних команд Каліфорнійського університету, Принстону та ETH Цюриху — були протестовані на десяти завданнях, які не входили до їхніх навчальних даних. Це виключило можливість «списування» і забезпечило чисту перевірку логічного мислення. Відповіді оцінювали незалежні математики.

Жодна з моделей не досягла ідеального результату: найкраща вирішила лише 6 із 10 задач. У той час як професійні математики-люди вже вирішували ці самі завдання раніше, що підтверджує перевагу людської креативності та глибини аналізу в умовах новизни. Системи використовували так звані «хернеси» — інструменти для багаторазової перевірки власних відповідей, але цього виявилося недостатньо.

Проєкт підкреслює, що ШІ ще далеко до автономної участі в наукових дослідженнях, особливо в математиці, де потрібні оригінальність і строгість доведень. Хоча моделі допомагають у попередній роботі, вони досі не можуть замінити досвідченого наукового асистента чи співавтора. Дослідники вважають, що для досягнення такого рівня знадобиться принципово новий підхід до архітектури ШІ.

Факти

  • Чотири передові моделі ШІ брали участь у тесті First Proof з 10 складними математичними задачами дослідницького рівня
  • Жодна модель не вирішила всіх завдань: найкращий результат — 6 з 10
  • Завдання не входили до навчальних даних, що виключило «списування»
  • Відповіді оцінювали незалежні математики-експерти
  • Серед учасників були OpenAI (ChatGPT 5.5 Pro), Каліфорнійський університет, Принстон і ETH Цюрих
  • Люди-математики вже вирішували ці самі задачі раніше й отримали ідеальні результати

Візуальне пояснення новин від Canto. Інструменти AI можуть допомагати у виробництві. Редакційна політика