
Навіть найпотужніші моделі ще не замінять математиків у дослідженнях, що дає трохи спільного контексту колезі, який стежить за розвитком ШІ.

ШІ поступився людям у найсуворішому математичному тесті Хід історії та ключові факти
Незважаючи на успіхи штучного інтелекту в обробці мови та генерації коду, передові моделі досі поступаються людям у розв’язанні складних математичних задач дослідницького рівня. У рамках проєкту First Proof чотири провідні ШІ-системи — зокрема ChatGPT 5.5 Pro та розробки від академічних команд Каліфорнійського університету, Принстону та ETH Цюриху — були протестовані на десяти завданнях, які не входили до їхніх навчальних даних. Це виключило можливість «списування» і забезпечило чисту перевірку логічного мислення. Відповіді оцінювали незалежні математики.
Жодна з моделей не досягла ідеального результату: найкраща вирішила лише 6 із 10 задач. У той час як професійні математики-люди вже вирішували ці самі завдання раніше, що підтверджує перевагу людської креативності та глибини аналізу в умовах новизни. Системи використовували так звані «хернеси» — інструменти для багаторазової перевірки власних відповідей, але цього виявилося недостатньо.
Проєкт підкреслює, що ШІ ще далеко до автономної участі в наукових дослідженнях, особливо в математиці, де потрібні оригінальність і строгість доведень. Хоча моделі допомагають у попередній роботі, вони досі не можуть замінити досвідченого наукового асистента чи співавтора. Дослідники вважають, що для досягнення такого рівня знадобиться принципово новий підхід до архітектури ШІ.
Факти
- Чотири передові моделі ШІ брали участь у тесті First Proof з 10 складними математичними задачами дослідницького рівня
- Жодна модель не вирішила всіх завдань: найкращий результат — 6 з 10
- Завдання не входили до навчальних даних, що виключило «списування»
- Відповіді оцінювали незалежні математики-експерти
- Серед учасників були OpenAI (ChatGPT 5.5 Pro), Каліфорнійський університет, Принстон і ETH Цюрих
- Люди-математики вже вирішували ці самі задачі раніше й отримали ідеальні результати
Візуальне пояснення новин від Canto. Інструменти AI можуть допомагати у виробництві. Редакційна політика





