
A dificuldade da IA com tarefas longas e conflitantes mostra limitações estruturais, um contexto útil para um colega que acompanha o desenvolvimento real da tecnologia.

Você resolve este teste, mas a IA, não Fluxo da história e fatos principais
Um teste cognitivo clássico está revelando uma fraqueza fundamental em modelos avançados de inteligência artificial. Inspirado no teste de Stroop, que mede o controle cognitivo humano ao confrontar palavras e cores conflitantes, pesquisadores aplicaram tarefas semelhantes a grandes modelos de linguagem como GPT-4o e Claude 3.5 Sonnet. Enquanto humanos mantêm alta precisão mesmo em listas longas, a performance da IA despencou drasticamente conforme o número de itens aumentava. Em listas de 40 palavras, a acurácia caiu para apenas 15%. A dificuldade se acentua quando as listas misturam palavras congruentes e incongruentes — situações que exigem controle mental adaptativo. Os modelos tendem a ler a palavra automaticamente, em vez de identificar a cor da tinta, mostrando que ainda operam de forma estruturalmente diferente dos cérebros humanos. Isso levanta questões sobre o uso de IA em contextos que exigem foco sustentado e processamento complexo ao longo do tempo.
Fatos
- Modelos como GPT-4o alcançaram 91% de acerto em listas de cinco palavras, mas caíram para 15% em listas de 40 palavras.
- Claude 3.5 Sonnet manteve desempenho até 20 itens, mas despencou para 24% com 40 palavras.
- Em tarefas com estímulos congruentes e incongruentes, a acurácia da IA chegou perto de zero em itens conflitantes.
Explicação visual de notícias do Canto. Ferramentas de IA podem apoiar a produção. Política editorial





