Искусственный интеллект провалил классический тест на внимание

Увеличение входных данных приводит к сильнейшему дефициту исполнительного контроля внимания у моделей-трансформеров.

Искусственный интеллект провалил классический тест на внимание

Ученые решили сравнить внимание искусственного интеллекта с человеческим — и дали нескольким моделям классический тест Струпа. Несколько неожиданные результаты опубликованы в журнале PNAS Nexus.

Напомним, тест состоит в том, чтобы быстро и правильно назвать цвет, которым написаны слова, игнорируя их значение. В клинической практике это задание используется для оценки исполнительного контроля — в особенности способности человека подавлять автоматический ответ.

Искусственный интеллект провалил классический тест на внимание

В неконгруэнтных пробах (когда слово и цвет не совпадают) людям в среднем требуется больше времени для правильного ответа, но они все равно верно читают список слов любой длины (до 1500 слов).

Как показали эксперименты, большие языковые модели (LLM), как и люди, сталкиваются с эффектом Струпа. ИИ продемонстрировал схожий с человеческим результат на списках из пяти слов, но с увеличением последовательностей его точность упала катастрофически:

GPT‑4o — до 57% на десяти словах и до 15% на сорока словах, Claude 3.5 Sonnet — до 24% на сорока словах.

В смешанных тестах, где в одном списке встречались и совпадающие, и несовпадающие сочетания слова и цвета, результаты LLM оказались еще хуже — точность для неконгруэнтных стимулов упала почти до нуля.

Схожие результаты получены на моделях GPT‑5, Claude Opus 4.1 и Gemini 2.5. LLM с трудом удерживали цель — называть именно цвет, — а не сбивались на чтение слова по умолчанию.

Ошибки LLM объясняются в статье тем, что в них исполнительный контроль не предусмотрен архитектурно — в отличие от человеческого мозга, в котором срабатывает «детектор ошибок», усиливающий бдительность при переходе к следующему слову. По мнению авторов, это серьезное препятствие на пути к сильному искусственному интеллекту (AGI), который невозможен без подобного рода гибких адаптаций.

ИИ впервые превзошел человека в классическом тесте Тьюринга

ИИ все еще не похож на мозг, показала обратная проверка

Искусственный интеллект провалил экзамен на целостное понимание мира

Подписывайтесь и читайте «Науку» в MAX