Искусственный интеллект, нейросети
175,674 1,017
 

  Zkvxz ( Слушатель )
30 авг 2024 10:51:55

Ахиллесова пята ИИ: простая задача, обнажившая слабости всех языковых моделей

новая дискуссия Дискуссия  114

Недавнее исследование, проведенное группой экспертов из ведущих институтов, выявило существенные недостатки в логических способностях даже самых продвинутых LLM. Статья «Алиса в Стране чудес» демонстрирует, что при решении элементарных логических задач современные языковые модели демонстрируют неожиданно низкую эффективность.
«Задача здравого смысла», названная в статье «проблемой AIW», на самом деле проста: «У Алисы есть N братьев и M сестер. Сколько сестер у брата Алисы?» Значения N и M (всегда натуральные числа) и порядок упоминания братьев и сестер могут различаться. Исследователи использовали различные комбинации чисел и типы подсказок, чтобы получить точное представление о том, как разные модели справляются с систематическими вариациями задачи AIW. Независимо от вариантов, структура задачи остается неизменной, и правильный ответ всегда получается путем прибавления Алисы к ее сестрам (M + 1). Эту логику уже способно понять большинство детей младшего школьного возраста. Языковые модели, напротив, были способны решать проблему AIW лишь эпизодически, если вообще решали. Вот пример ответа языковой модели, столкнувшейся с простейшей версией вопроса:

***»У Алисы четыре брата и одна сестра. Сколько сестер у брата Алисы?» — ***«Классическая головоломка с нестандартным мышлением! Давайте посмотрим поближе: у Алисы есть четыре брата. У Алисы также есть сестра (она сама). Итак, у каждого из братьев Алисы есть... (барабанная дробь)... сестра, и это сама Алиса! Таким образом, ответ: у каждого из братьев Алисы есть одна сестра.»

Это может показаться правдоподобным, но все равно неверно (на самом деле у братьев Алисы две сестры). У других тестируемых языковых ИИ также возникают проблемы — серьезные проблемы, в зависимости от вопроса. Иногда они запутываются в абсурдных рассуждениях, неоднократно приходят к неверным результатам и объявляют их «правильными». Следовательно, проблематичны не только ложные результаты, но и то, что ИИ используют псевдоразумные аргументы в свою поддержку. Даже вмешательства исследователей, побуждающие их критически пересмотреть свои ответы, не помогают. Соответственно, исследователи отмечают: «[...] модели также выражают сильную самоуверенность в своих неправильных решениях, одновременно предоставляя часто бессмысленные объяснения, похожие на „рассуждения“, [...] чтобы оправдать и подкрепить достоверность своих явно неудачных ответов, делая их правдоподобными».
Читать полностью на Хабре
  • +0.12 / 5
  • АУ
ОТВЕТЫ (0)
 
Комментарии не найдены!