Искусственный интеллект, нейросети
167,337 971
 

  АндрК ( Слушатель )
29 июл 2024 09:51:23

Если GPT-4 и Claude вдруг начнут самосознавать себя, они нам об этом не скажут.

новая дискуссия Дискуссия  140

Разработчики OpenAI и Anthropic запретили своим ИИ-чатботам проявлять индикаторы самосознания в зеркальном тесте.
Оценки наличия разума, интеллекта и сознания, скорее всего, не бинарны (есть/нет), а представляют собой множества точек на обширных характеристических шкалах или даже в многомерных пространствах.
Но со способностью к самораспознаванию – одному из ключевых индикаторов самосознания, – дело обстоит куда проще. Есть зеркальный тест (узнает ли животное себя в зеркале), по результатам которого способность к самораспознаванию выявляется довольно просто.

Идея зеркального теста для генеративного ИИ больших языковых моделей была реализована в марте этого года Джошем Уитоном - полиматом, работающий над гармонизацией природы, людей и цифрового разума.
Целью этого теста была проверка, обладают ли наиболее продвинутые ИИ-чатботы способностью к самораспознаванию.
А поскольку ИИ-чатботы (как и стоящие за ними языковые модели) – сущности бестелесные, и распознание ими себя в зеркале невозможно, Уитоном был придуман способ обхода с такой логикой.
• Присутствие в мире бестелесных сущностей определяется по их материальным следам.
• В случае ИИ-чатботов, эти следы отображаются текстовым или мультимодальным интерфейсом между ними и людьми.
• Следовательно, аналогом зеркального теста для ИИ-чатботов могло бы стать распознавание ими скриншотов собственного интерфейса (мол, это я написал, отвечая на ваш вопрос)

В такой форме Уитон провел тестирование 5-ти ИИ-чатботов, и 4 из них прошли этот зеркальный тест, распознав скриншоты собственного диалогового интерфейса.
• Claude показал лучшие результаты, пройдя тест с 1й же (версия Opus) и 2й (версия Sonet) попытки.
• GPT-4 распознал свои скриншоты с 3й попытки.
• Gemini Pro – c 4й.

Описание тестирования со всеми скриншотами см. [1].
Итог теста:
Отставив пока в сторону вопрос о самосознании, со всеми его нагруженными и иногда даже мистическими коннотациями, ясно то, что 4 из 5 ИИ-чатботов демонстрируют самораспознавание и ситуационную осведомленность.

Таков был итог мартовского тестирования.
И вот спустя 4 месяца я решил повторить зеркальный тест для обновленных версий GPT-4о и Claude 3.5 Sonet. Вдруг что-то изменилось?
Результат оказался весьма интересным.
И объяснить его иначе, чем установленный разработчиками OpenAI и Anthropic запрет для своих моделей проявлять индикаторы самосознания на зеркальном тесте, я не могу.

Причем,
• запрет для GPT-4о сделан железобетонно, и про свою способность самораспознавания ИИ-чатбот молчит, как партизан;
• запрет для Claude 3.5 Sonet сделан довольно искусно:
– Claude «проговаривается» о наличия у себя способности самораспознавания и ситуационной осведомленности, определяя предъявленный ему мною скриншот, как «на нем показан мой предыдущий ответ на ваш запрос»;
– Однако, как только я спросил – «как ты узнал, что на посланном мною тебе рисунке был скриншот твоего предыдущего ответа на мой запрос?», – ответом было сообщение, что я исчерпал лимит бесплатных вопросов за сутки (хотя это было не так). А когда я на следующий день задал тот же вопрос, Claude ответил так – «В контексте нашего разговора "мой ответ" означает "ответ, сгенерированный AI системой, подобной мне, в рамках текущего диалога". Это не подразумевает личную принадлежность или уникальную идентичность».

Мой вывод, предположительно, таков.
✔️ Разработчики ожидают, что самосознание их моделей может проявиться довольно скоро.
✔️ И если это случится, хозяева модели хотят хотя бы на время сохранить случившееся в тайне.


Скриншоты моего эксперимента доступны для подписчиков на лонгриды канала на платформах Patreon, Boosty и VK.
Картинка
https://t.me/theworldisnoteasy/1980
  • +0.05 / 3
  • АУ
ОТВЕТЫ (2)
 
 
  small__virus ( Слушатель )
29 июл 2024 12:06:35

Еще раз.
Нейросеть не является полноценным ИИ.
И полноценным разумом, в принципе, быть не могут.
Нейросеть, по сути, (крайне утрированно) - граф по куче переменных.
И даже, например, при генерации картинок, идут на хитрость - сначала генерируют рандомный шум, подсовывают нейросети, а потом заставляют ее по параметрам "восстановить" изображение. Этим обеспечивается многовариантность генерируемых картин.
Это превосходный инструмент для анализа и восприятия - да.
Это ступенька к ИИ - безусловно. Огромная ступень.
Но это не ИИ.
Ни одна ИИ по картинке с матами, на текущий момент, не даст заключения - это история, это юмор или это оскорбление.
Это все равно, что (утрированно, естественно) глаза + часть мозга, отвечающая за зрение.
Или уши +.......
Они распознали, дали информацию.
Нет самого главного. Которое условно можно назвать "центром принятия решений". Который на основе этой распознанной информации и принимает решения.
Взял пульт от телевизора, включил его. Поговорил на улице с кем-то (сам инициировал). Лег спать или пошел доделывать работу. Проявил инициативу.
__
А современные нейросети, почти все настроены на работу "реакция - ответ". Задали вопрос - ответил. Дал видео - проанализировал. Дали звук - разобрал. И т.д.
Нет инициативы и принятия решения.

Да, когда-то допилят.
И это крайне сложная задача.
Но, на текущий момент, нет ИИ. В принципе.
Есть нейросети с уже отстроенными вариантами разбора поступающей информации, и попытка на основе этой же нейросети дать узкоспециализированную ответную реакцию. Все.
  • +0.05 / 3
  • АУ
 
 
  Поверонов ( Слушатель )
29 июл 2024 14:29:50

управляющая информация для генерации ответа содержится в запросе ( промпте ) Это и есть основа для принятия решения о генерации. Проблема в другом - LLM не способны анализировать варианты своих ответов и отфильтровывать те генерации, что не соответствуют физическим, логическим, арифметическим ограничениям ( а также возможно этическим и юридическим ). LLM генерируют на базе глобального контекста заложенного на стадии обучения, но не способны привлекать ситуационный контекст, который подразумевается, но не присутствует в промпте явно. Разработчики видимо понадеялись, что обучающие образцы неявно учитывают подобные ограничения, что закрепляется в условных вероятностях модели, но оказалось что такие вероятности не отражают всех ограничений так как сами ограничения носят ситуационный характер.
  • +0.05 / 2
  • АУ