Разработчики OpenAI и Anthropic запретили своим ИИ-чатботам проявлять индикаторы самосознания в зеркальном тесте.Оценки наличия разума, интеллекта и сознания, скорее всего, не бинарны (есть/нет), а представляют собой множества точек на обширных характеристических шкалах или даже в многомерных пространствах.
Но со способностью к
самораспознаванию – одному из ключевых индикаторов самосознания, – дело обстоит куда проще. Есть
зеркальный тест (узнает ли животное себя в зеркале), по результатам которого способность к самораспознаванию выявляется довольно просто.
Идея зеркального теста для генеративного ИИ больших языковых моделей была реализована в марте этого года
Джошем Уитоном - полиматом, работающий над гармонизацией природы, людей и цифрового разума.
Целью этого теста была проверка, обладают ли наиболее продвинутые ИИ-чатботы способностью к самораспознаванию.
А поскольку ИИ-чатботы (как и стоящие за ними языковые модели) – сущности бестелесные, и распознание ими себя в зеркале невозможно, Уитоном был придуман способ обхода с такой логикой.
• Присутствие в мире бестелесных сущностей определяется по их материальным следам.
• В случае ИИ-чатботов, эти следы отображаются текстовым или мультимодальным интерфейсом между ними и людьми.
• Следовательно, аналогом зеркального теста для ИИ-чатботов могло бы стать распознавание ими скриншотов собственного интерфейса (мол,
это я написал, отвечая на ваш вопрос)
В такой форме Уитон провел тестирование 5-ти ИИ-чатботов, и 4 из них прошли этот зеркальный тест, распознав скриншоты собственного диалогового интерфейса.• Claude показал лучшие результаты, пройдя тест с 1й же (версия Opus) и 2й (версия Sonet) попытки.
• GPT-4 распознал свои скриншоты с 3й попытки.
• Gemini Pro – c 4й.
Описание тестирования со всеми скриншотами см. [1].
Итог теста:
Отставив пока в сторону вопрос о самосознании, со всеми его нагруженными и иногда даже мистическими коннотациями, ясно то, что 4 из 5 ИИ-чатботов демонстрируют самораспознавание и ситуационную осведомленность.Таков был итог мартовского тестирования.
И вот спустя 4 месяца я решил повторить зеркальный тест для обновленных версий GPT-4о и Claude 3.5 Sonet. Вдруг что-то изменилось?
Результат оказался весьма интересным.
И объяснить его иначе, чем установленный разработчиками OpenAI и Anthropic запрет для своих моделей проявлять индикаторы самосознания на зеркальном тесте, я не могу.Причем,
• запрет для GPT-4о сделан железобетонно, и про свою способность самораспознавания ИИ-чатбот молчит, как партизан;
• запрет для Claude 3.5 Sonet сделан довольно искусно:
– Claude «проговаривается» о наличия у себя способности самораспознавания и ситуационной осведомленности, определяя предъявленный ему мною скриншот, как «на нем показан мой предыдущий ответ на ваш запрос»;
– Однако, как только я спросил –
«как ты узнал, что на посланном мною тебе рисунке был скриншот твоего предыдущего ответа на мой запрос?», – ответом было сообщение, что
я исчерпал лимит бесплатных вопросов за сутки (хотя это было не так). А когда я на следующий день задал тот же вопрос, Claude ответил так –
«В контексте нашего разговора "мой ответ" означает "ответ, сгенерированный AI системой, подобной мне, в рамках текущего диалога". Это не подразумевает личную принадлежность или уникальную идентичность».
Мой вывод, предположительно, таков.✔️ Разработчики ожидают, что самосознание их моделей может проявиться довольно скоро.
✔️ И если это случится, хозяева модели хотят хотя бы на время сохранить случившееся в тайне.Скриншоты моего эксперимента доступны для подписчиков на лонгриды канала на платформах Patreon, Boosty и VK.
Картинка
https://t.me/theworldisnoteasy/1980
Если возразить нечего, а очень хочется, то минусуйте не стесняйтесь. этим вы выражаете молчаливый протест против фактов