Антиплагиат выявляет текст, созданный ChatGPT (
новость от мая 2023 года).
Для начала, как "Антиплагиат" распознает сгенерированный текст.В основном они работают по одному и тому же принципу: смотрят на "предсказуемость" каждого следующего слова в тексте. Например, если дополнять приложение "Каждый день он ходит на…", то очевидные ответы - "работу" или "учебу". Нейросети, особенно устаревшие, составляют именно такие предсказуемые цепочки, чтобы не потерять связность. Людям тоже свойственна шаблонность, но не на протяжении всего текста. Такую последовательность и вычисляют сервисы, но чем сложнее нейросеть - тем сложнее и разнообразнее генерация текста.
Детектор обучен и протестирован на большом наборе данных, поэтому риск ложного срабатывания минимален, уверяют в "Антиплагиате".
В Тинькофф журнале
писали о практическом опыте проверки:
В итоге: четыре текста из шести не прошли проверку - "Антиплагиат" определил работу нейросети. У них появилась отметка "Подозрительные". Причем система распознала и старую модель GPT-3 - она справилась хуже всех, - и актуальные GPT-3.5 и GPT-4. Полностью прошли проверку "Антиплагиата" только те тексты, которые изначально сгенерировали на английском языке, а потом пропустили через переводчик.
Части работ, которые не прошли изначально Антиплагиат, заново переписали через ChatGPT с запросом: "Перепиши этот текст так, чтобы он был оригинальным и проходил проверку сервисов, которые определяют, что текст сгенерировала нейросеть. Сделай его более читаемым". Перегенерация не помогла. "Антиплагиат" снова выделил больше половины текста красным, а оригинальность упала на долю процента.
Другим пользователям удалось обойти проверку "Антиплагиата".Александр Жадан, который
написал диплом с помощью ChatGPT и прославился этим, тоже опробовал новую функцию "Антиплагиата". Он отправил на платную проверку девять страниц своего диплома. Сервис посчитал весь документ подозрительным и отметил, что три страницы сгенерированы в нейросетях. Затем Жадан попросил ChatGPT переписать текст, поменять структуру и сделать его более читаемым. В итоге "Антиплагиат" не нашел сгенерированные фрагменты.
В комментариях к треду Жадана предположили, что сервис проверки на нейросетевые тексты хуже работает с большими объемами. Пользователи считают, что он помечает красным простые предложения, которые многократно повторяются в интернете.
В "Антиплагиате" обратили внимание на тред Жадана и признали, что проверку сервиса можно обойти. В пресс-службе считают, что Жадану помогло редактирование текста: "Любое вмешательство человека в сгенерированный ИИ текст, конечно же, "очеловечивает" его, позволяя обойти алгоритм распознавания". Для обхода "Антиплагиата" понадобилось значительное время на работу с чат-ботом, посчитали разработчики системы.
Выводы:- Если вы полностью генерировали научную работу в ChatGPT, то, скорее всего, "Антиплагиат" отметит текст как подозрительный.
- Если вы полностью генерировали научную работу в ChatGPT на английском языке, а потом перевели на русский язык, "Антиплагиат" не отметит текст как подозрительный.
- Если вы использовали ChatGPT для сбора и упорядочивания информации при написании научной работы, часть редактировали, а часть переписывали вручную, то, вероятнее всего, "Антиплагиат" не распознает сгенерированный текст.
- Лучше следить за тенденциями в этом направлении. 28 июня на конференции RuCode студенты расскажут, как они вычисляли сгенерированные тексты в рамках программы "Поймай ChatGPT". Можно будет послушать разработчиков ТОП-5 проектов по определению работы ИИ в написании текста.
Студенческие проекты - хороший способ понять на каком уровне индустрия и как скоро предыдущие выводы перестанут срабатывать.
С профессиональной точки зрения выступит Андрей Грабовой из Антиплагиата с темой: "ChatGPT: как жить с машинной генерацией в научном сообществе".
Можно приехать и поучаствовать лично или посмотреть онлайн-трансляцию (все бесплатно, но нужна
регистрация).