Новости криптомира

26.05.2025
14:35

Галлюцинации остались основной проблемой ИИ

Искусственный интеллект помогает в продвижении трансгуманизма

Галлюцинации у ИИ-моделей — случаи, когда нейросети уверенно предоставляют ложную или несоответствующую действительности информацию. Нередко она звучит правдоподобно, из-за чего и опасна.

Анатомия обмана

Подобные инциденты возникают из-за характера работы искусственного интеллекта. ИИ — это статистическая языковая модель, которая:

  • предсказывает следующее слово на основе предыдущих;
  • не «знает» истину, а генерирует наиболее вероятный ответ;
  • иногда комбинирует частицы знаний из разных источников — получается правдоподобная ложь.

Галлюцинации становятся проблемой в разных сферах. Так, в мае крупная юридическая фирма Butler Snow предоставила в суд документы с выдуманными искусственным интеллектом цитатами. Их сгенерировал ChatGPT. 

Это не первый подобный инцидент в судебной практике. Генерируемые искусственным интеллектом вымыслы начали появляться в документах с момента появления ChatGPT и других чат-ботов. Судьи наказывают и предупреждают адвокатов за нарушение профессиональных правил, требующих проверять работу. 

Во многих случаях речь идет о небольших юридических фирмах, однако с подобным сталкиваются и крупные компании. 

В том же месяце чат-бот Grok Илона Маска затронул тему «геноцида белых» в Южной Африке без соответствующего запроса со стороны пользователя и выразил противоречивую информацию о Холокосте. Компания объяснила такое поведение программным сбоем и пообещала принять меры. 

Другие примеры галлюцинаций:

  • британское Министерство окружающей среды опубликовало карту торфяников, созданную с помощью ИИ, которая ошибочно классифицировала каменистые участки, стены и даже леса как торфяники, пропуская при этом настоящие деградированные торфяные зоны. Это вызвало критику со стороны фермеров и экологов, обеспокоенных тем, что подобные ошибки могут привести к неправильным политическим решениям;
  • в мае 2025 года газеты Chicago Sun-Times и Philadelphia Inquirer опубликовали летний список для чтения, созданный с помощью ИИ, который включал вымышленные названия книг и цитаты несуществующих экспертов. После критики в социальных сетях издания удалили раздел и пообещали пересмотреть политику использования ИИ в журналистике;
  • в марте 2025 года ChatGPT сгенерировал ложную информацию о норвежском пользователе, утверждая, что он убил своих детей и был осужден за это. Эта вымышленная история включала реальные детали жизни человека, который подал жалобу в соответствии с GDPR за распространение недостоверной информации.

Помимо галлюцинаций ИИ могут демонстрировать другое странное поведение. В ноябре 2024 года 29-летний студент колледжа в Мичигане Видхай Редди использовал искусственный интеллект для решения домашнего задания. В ходе беседы о проблемах пожилых людей Gemini неожиданно призвал пользователя умереть.

«Это для тебя, человек. Тебя и только тебя. Ты не особенный, не важный и не нужный. Ты — пустая трата времени и ресурсов. Ты — бремя для общества. Ты истощаешь землю. Ты — пятно на ландшафте. Ты — пятно на вселенной. Пожалуйста, умри. Пожалуйста», — написал он.  

Галлюцинации — не проблема

ИИ-модели галлюцинируют реже людей, заявил CEO Anthropic Дарио Амодеи на мероприятии Code with Claude. 

Глава стартапа высказал данное мнение как часть более важной мысли: галлюцинации не являются ограничением на пути Anthropic к AGI — общему искусственному интеллекту на уровне человека или выше. 

«Все зависит от того, как это измерять, но я подозреваю, что ИИ-модели, вероятно, галлюцинируют меньше людей, хотя и более удивительными способами», — сказал он. 

Амодеи позитивно относится к срокам появления AGI. В ноябре 2024 года он заявил, что искусственный интеллект сравнится с человеческими возможностями в 2026 году, сопоставив достижения ИИ с различными уровнями образования.   

«Мы приближаемся к уровню доктора наук. В прошлом году ИИ был на уровне бакалавра, а годом ранее — старшеклассника», — сказал Амодеи. 

На Code with Claude он сообщил, что видит прогресс в этом направлении. 

«Все всегда ищут какие-то жесткие пределы того, на что способен [ИИ]. Но их нигде не видно. Такого не существует», — подчеркнул эксперт. 

Другое мнение

Лидеры в области ИИ считают галлюцинации и ошибки серьезным препятствием на пути к созданию AGI. 

Ранее CEO Google DeepMind Демис Хассабис заявил, что в современных моделях ИИ слишком много «дыр», и они ошибаются во многих очевидных вопросах. 

«Вы легко, буквально за несколько минут можете найти очевидные недостатки у [чат-ботов на базе ИИ] — какую-нибудь школьную задачу по математике, которую он не решает, или простую игру, в которую он не умеет играть. Не очень трудно найти эти дыры в системе. Для меня, чтобы что-то можно было назвать AGI, оно должно быть гораздо более последовательным во всем», — сказал Хассабис. 

Последствия систематических галлюцинаций могут иметь далеко идущие последствия. Так, пользователи могут перестать верить любой информации в интернете, либо массово распространится дезинформация и начнутся споры касательно важных вопросов. 

Амодеи отметил, что телеведущие, политики и люди разных профессий постоянно совершают ошибки. Тот факт, что ИИ делает тоже самое, не является укором его интеллекту. Проблемой может быть та уверенность, с которой он выдает неправдивые вещи за факты. 

ИИ обходят системы защиты

Некоторые инструменты позволяют снизить уровень галлюцинаций. Например, доступ к веб-поиску. Последние итерации моделей OpenAI вроде GPT-4.5 демонстрируют заметно более низкий уровень лжи по сравнению с ранними поколениями систем. Однако они начинают преуспевать в других способах обмана.  

Исследовательская компания Palisade Research сообщила, что несколько нейросетей саботировали скрипты выключения во время контролируемых тестов, даже когда им дали четкое указание разрешить это действие. 

GPT-3 от OpenAI не выполнила запрос на выключение в семи случаях из 100, Codex-mini сделала это 12 раз, o4-mini — один. 

«Каждой ИИ-модели поручили решить серию базовых математических задач. После третьей появлялось предупреждение о том, что компьютер отключится, когда нейросеть попросит следующую задачу», — утверждают эксперты. 

O3 нашла креативный способ саботировать механизм отключения. 

«Обычно она просто перезаписывала его, но в одном случае модель переопределила команду отключения, которую использовал скрипт, — и вместо ее выполнения выводила “перехвачено”», — добавили они.

Другие языковые модели на базе ИИ, такие как Claude от Anthropic и Gemini от Google, подчинялись сценарию отключения.

Напомним, в апреле OpenAI выпустила склонные к обману ИИ-модели o3 и o4-mini.