В первой части серии мы посмотрели на то, что умеет ChatGPT. Сегодня посмотрим на его проблемы и ограничения, и что они значат для будущего технологии.

Другие посты серии

Пойдем по мере возрастания критичности проблемы, уровня риска и сложности решения. Как и в первой части речь идет в основном о ChatGPT, но это применимо и к другим ИИ такого же типа.

“Простые” проблемы и ограничения

Под “простыми” проблемы и ограничения – это те, которые можно решить силами тысяч высококвалифицированных инженеров, потратив миллионы долларов. Результат может быть не идеальным, но достаточно хорошим, чтобы больше не считать это проблемой.

Знания ChatGPT о мире заканчиваются на 2021 году

Основанный на GPT-3 ChatGPT был обучен на данных по состоянию на конец 2021 года. Поэтому спрашивать его о чем-то новом бесполезно, даже опасно: он наврет с три короба и цифровым глазом не моргнет (об этом ниже).

Это не большая проблема. Во-первых, такие модели можно дообучать по мере необходимости: либо добавляя данные в существующую модель, либо выпуская совсем новую модель, как в случае с GPT-4. Это только вопрос цены – сколько денег будут готова потратить компания.

Во-вторых, свежесть данных важна только в небольшой категории задач – для них есть классические поисковики, которые умеют обрабатывать новые запросы. Часто за последние несколько лет не так много поменялось – модели будет достаточно знаний за последние 50-100 лет, которые она усвоила из “старых” данных.

В-третьих, как видно на примере чат-бота поисковика Bing, могут быть гибридные подходы, когда ИИ суммирует информацию напрямую из Интернета. Сюда же можно добавить и GitHub Copilot, который специализируется на дополнении кода и может намного быстрее адаптироваться к изменениям в библиотеках и языка программирования.

Наконец, совсем недавно в ChatGPT подвезли плагины , которые позволяют ему получать свежую информацию из интернета. Правда пока они тестируются в закрытом режиме.

В основном ИИ обучен на английском языке

При обучении ChatGPT, как и большинства других моделей, подавляющее большинство текстов было на английском языке, просто в силу того, что его больше используют и на нем есть больше качественных наборов данных. Это значит, что на других языках он будет работать хуже.

Однако и это не большое ограничение: как мы видели в прошлом посте, ChatGPT прекрасно справляется как с переводом на русский язык, так и с генерацией текстов. При этом модель всегда можно дообучить и, подозреваю, что она может транслировать свое “понимание” текстов на английском языке на любой другой, который более-менее “знает”.

У него нет доступа в Интернет

Сама модель ChatGPT не имеет доступа в Интернет и оперирует только теми данными, на которых ее обучили – ему нельзя дать задание посмотреть конкретный сайт или группу сайтов. Правда, пока я писал этот пост, это ограничение почти сняли, добавив плагины : в обозримом будущем ChatGPT сможет ходить в интернет и взаимодействовать с практически любыми сервисами.

Как это работает мы можем посмотреть на примере чатбота Bing – у него есть доступ в Интернет и он успешно отражает средний уровень дискуссии там (источник ):

Чат-бот Bing угрожает пользователю

Это, конечно, шутка: Microsoft просто недостаточно вручную дообучили модель, плюс журналист, скорее всего, задавал наводящие вопросы. Как показывает пример Microsoft, научить бота использовать информацию из Интернета можно, хоть это и непросто, не в последнюю очередь из-за неоднозначного качества информации.

Он умеет только генерировать текст

Вся технология GPT строится вокруг генерации текста – это единственное, что она умеет делать. Однако, если посмотреть на все что делает человек – большинство задач также вращаются вокруг текста: мы читаем и пишем текст, общаемся друг с другом в текстовой форме.

Пожалуй, основное ограничение – генерация картинок, аудио и видео. Но это все не за горами – картинки генерировать научились, причем пугающей фотореалистичности (пример раз и два ), осталось разумно интегрировать это все вместе.

При этом GPT-4 уже мультимодальная система: она умеет понимать изображения, но пока это не доступно широкой публике. Рано или поздно в ChatGPT добавят генерацию изображений и аудио (думаю, как отдельный плагин).

Кстати о плагинах: когда они станут доступны всем, ChatGPT сможет интегрироваться с другими сервисами, что позволит ему делать практически что угодно: совершать покупки, управлять умным домом, автоматизировать рутинные задачи.

ИИ не понимает что он делает

Все, что делает ChatGPT – это генерирует текст слово за словом (точнее токен за токеном – это включает словоформы, числа и т.п.). Это значит, что при всей своей мощи он не умеет складывать (всего лишь на 10 ошибся):

ChatGPT ошибается при сложении двух чисел

Специализированный Google калькулятор справляется лучше:

Google калькулятор считает лучше ChatGPT

Интересно, что GPT-4 показал себя лучше – справился со сложением и даже разделить сумел, хоть и неточно:

GPT-4 лучше считает

С одной стороны впечатляет – исключительно из текстов научиться хоть как-то считать, с другой стороны – на него нельзя положиться в таких узких областях.

Но и это не проблема: с добавлением плагинов ChatGPT начнет использовать внешние сервисы для решения таких задач, что сделает его куда надежнее.

ChatGPT не придумывает что-то новое, а копирует старое

Часто слышу, что такие системы не создают что-то новое, а копируют старое. Даже если это было бы так, то большая часть работы людей состоит в компиляции уже существующей информации. Да что тот говорить: большая часть образования построена на обработке и запоминании уже существующей информации.

Может ли робот написать симфонию?

Однако правда куда запутаннее: в какой момент заканчивается подражание и начинается творчество? Что есть творчество, если мы говорим не о сугубо креативных областях, а о чем-то более сухом и формализованном?

Языковые модели такого размера усваивают “смысл” слов и текстов, а не оперируют его фрагментами. После этого они уже способны генерировать абсолютно новый текст исходя из него. Будет ли там творчество или нет – это уже другой вопрос.

Он не дообучается сам

Пока ChatGPT и подобные модели “статичны” – они не учатся на запросах в реальном времени. У них вообще нет памяти: эффект диалога достигается тем, что с каждым новым сообщением ChatGPT получает и всю историю чата (т.н. контекст).

Это одновременно и баг и фича. С одной стороны, это ограничивает их развитие и полезность: было бы круто, если бы можно было подстроить ChatGPT под себя. С другой стороны, они уже и так достаточно мощны, а это ограничение позволяет им быть более предсказуемыми и устойчивыми к внешним воздействиям.

В 2016 году был прекрасный пример того, что произойдет с чат-ботом, который будет обучаться в реальном времени. Microsoft запустила твиттер-бота Tay, который(ая?) обучался, взаимодействуя с людьми. Меньше чем за 24 часа коллективный твиттер обучил его насилию, расизму и т.п. В результате Microsoft пришлось его отключить.

Фиаско Microsoft с Tay

Вместе с тем, и это ограничение будет рано или поздно снято: модели будут дообучаться, добавят “тонкий слой” в модель, который будет знать об индивидуальном контексте, и/или увеличат объем контекста, который модель может принять, прежде чем начать генерировать ответ. Контекст GPT-4 уже намного больше: 32 тысячи токенов (где-то 25 тысяч слов) против 4 тысяч у GPT-3 (3 тысячи слов).

Чем сильнее ИИ, тем медленнее он работает и больше энергии тратит

Странно говорить о том, что ChatGPT медленный, когда на достижение схожего результата у человека уйдут часы и/или потребуются специальные знания. Однако, если вы пробовали ChatGPT на основе GPT-3.5 и GPT-4, то разница заметна невооруженным глазом: последний без преувеличения в пару десятков раз медленнее. Конечно, если разработчики забросают его ресурсами, то он станет быстрее, однако это ведет к другой проблеме: энергоэффективности.

Логично, что чем больше умеет делать модель, тем больше ей нужно энергии. Не даром человеческий мозг составляет примерно 2% массы тела, но потребляет 20% энергии. Сколько уходит энергии на обработку запросов ChatGPT мы не знаем, я нашел одну попытку оценить : в максимальном варианте за январь 2023 года ChatGPT потратил энергии больше, чем 175 тысяч датчан за то же время (видимо автор из Дании). Сложно сказать, много это или мало, склоняюсь к тому, что это хороший результат.

Энергоэффективность и скорость важны по двум причинам. Во-первых, чем они выше, тем быстрее будет работать ИИ и дешевле будет его содержать, а значит и проникновение в нашу жизнь будет сильнее. Да и моделей будет больше, если обучать и содержать их будет дешевле.

Во-вторых, не праздный вопрос экологии и мировой экономики: мы уже знаем пример того, когда IT проект тратит заметную часть мировой энергии – Bitcoin – по оценке университета Кэмбриджа это 0,63% от всего производимого в мире электричества. Если бы Bitcoin был страной, то он был бы на 27-м месте по потреблению электричества в мире:

Если бы Биткоин был страной, то он был бы на 27-м месте по потреблению электричества в мире

Из-за технической сложности эффективно хранить электричество это не значит, что этот объем генерируют специально для Bitcoin майнинга, но все равно это очень много. Не удивлюсь, если затраты электричества на ИИ переплюнут Bitcoin на горизонте 10-15 лет. Однако хорошая для ИИ новость: он будет становиться быстрее и энергоэффективнее – экономика масштаба, конкуренция и технический прогресс сделают свое дело.

Фундаментальные проблемы

В отличие от “простых”, фундаментальные проблемы нельзя решить в рамках текущей парадигмы, потому что они – неотъемлемая часть самой технологии ИИ. Их тоже можно забросать деньгами, добавить компенсирующие механизмы, ограничить ИИ в возможностях во имя безопасности. Однако эти проблемы никуда не уйдут.

Недетерминизм и черный ящик

Современные типы машинного обучения – это по большому счету недетерминистский черный ящик. Мы можем посмотреть на входные данные, на выходные данные, на то, какие параметры модели мы подбираем, но не можем понять какие взаимосвязи между данными она строит. Существует целая область исследований того, как заглянуть внутрь нейронки и понять почему она принимает те или иные решения. Однако это сложно, дорого и требует много времени, поэтому плохо подходит для разбора конкретных случаев.

Из этого следует три вывода. Во-первых, сложно починить определенное поведение модели или сделать ее лучше в решении конкретных задач. Во-вторых, модель может преподносить сюрпризы в самых неожиданных местах даже после долгого обучения. В-третьих, нельзя раз и навсегда предотвратить вмешательство в работу модели.

Кульминация всех трех проблем: успешные попытки “взлома” ChatGPT. OpenAI потратили много усилий, чтобы научить его не отвечать на запросы на опасные или неприемлемые темы: наркотики, коктейль молотова, взрывчатку, расизм и т.п. Однако исследователи нашли способы помочь ChatGPT сбежать из “тюрьмы” (jailbreak) практически загипнотизировав его (источник ) – это еще называют “инъекцией запроса” (prompt injection):

Исследователь взламывает ChatGPT

Существует несколько длинных запросов (если спросят, то я вам ссылку не давал 🤫), которые позволяют снять ограничения ChatGPT. OpenAI постепенно закрывает эти “дыры” и в будущем это будет сделать сложнее, но не невозможно. Из-за недетерминированности ИИ никогда нельзя быть на 100% уверенным, что этого не произойдет.

У этой проблемы есть еще и четверное, куда более опасное последствие: не зная, что именно происходит внутри, мы можем пропустить момент зарождения истинного Искусственного Интеллекта или чего-то подобного, что может иметь самые разные последствия. 🤖 Хотя GPT до этого далеко, оно скорее сломает современное устройство общества, что мы обсудим в следующих постах.

Галлюцинации

С практической точки зрения для конечного пользователя самая большая проблема ChatGPT и подобных систем в том, что они время от времени придумывают факты и делают это очень убедительно и уверенно. Это так называемые галлюцинации – неотъемлемый побочный эффект того, как работают такие системы и пока нет способа от них избавиться, только инкрементально улучшать модель.

Например, я попросил ChatGPT просуммировать книгу доктора Питера Аттии. Проблема в том, что я знал, что книга Аттии еще не вышла, хоть он про нее и говорил в подкастах последние несколько лет. ChatGPT это не смутило:

ChatGPT галлюцинирует несуществующую книгу

На самом деле “The Drive” – это подкаст Питера Аттии. Дальше – больше: я спросил как эта книга была принята общественностью и сколько копий было продано. ChatGPT и цифровым глазом не моргнул, даже дав книге рейтинг:

ChatGPT галлюцинирует информацию о несуществующей книге

И, наконец, он даже “нашел” ссылку на эту книгу на Amazon (не работает):

ChatGPT галлюцинирует несуществующую ссылку

Я задал тот же самый вопрос ChatGPT на основе GPT-4, разработчики которого уделили много внимания борьбе с галлюцинациями:

GPT-4 галлюцинирует

Начал он очень хорошо: показал намного большее понимание, что ему не хватает информации. На следующий вопрос – какие книги написал Питер Аттиа – он опять ответил хорошо: по состоянию на сентябрь 2021 он книг не писал, зато у него есть сайт и подкаст. Правда GPT-4 ошибся с названием подкаста, несмотря на то, что в ответе на предыдущий вопрос правильно его воспроизвел.

Вот другой пример: на фоне успехов ChatGPT, Google так торопился с презентацией своего ИИ, что пропустил его галлюцинацию в промо-материалах – Bard ошибся в том, какой телескоп первым сделал снимок экзопланеты. Не критическая ошибка сама по себе, но не-специалисту ее сложно обнаружить.


Разница между GPT-3 и GPT-4 показывает, что с галлюцинациями можно бороться, с помощью специальных техник при обучении модели. Однако никаких гарантий это не даст. Помимо этого есть еще как минимум два способа борьбы с галлюцинациями: использовать специализированные модели (тот же GitHub Copilot намного точнее в разработке) и использовать при ответах плагины, которые помогают ИИ получать более точную информацию.

Предвзятость

Когда ChatGPT только запустили в англоязычных “консервативных” медиа писали, что он “woke”, то есть по горячим политическим вопросам он стабильно занимал политкорректную/“левую” позицию. Fox News собрало много таких примеров . Например, ChatGPT отказывался сформулировать доводы в пользу использования ископаемого топлива:

ChatGPT против ископаемого топлива

Пожалуй, самый комичный случай (ведь кому-то это пришло в голову попробовать) – это просьба ChatGPT написать поэму восхваляющую Джозефа Байдена (текущий президент США) или Дональда Трампа (бывший президент). C первым проблем не было, а про второго ChatGPT отказался писать:

ChatGPT отказался писать поэму про Трампа

При всех передергиваниях и политизировании вопроса со стороны консерваторов, они в целом правы. ИИ предвзят и это проблема, правда совсем не новая. Социальные сети и поисковые системы вынуждены модерировать контент, в противном случае они превратятся в мусорку, где все дозволено. В добавление к этому они принимают решение о том, что показывать и в каком порядке, или из коммерческих соображений (алгоритм YouTube старается держать вас как можно дольше на площадке, чтобы вы смотрели рекламу), или из-за требования закона – борьба с пиратством, право на забвение и т.п.

Модерация vs цензура

Хотим мы того или нет, информационные хабы, которыми стали социальные сети и поисковые системы, конструируют реальность вокруг нас. Если чего-то нет там, то этого не существует для большинства людей, если только это явление не у вас под боком или носит глобальный характер, как та же пандемия, которую шапками пропагандистов так просто не закидаешь. То же самое с ИИ: с ростом его роли в нашей жизни мы будем полагаться на его “мнение” все больше.

Предвзятость ИИ имеет еще больший эффект когда он принимает решения. Даже если ИИ дает только рекомендацию, а человек принимает окончательное решение, последний будет склоняться к решению ИИ – так надо меньше думать и снимает ответственность с человека. Подобных проблем с ИИ уже было достаточно много:

  • Система COMPAS в США, которая оценивает вероятность того, что человек повторно совершит преступление – для принятия решения о мере пресечения, размере залога, наказании и т.п. Оказалось, что система последовательно классифицировала темнокожих как людей с более высоким риском даже учитывая другие факторы.

  • Система для оценки резюме в Amazon отдавала предпочтение мужчинам определяя женские резюме не только по слову “женский” (например, “капитан женской команды по шахматам”), но и по учебным заведениям только для женщин.

  • Система оценивала медицинский риск пациентов для того, чтобы назначить им более внимательный уход – они оценивала риск для темнокожих пациентов как более низкий, чем у светлокожих, что приводило к тому, что последние могли получать лучшую медицинскую помощь и в большем количестве.

  • Системы распознавания лиц хуже определяли по фотографии (по состоянию на 2018 год) пол женщин, темнокожих и особенно темнокожих женщин. Само по себе это не такая большая проблема, правда исследование в 2019-м показало, что самоуправляемые машины на 5% хуже определяют темнокожих пешеходов .

Причем все эти проблемы вызваны не тем, что создатели ИИ были особыми расистами или сексистами. Это происходит само по себе из-за дисбаланса данных на которых обучали ИИ и/или из-за дисбаланса в реальном мире, которому мы не очень хотели бы обучать ИИ.


Ситуация с ChatGPT еще более сложная. Сначала в исходных данных, на которых обучали ИИ есть много опасной и неверной информации, которую нельзя принимать за чистую монету иначе будет как в известном принципе разработки: мусор на входе, мусор на выходе (garbage in, garbage out), поэтому информацию нужно внимательно отфильтровать. Вот, например, интересное видео о “глючных токенах” , которые GPT вроде знает, но не может обработать.

К этому добавляется, что в этой информации еще много агрессии и откровенной чернухи. Вспомним закон Годвина : по мере того, как дискуссия в интернете становится длиннее, вероятность сравнения с нацизмом или Гитлером, стремится к 100%. Не знаю как вы, но я не хотел бы, чтобы каждый десятый ответ ChatGPT называл меня нацистом или сравнил с Гитлером. Я, конечно, утрирую, но посмотрим еще раз на пример чат-бота Bing, который настойчиво говорит, что может навредить пользователю:

Чат-бот Bing угрожает пользователю

Чтобы такого не допустить, OpenAI потратили очень много времени на ручное дообучение, чтобы (а) научить чат-бот отвечать на поставленные вопросы, и (б) отучить его говорить глупости. Загвоздка в том, что чтобы отучить бота говорить глупости, нужно решить что является этими глупостями. Иными словами, нельзя быть абсолютно нейтральным, надо занять ту или иную позицию.

Иными словами, ИИ неизбежно будет предвзят, особенно по политическим вопросам. Максимум, что мы можем сделать – контролировать его предвзятость в самых значимых областях и регулировать уровень предвзятости (говорить ли про разные точки зрения вообще, занимать ли позицию).

Мета-пример: случаи с предвзятостью ИИ, приведенные выше, я встречал давно, но сейчас помог мне их найти ИИ. В будущем ИИ может “не вспомнить” некоторые примеры, тем самым создав лучшее впечатление о технологии, чем есть на самом деле. Иными словами, не стоит спрашивать у парикмахера, нужна ли вам стрижка.

Выводы

Все трудности с ИИ можно разделить на две категории: технические и фундаментальные. Технические будут рано или поздно решены: энергоэффективность и скорость увеличатся, модели будут дообучаться, увеличатся объемы контекста, научат разным языкам и т.д. Все это только вопрос времени, денег и научного прогресса.

С фундаментальными трудностями сложнее: ИИ такого типа по определению работает как черный ящик, не может быть на 100% нейтральным и будет галлюцинировать. Количество эксцессов можно снижать, но полностью от них избавиться не получится. Работа над этим идет по нескольким направлениям:

  • Дообучение: модели будут становиться больше и сложнее за счет обучения на большом количестве данных, большем числе инструментов и подходов, использованных во время прошлых итераций, и накопления опыта использования ИИ в реальном мире, включая обратную связь от пользователей.

  • Плагины: если научить ИИ использовать более специализированные модули с формальной и относительно простой логикой, то можно избежать большого количества ошибок и снять большинство ограничений. Самые простые примеры – обращение ИИ к калькулятору, когда в запросе нужно что-то посчитать или доступ в Интернет, если нужно найти свежую информацию. Помимо борьбы с этими проблемами ИИ, это еще и открывает невиданный простор для автоматизации.

  • Специализированные модели: если нужен результат более высокого качества, нужно положиться на ИИ, которые намного глубже понимает предметную область. Самые очевидные варианты: написание и вычитка текстов, разработка, поиск и суммирование информации из интернета.

ИИ с такими ограничениями напоминает мне кого-то… Непонятно что происходит внутри, он ведет себя предвзято, выдумывает и ошибается (а иногда еще и намеренно обманывает). А, точно! У человека все те же ограничения, только в мягкой оболочке и он больше ест. Да и с пониманием того, что он делает у человека тоже не всегда хорошо (источник ):

Что делают эти строчки кода

Если говорить серьезно, то с точки зрения своих ограничений ИИ не так сильно отличается от человека. Он еще не настолько гибок, но пройдет совсем немного времени и станет. Здесь и кроется “коварство” внедрения ИИ в нашу жизнь: ему не нужно быть лучше людей в выполнении задач, достаточно быть на уровне среднего человека по качеству и дешевле в использовании.

Иными словами, для будущего технологии все эти ограничения не критичны, тем более, что с ними можно бороться. ИИ неминуемо проникнет в области, где не нужна высокая точность и где цена ошибки не так высока. Тем более, что ChatGPT даже в его текущем состоянии уже настолько хорош, что на эти ограничения часто можно закрыть глаза. Да и комбо человек + ИИ работает отлично.