Быстрые улучшения возможностей больших языковых моделей (LLM) позволили им решать широкий круг задач, но все еще есть много проблем, которые они не могут решить. Новое исследование показывает, что предоставление LLM аутсорсинга рабочих мест более мелким специализированным ИИ может значительно расширить сферу их деятельности.

Сегодняшние ведущие LLM способны на некоторые впечатляющие достижения, включая сдачу Единого экзамена на адвоката и программирование видеоигр . Но их возможности по-прежнему носят прежде всего лингвистический характер. Предпринимаются усилия, чтобы заставить эти модели работать с более разнообразными типами данных и решать более широкий круг задач. Например, самая большая модель OpenAI GPT-4 является мультимодальной и теперь может анализировать изображения, а также текст после обучения как на языковых данных, так и на данных изображений.

Исследователи из Университета Рутгерса в Нью-Джерси считают , что вместо того, чтобы пытаться создать поющую и танцующую модель, способную решить все виды проблем, нам следует использовать множество специализированных систем искусственного интеллекта , уже оптимизированных для решения более узких задач. Их новый подход позволяет человеку описать задачу на естественном языке, которую LLM затем анализирует, прежде чем объединить несколько специализированных ИИ для предоставления решения. Этот подход к искусственному интеллекту , подобный Stickle Brick, может помочь объединить все достижения в области искусственного интеллекта за десятилетия в единую универсальную систему, говорит Юнфенг Чжан , доцент Rutgers, который руководил проектом.

«У этих LLM есть некоторые базовые возможности манипулирования различными инструментами и моделями для решения некоторых основных задач», — говорит он. «Поскольку добавляется все больше и больше модулей, инструментов и моделей предметной области, эти модели естественным образом расширят свои возможности для решения большего количества различных задач».

Чжан и его коллеги создали программную платформу под названием OpenAGI, которая связывает вместе различные предварительно обученные LLM и другие модели ИИ, специфичные для предметной области. В препринте, опубликованном на arXiv , они описывают эксперименты с тремя LLM — GPT-3.5 от OpenAI, LLaMA от Meta и FLAN-T5 от Google — а также с множеством более мелких моделей, специализирующихся на таких задачах, как анализ настроений, перевод, классификация изображений, устранение размытия изображений. , подписи к изображениям и преобразование текста в изображение.

Пользователь предоставляет LLM описание задачи на естественном языке и соответствующий набор данных. Примером может быть: «Учитывая размытое изображение в градациях серого, как мы можем ответить на письменный вопрос об этом?» LLM анализирует задачу и разрабатывает пошаговый план ее решения, используя описания моделей ИИ на естественном языке, чтобы определить, какие из них нужно собрать воедино и в каком порядке. В этом примере это может включать использование модели устранения размытия для улучшения качества изображения, затем другой модели, которая может раскрасить фотографию, и, наконец, модели, которая может отвечать на вопросы об изображениях.

Сила подхода, по словам Чжана, заключается в том, что он использует огромную выразительную мощь человеческого языка, который можно использовать для объяснения практически любой проблемы или возможности модели. «Чтобы действительно разработать общие системы ИИ, люди должны разработать какой-то технический подход для объединения различных задач в одном формате данных», — говорит Чжан. «Язык, естественно, служит таким средством для описания множества различных задач».

Команда Rutgers не единственная, кто изучает этот подход. В прошлом месяце исследователи из Microsoft и Чжэцзянского университета в Китае представили систему под названием HuggingGPT , которая соединяет сервис OpenAI ChatGPT с хранилищем моделей ИИ Hugging Face . Пользователь предоставляет объяснение задачи, которую он хочет выполнить, на естественном языке, и ChatGPT разработает план, выберет и запустит модели, необходимые для ее выполнения, а затем скомпилирует результаты в ответ на естественном языке для пользователя.

По словам Чжана, одно существенное различие между этими подходами заключается в том, что HuggingGPT опирается на модель, доступную только через API компании. Подход команды Rutgers не зависит от LLM и работает с открытым исходным кодом. Одним из преимуществ этого аспекта является то, что он позволяет обучать LLM лучше справляться с задачей планирования задач, используя придуманные человеком примеры или используя отзывы о его работе для повторного обучения модели.

В ходе испытаний группа показала, что модель GPT-3.5 с 17 миллиардами параметров, доступ к которой осуществляется только через API компании, достигла наилучших результатов, когда модель не давала подсказок о том, как решить проблему, или просто приводила несколько примеров. Но когда гораздо меньший по размеру FLAN-T5, имеющий всего 770 миллионов параметров, был переобучен с использованием обратной связи по производительности, он работал значительно лучше, чем GPT-3.5, в сценарии без подсказок.

И OpenAGI, и HuggingGPT являются частью недавнего взрыва усилий по связыванию LLM с другими моделями ИИ и цифровыми инструментами, часто с использованием API. Другие известные примеры включают TaskMatrix.AI от Microsoft , Toolformer от Meta и VISPROG от Allen Institute . По словам Махеш Сатиамурти , инженера-программиста Google Brain , независимо от того, перекладывают ли задачи задачи на другие модели искусственного интеллекта или более простое программное обеспечение, идея практически одинакова . Он считает, что этот подход, вероятно, будет более многообещающим путем для повышения возможностей будущих ИИ, чем мультимодальные подходы к обучению.

«Возможно, что одна модель, которая делает все, будет лучше с точки зрения качества, но обучать и обслуживать такую ​​модель будет непрактично», — пишет он в электронном письме IEEE Spectrum . «У нас уже есть много отличных предметно-ориентированных моделей и хранилищ знаний по предметно-ориентированной тематике (например, Google ). Так проще их использовать».

Однако Дэвид Шланген , профессор компьютерной лингвистики в Потсдамском университете в Германии, не согласен с названием, которое группа Рутгерса дала своей модели. AGI расшифровывается как «искусственный общий интеллект», который относится к гипотетической системе ИИ, которая имитирует тип общего интеллекта, наблюдаемый у людей. Хотя эти новые модели представляют собой интересные эксперименты, направленные на то, чтобы вывести LLM за пределы простой работы с текстом, Шланген говорит, что они по-прежнему не решают ключевых недостатков, таких как склонность придумывать факты. «Фрейминг как имеющий какое-либо отношение к «искусственному общему интеллекту» в лучшем случае вводит в заблуждение», — говорит он.