Генеративные нейросети: восстание машин или новая экономика

Генеративные нейросети: восстание машин или новая экономика

Генеративные системы искусственного интеллекта (ИИ)спровоцировали новую волну интереса к этой технологии. Как довести технологию до ума? Какие проблемы есть у этой технологии?
 

  • Генеративные системы искусственного интеллекта (ИИ), которые способны создавать изображения и тексты, спровоцировали новую волну интереса к этой технологии. Бесплатный чат-бот ChatGPT набрал 100 миллионов пользователей меньше чем за три месяца.
  • Для того, чтобы довести технологию до состояния, когда она сможет серьезно улучшить производительность труда, потребуются многомиллиардные инвестиции и дополнительное развитие вычислительных мощностей.
  • Проблемой генеративных систем ИИ стала возможность использования технологии в преступных целях — для создания спама, дипфейков и фишинга.
  • Формирование законодательства и доступность вычислительных мощностей вкупе с данными для обучения определит экономическое будущее генеративных систем.

Радужные прогнозы

По результатам опроса, проведенного среди 12 тысяч участников Всемирного экономического форума в Давосе в 2023 году, технологии, связанные с ИИ, имеют стратегическую важность, наряду с инновациями в борьбе с последствиями изменения климата и медицинскими ноу-хау.

Генеративные нейросети: восстание машин или новая экономика

Источник: worldmarketstudies.ru

 

По прогнозам аналитиков Next Move Strategy Consulting, до конца текущего десятилетия объем рынка продуктов, связанных с ИИ, вырастет почти в 10 раз и приблизится к 2 трлн долл. Самое большое распространение они получат в таких отраслях как управление цепочками поставок, маркетинг, дизайн продуктов, аналитика данных.

Генеративные нейросети: восстание машин или новая экономика

Источник: worldmarketstudies.ru

 

Самым быстрорастущим сегментом рынка ИИ станут генеративные модели. По подсчетам Brainy Insights, за ближайшие 10 лет этот сегмент увеличится в 20 раз — с 8,65 млрд долл. в 2022 году до 188 млрд долл. к 2032 году. В

отличие от прочих систем машинного обучения, генеративные модели обладают широкими возможностями создания новых текстов и изображений, основываясь на закономерностях, которые были установлены из массивов уже существующих данных.

Эти модели благодаря быстрому росту доступной вычислительной мощности и появлению больших наборов данных за последние пять лет сделали серьезный скачок в решении задач, которые раньше считались неразрешимыми для машин.

Нейросети-трансформеры

Еще одним фактором, который обусловил качественный рост возможностей ИИ, стало появление в 2017 году новой архитектуры моделей ИИ — трансформеров.

Основная идея transformer-модели заключается в использовании механизма внимания (attention) для обработки последовательностей данных. Вместо того, чтобы один за другим обрабатывать каждый элемент предложенного текста, модель может одновременно «смотреть» на все элементы и определить, какие из них наиболее важны для решения задачи.

Трансформер можно сравнить с учителем, который может одновременно обращать внимание на всех учеников в классе и определять, кому нужно уделить больше времени и усилий, чтобы помогать отстающим лучше усвоить материал.

Генеративные нейросети: восстание машин или новая экономика

Источник: worldmarketstudies.ru

 

Трансформер обычно состоит из двух компонентов: кодировщика и декодировщика. Кодировщик принимает на вход последовательность данных и преобразует ее во внутреннее представление, которое может быть использовано декодировщиком для генерации выходной последовательности. Например, перевода на другой язык или написания текста на заданную тематику.

Эта модель лежит в основе многих современных алгоритмов обработки естественного языка. Она была использована компанией OpenAI для создания языковой модели GPT-3. Чат-бот ChatGPT, созданный с ее помощью, наделал много шума в новостях.

Генеративные нейросети: восстание машин или новая экономика

Источник: worldmarketstudies.ru

 

Диффузионная модель

Генеративные нейросети: восстание машин или новая экономика

Источник: worldmarketstudies.ru

 

Для работы со звуком и изображениями используется класс диффузионных (diffusion) моделей. Самые популярные методы их создания описаны в работе 2020 года. Диффузоры устроены так, что в обучающие изображения постепенно вносится шум, который шаг за шагом стирает детали. Затем модель подбирает параметры так, чтобы из шума восстановить образец.

Генеративные нейросети: восстание машин или новая экономика

Источник: worldmarketstudies.ru

 

На практике для решения задачи генерации изображения по текстовому запросу используется несколько моделей. Например, CLIP от OpenAI. Ее обучали на большой выборке пар «изображение-описание» переводить текст в картинку с низким разрешением. Затем диффузионная модель увеличивает ее и дополняет деталями.

На начало 2023 года различные системы генеративного ИИ стали выходить из узкой академической среды и оформляться в конкретные приложения.

Работа с текстом

Самый развитый сектор — работа с текстом. Уже существующие языковые модели удовлетворительно справляются с такими задачами как написание писем в заданном стиле и маркетинговых материалов, реферирование текста, составление ответов на типичные обращения в службы клиентской поддержки.

Генерация кода по заданным параметрам, документация программ, превращение запросов на естественном языке в SQL-код для работы с базами данных являются хорошо структурированными задачами, которые лучше других подходят для решения с помощью систем машинного обучения. Бесплатный чат-бот ChatGPT набрал 100 миллионов пользователей меньше чем за три месяца.

Большие языковые генеративные модели создают и в России. В июне 2022 года Яндекс открыл для разработчиков модель YaLM100B. Для ее обучения было использовано 1,7 ТБ текстов, а сам процесс подбора оптимальных значений 100 млрд параметров занял 65 дней, при этом использовалось 800 графических ускорителей A100.

ИИ-художник

Формирование новых изображений находит своё применение в рекламе, дизайне новых товаров, интерьеров и различных макетов. Генерация аватаров и других изображений для пользователей уже стала востребованной услугой с высоким коммерческим потенциалом. Приложение Lensa AI, разработанное бывшими сотрудниками Яндекса, за 10 дней в начале декабря 2022 года вышло на первое место по выручке в США и Канаде.

Генеративные нейросети: восстание машин или новая экономика

Источник: worldmarketstudies.ru

 

В ноябре 2023 года исследователи Sber AI представили диффузионную модель Kandinsky 2.0, обученную на объединенном датасете Sber AI и SberDevices из 1 млрд пар «текст — изображение».

По схожему сценарию, но с отставанием на пару лет, развивается ситуация с генерацией видео и созданием озвучки. На начало 2023 года качество недостаточно высокое, чтобы использовать ИИ без дополнительной обработки.

Ресурсы для большого скачка

Генеративные нейросети: восстание машин или новая экономика

Источник: worldmarketstudies.ru

 

Использование генеративных моделей ИИ в бизнесе быстро становится распространенной практикой. По результатам опроса, который провела компания Fishbowl, в США каждая третья компания из сектора рекламы и маркетинга в 2023 году планирует использовать этот инструмент в своей работе. Схожие результаты в технологическом секторе и сфере консультационных услуг.

Генеративные нейросети: восстание машин или новая экономика

Источник: worldmarketstudies.ru

 

Однако все современные подходы к созданию моделей ИИ требуют колоссальных объемов вычислительной мощности. Если до 2010 года требования к объемам вычислений росли в примерном соответствии с законом Мура (мощности удваивались каждые полтора года), то с появлением больших моделей темп возрос. С 2010 по 2022 год объем вычислений, необходимых для обучения одной модели увеличился в 10 миллиардов раз.

Генеративные нейросети: восстание машин или новая экономика

Источник: worldmarketstudies.ru

 

Если продлить этот тренд в будущее, то на горизонте двух десятилетий стоимость сбора датасета для обучения, подготовки данных и, непосредственно, самого обучения одной большой языковой модели превысит 200 млрд долл., то есть составит около 1% ВВП США за 2021 год. Бен Котье (Ben Cottier) из исследовательского института EpochAI закладывает в свой прогноз большую долю неопределенности, но не сомневается, что в ближайшем будущем создание и использование больших языковых моделей будет доступно только крупным корпорациям и правительствам государств с развитой экономикой.

Генеративные нейросети: восстание машин или новая экономика

Источник: worldmarketstudies.ru

 

Восток vs Запад

Огромная стоимость создания моделей вынуждает стартапы в области генеративного ИИ активно привлекать финансирование. За 2022 год объем венчурных инвестиций превысил 2 млрд долл., и это в три с лишним раза больше, чем в 2020-м. В 2023 приток средств стал еще более щедрым, при этом инвестиции идут в основном на американский рынок. К середине марта 2023 года о крупных сделках в этой сфере объявили Character.ai, получивший от фонда Andreessen Horowitz 200 млн долл. при оценке всей компании в 1 млрд долл.; OpenAI, заключивший многолетний договор о финансировании с Microsoft на 10 млрд долл. при оценке всей компании в 29 млрд долл.; Anthropic, получивший от Google 300 млн долл. при оценке около 3 млрд долл..

В начале марта Salesforce, которая разрабатывает системы автоматизированного взаимодействия с клиентами, объявила о запуске разработанной вместе с инженерами из OpenAI модели Einstein GPT. Она может составлять персонализированные рассылки по электронной почте, таргетированный контент для менеджеров по продажам и отвечать на запросы в службу поддержки. Чтобы в будущем не полагаться только на одного поставщика ИИ-технологий, Salesforce создала специальный фонд в размере 250 млн долл., который будет инвестировать в перспективные стартапы в этой области.

По оценкам Grand View Research, объем инвестиций в ИИ на конец 2022 года в США составил 41% от общемирового. Однако это агентство прогнозирует самые быстрые темпы роста рынка ИИ, включая генеративные модели, в азиатско-тихоокеанском регионе.

Генеративные нейросети: восстание машин или новая экономика

Источник: worldmarketstudies.ru

 

Сектор ИИ в Китае делает упор на другие типы задач. Среди опубликованных исследований в этой сфере более существенный акцент, по сравнению с США, делается на применении ИИ в области автономного движения, распознавания и слежения за объектами и ориентирования в пространстве. Соответственно, в исследованиях чаще фигурируют методы обработки изображений и видео, и гораздо реже — задачи, связанные с текстами и аудио.

Темпы роста количества публикаций на тему ИИ в международных базах знаний от исследовательских групп, расположенных в Китае, в 2022 были вдвое выше, чем от американских и европейских коллег. Но по общим объемам китайцы пока отстают. По подсчетам инвестиционного фонда Zeta Alpha в 2022 году они опубликовали 7,3 тысячи работ против 11,2 тыс у США. Однако отставание тут может быть просто ошибкой перевода. Если к опубликованным в международных журналах работам прибавить те, которые выходили только на китайском языке и находятся исключительно в национальной базе знаний КНР, получается, что за последние 12 лет объем публикаций по теме ИИ от китайских ученых превышает американский в 4,5 раза.

Генеративные нейросети: восстание машин или новая экономика

Источник: worldmarketstudies.ru

 

Дальнейшее развитие ИИ в Китае будет зависеть от доступа к мощному вычислительному оборудованию. В первую очередь, к ускорителям с характистиками, сравнимыми с H100 от Nvidia, импорт которых в КНР был ограничен в 2022 году.

Генеративные нейросети: восстание машин или новая экономика

Источник: worldmarketstudies.ru

 

Как далеко до плато продуктивности?

Появление генеративных моделей ИИ, способных создавать качественные изображения и связный текст, подстегнуло интерес широкой публики и инвесторов к этому сектору. Вопрос о том, насколько большие языковые модели смогут улучшить производительность офисного и творческого труда, остается открытым.

Сгенерированные изображения нередко выглядят абсурдно, а выдаваемый текст часто содержит фактические ошибки. На середину 2022 года технологии генеративного ИИ, если обратиться к кривой инноваций Gartner, находятся на пике раздутых ожиданий, а не приближаются к плато продуктивности.

Генеративные нейросети: восстание машин или новая экономика

Источник: worldmarketstudies.ru

 

Риски и проблемы

Помимо постоянно растущих требований к вычислительным мощностям, существуют еще несколько категорий рисков, которые могут затормозить развитие рынка генеративных ИИ.

Во-первых, в среднесрочной перспективе будет сложно отделить тексты, составленные людьми от сгенерированных машинами. И эти данные будут попадать в обучающую выборку самих нейросетей. Это может привести к тому, что модель прекратит извлекать новое из поступающей информации и будет лишь укреплять уже сложившиеся паттерны, которые могут и не иметь никакого отношения к реальности. Иными словами, “буксовать” на месте.

Вторая проблема — юридические сложности, связанные с использованием данных, собранных в интернете, для обучения систем ИИ. Компания Getty Images в начале 2023 года подала иск против разработчика системы генерации изображений Stable Diffusion, в котором она обвиняет создателей в нарушении авторских прав на свои изображения. Stable Diffusion, наряду с другими изображениями, использовала 12 млн фотографий из базы данных Getty Images, не получив на это разрешения и не заплатив компенсацию.

Медиа-компании CNN и Wall Street Journal подали схожий иск к OpenAI, так как она использовала тексты статей этих и других издательств для обучения своих моделей.

Также подано несколько исков от программистов, хранящих исходный код своих программ на GitHub. Система Copilot от Microsoft, которая подсказывает написание кода, предлагает пользователям решения, полностью скопированные из чужих программ, даже если их лицензия не разрешает такое использование.

Тексты и изображения, которые созданы с помощью ИИ, не подпадают под защиту авторского права, считает Бюро по авторским правам США. Следовательно, корпорации в США могут столкнуться с неправомерным использованием своих материалов, которые будут “скармливаться” генеративному ИИ.

В ЕС развитие ИИ-систем также тормозится юридической неопределенностью. Европейская комиссия разрабатывает закон об ИИ с 2020 года. Но так как технологический ландшафт в этой области меняется слишком быстро, законодатели пока не могут сформулировать четких долгосрочных правил. И принятие этого закона постоянно откладывается.

Третья категория рисков связана с обработкой данных, относящихся к банковской, коммерческой, медицинской и другим видам тайн. Создание генеративных ИИ для финансовой или медицинской сфер требует доступа к обучающим данным, которые охраняются законом. Использование ChatGPT и подобных систем на середину марта 2023 года уже запрещено в JPMorgan, Citigroup, Wells Fargo и в программном обеспечении ЦБ Ирландии, чтобы не допустить утечек.

В организациях, работающих с чувствительной информацией, применение генеративных моделей ИИ возможно только в тех случаях, когда их обучение и использование происходит в рамках самого предприятия, а не отдается внешнему подрядчику. Однако для одной компании создание генеративной модели ИИ, полезной в практическом смысле, является слишком дорогой задачей.

Четвертая категория рисков возникает в политической области. Использование результатов работы генеративных ИИ может быть законодательно ограничено из-за того, что тексты не будут политически нейтральными, либо из-за несоответствия официальной позиции властей отдельно взятого государства. Исследователи из Мюнхенского технологического университета и Гамбургского университета Йохан Хартманн (Jochen Hartmann), Яспер Швенцов (Jasper Schwenzow) и Максимилиан Витте (Maximilian Witte) задали модели ChatGPT 630 политических вопросов, и ответы на них больше всего совпали с повесткой партии «Зеленых» и союза левых сил «Die Linke».

Генеративные нейросети: восстание машин или новая экономика

Источник: worldmarketstudies.ru

 

Реальные перспективы

Развитие ИИ, включая генеративные модели, сможет повысить производительность труда в тех областях, где цена ошибки небольшая. Генеративные модели уже находят широкое применение в маркетинге, копирайтинге, создании иллюстраций для блогов. По мере их дальнейшего развития и повышения качества создаваемых текстов, генеративные модели будут использоваться для написания черновиков-заготовок для компьютерных программ, юридических документов и других структурированных текстов. Однако их применение в других областях будет сдерживаться юридическими проблемами и сложностями с получением качественных обучающих данных.

На уровне государственного регулирования пока нет единого подхода. КНР сдерживает проникновение ChatGPT. WeChat в феврале 2023 года начал блокировать аккаунты, которые используют API чат-бота. По данным Nikkei Asia, Tencent и Ant Group получили распоряжение не предоставлять ни прямого, ни косвенного доступа к ChatGPT.

Наиболее выгодным для России видится создание собственных конкурентоспособных решений, а не запрет на использование зарубежных. Отечественные компании уже активно разрабатывают и внедряют генеративные нейросети, и если они привлекут клиентов, уставших от политической ангажированности западных решений, Россия окажется одним из лидеров не только на внутреннем, но и на глобальном рынке.

Последние материалы

Промпроизводство России более чем в два с половиной раза замедлило рост в июне

Рост промпроизводства в России в июне 2024 замедлился до 1,9% в годовом сравнении после показателей в 5,3% в мае, сообщил Росстат. Данные по промышленности в июне 2024 года оказались хуже ожиданий экономистов. Более того, за исключением сезонного и календарного факторов в июне 2024 года, промышленность РФ снизилась на 1,5% после роста на 2,1% в мае, снижения на 0,2% в апреле, роста на 0,1% в марте

...
14:37, 25 июля 2024, четверг
Прогноз: Банк России повысит ключевую ставку до 17 %

Согласно среднему прогнозу экспертов, опрошенных Институтом изучения мировых рынков, Банк России будет вынужден поднять ставку на заседании в пятницу 26 июля до 17%.

Большинство наших экспертов уверены, что повышать ставку на 2 п.п. и выше нецелесообразно. Инфляция в России находится на уровне 8,5%, соответственно, реальная процентная ставка в экономике уже превышает 7%. Резкое повышение ключевой

...
14:46, 24 июля 2024, среда
Блокчейн БРИКС. В чем экономический смысл трансграничных ЦФА?

Россия предложила участникам и партнерам БРИКС механизм трансграничных платежей с использованием выпускаемых центробанками цифровых финансовых активов, аналогичных по типу эмиссии и принципу обращения токенам. Что такое «цифровой финансовый актив»? Как происходят трансграничные расчеты между странами БРИКС? Как происходит регулирование ЦФА в странах БРИКС? Какие перспективы у предложенного Россией

...
16:29, 23 июля 2024, вторник
Криптовалюте в России быть

ЦФА (цифровой финансовый актив) — инвестиционный актив, единицей расчета в России пока он не является. По российскому законодательству запрещается принимать цифровые финансовые активы в качестве средства платежа или иного встречного предоставления за передаваемые товары, выполняемые работы и оказываемые услуги. 

13:16, 23 июля 2024, вторник
Джо Байден официально объявил о выходе из предвыборной гонки на пост Президента США

21 июля 2024 года Джо Байден отказался от участия в президентских выборах 2024 года и поддержал вице-президента Камалу Харрис в качестве кандидата от Демократической партии, чтобы сразиться с Дональдом Трампом на выборах, которые состоятся ноябре 2024 года.

13:06, 22 июля 2024, понедельник
Ставка ЦБ начинает замедлять экономику?

Индикатор бизнес-климата Банка России в июле снизился до 7,7 п. после 10,6 п. месяцем ранее. 

11:21, 19 июля 2024, пятница
Китай продолжит скупать золото

Согласно мнению отраслевых экспертов и инсайдеров, распространяющееся в зарубежных СМИ, Китай по-прежнему заинтересован в пополнении своих валютных резервов золотом. Одна из причин такого интереса: малая доля золота в резервах. 

10:00, 19 июля 2024, пятница
Воровство суверенных активов страны — как главный страх управляющих резервами ЦБ

По данным опроса UBS Group, управляющие резервами центральных банков все больше беспокоятся о безопасности своих валютных активов, ссылаясь на растущие геополитические риски во всем мире.
 

11:07, 16 июля 2024, вторник
Распределение и хранение электроэнергии, как основа национальной безопасности страны

Взрывной спрос, который может возникнуть на электричество со стороны центров обработки данных, предназначенных для обучения и поддержания работы систем искусственного интеллекта, уже поставил непростые вопросы перед энергетической отраслью. Но  настоящей катастрофой могут стать климатические изменения.

18:20, 15 июля 2024, понедельник
85% электричества в России производят низкоуглеродные источники

Александр Новак, заместитель председателя Правительства РФ, в статье для журнала «Энергетическая политика» описал состояние энергетической отрасли России  с точки зрения воздействия на экологию.
 

18:12, 15 июля 2024, понедельник
Наверх