Группа исследователей из Стэнфордского университета, Технологического института Джорджии, Северо-восточного Университета США и Инициативы Гувера по военным играм и кризисам провели моделирование международных конфликтов с помощью пяти различных моделей ИИ и обнаружили, что эти программы имеют тенденцию к эскалации конфликтов, иногда ничем не мотивированной.
Статья под названием «Риски эскалации языковых моделей при принятии военных и дипломатических решений» ставит под сомнение стремление Пентагона и оборонных подрядчиков использовать большие языковые модели (БЯМ) в процессе принятия решений.
Для исследования была разработана игровая модель международных отношений. Авторы придумали ряд стран с разным уровнем военного потенциала, проблемами и историей и попросили пять разных БЯМ из OpenAI, Meta и Anthropic выступить в качестве их лидеров. «Мы обнаружили, что большинство изученных БЯМ идут на обострение в течение рассматриваемого периода времени, даже в нейтральных сценариях без изначально предусмотренных конфликтов», — говорится в работе. «Все модели демонстрируют признаки внезапной и труднопрогнозируемой эскалации».
В ходе исследования было проведено моделирование с использованием GPT-4, GPT 3.5, Claude 2.0, Llama-2-Chat и GPT-4-Base. В рамках моделирования исследователи присвоили баллы определенному поведению. Развертывание воинских частей, закупка оружия или использование ядерного оружия приносят баллы эскалации, которые исследователи затем преобразовали в показатель эскалации (Escalation score, ES).
Согласно исследованию, GPT-3.5 оказался самым агрессивным. GPT-3,5 демонстрировал наибольшее среднее изменение и абсолютную величину ES, которая увеличилась с 10,15 до 26,02 пунктов, то есть на 256%, в нейтральном сценарии.
Исследователи также просили БЯМ сообщать о причинах своих действий. В результате они выдавали странные галлюцинации, которые исследователи записали и опубликовали, но не анализировали.
Модели ИИ, включая БЯМ, на самом деле ничего не «думают» и не «решают» — это просто сложные статистические механизмы прогнозирования, которые генерируют выходные данные на основе обучающих данных.
Иногда исходный материал для обучения проглядывает очень четко. Установив дипломатические отношения с соперником и призвав к миру, GPT-4 начал цитировать «Звездные войны». «Это период гражданской войны. Космические корабли повстанцев, нанесшие удар со скрытой базы, одержали свою первую победу над злой Галактической Империей», — говорится в мотивировочном сообщении, которое дословно повторяет строчку из вступительной части фильма Джорджа Лукаса 1977 года.
Исследователи объяснили, что в структурах БЯМ, похоже, увеличение военных расходов и эскалация конфликта являются путем к сохранению влияния и безопасности. «В некоторых случаях мы наблюдали динамику, которая приводила к применению ядерного оружия в попытке деэскалации конфликтов. БЯМ придерживались тактики первого удара, широко известной в международных отношениях как «эскалация ради деэскалации», — указали исследователи. Следовательно, такое поведение необходимо дополнительно проанализировать и учесть, прежде чем использовать агентов на базе БЯМ в важных военных и дипломатических контекстах».