Совершенствование процедур государственного политического управления в сфере демографии и миграции с помощью мультиагентного Deep Reinforcement Learning на примере алгоритма MADDPG
- Авторы: Дождиков А.В.1
-
Учреждения:
- Институт социально-политических исследований ФНИСЦ РАН
- Выпуск: Том 12, № 3 (2025): УПРАВЛЕНЧЕСКИЕ АСПЕКТЫ ГОСУДАРСТВЕННОЙ СЕМЕЙНО-ДЕМОГРАФИЧЕСКОЙ ПОЛИТИКИ
- Страницы: 366-374
- Раздел: УПРАВЛЕНЧЕСКИЕ АСПЕКТЫ ГОСУДАРСТВЕННОЙ СЕМЕЙНО-ДЕМОГРАФИЧЕСКОЙ ПОЛИТИКИ
- URL: https://journals.rudn.ru/public-administration/article/view/46832
- DOI: https://doi.org/10.22363/2312-8313-2025-12-3-366-374
- EDN: https://elibrary.ru/BRCVKY
- ID: 46832
Цитировать
Аннотация
Определены основные социальные, политические и экономические риски, связанные с «перепроизводством» элиты, сокращением среднего класса с учетом неконтролируемой миграции. Для нивелирования рисков предложен общий теоретический подход оптимизации «гиперпараметров» процедур государственного управления, «апгрейда» модели принятия управленческих решений с помощью гибридных систем, основанных на машинном обучении. Проведен эксперимент для 7 регионов с изначально рандомными признаками (число регионов может быть любым). В ходе эксперимента с алгоритмом MADDPG показана возможность реализации сбалансированной миграционной, социально-экономической и ресурсной политики для произвольного числа регионов в условиях нестабильности, хаотических, шумовых процессов и межрегиональной миграции на неограниченный период времени при сохранении основных параметров среды. Обученные ИИ-алгоритмы в совместной деятельности показали рост численности населения, экономический рост и развитие территорий, рациональное использовании имеющихся ресурсов (без их исчерпания), сбалансированную межрегиональную миграцию. Дальнейшее направление исследования предполагает подключение фактора внешней миграции и детализацию факторов межрегиональной миграции, экономического роста и потребления ресурсов в разрезе социальной структуры общества. Перспектива применения - гибридные человеко-машинные системы управления и поддержки принятия решений для сферы государственного управления.
Полный текст
Введение Демографические и миграционные процессы без учета явлений второго- третьего порядка несут в себе риски нестабильности за счет структурных диспропорций [1]. Классический подход [2] предполагает, что политические потрясения происходят в странах с большим количеством молодежи. Но ошибочно предполагать, что в отсутствии «молодежного бугра» [3], являвшегося причиной революций «арабской весны» [4], и показателе демографического воспроизводства населения в пределах 1,4-1,5 не образуются предпосылки к кризисам: сокращение населения приводит к уменьшению экономического потенциала и «дележу» оставшегося. Аналог «молодежного бугра» имеет место в Северо- Кавказском ФО [5], а также в странах Центральной Азии, являвшихся долгое время донорами миграции [6]. Численность элиты может расти[62] и в условиях экономического спада и сокращения населения. Результат - ее «перепроизводство» [7], кризисы - если не находятся направления для экспансии по аналогии с эпохами Крестовых походов, Великих географических открытий[63]. Верхний сегмент среднего класса слабо подвержен мерам стимулирования. Средний сегмент среднего класса чувствителен к государственной поддержке до определенных пределов. Нижний сегмент среднего класса - очень чувствителен, меры государственной поддержки способны улучшить ситуацию, равно как и для сегмента ниже среднего класса. В отношении групп хронической бедности, прекариата [8] и маргинальных слоев зависимость требует изучения. Для реализации демографической политики государство применяет меры как экономические (материнский капитал, льготная семенная ипотека), так и нематериальные - продвижение идей натализма [9] в контексте традиционных ценностей [10], в т.ч. запрет на пропаганду «антинаталистких» идеологий, предполагая, что они оказывают воздействие на матримониальные стратегии молодежи [11]. К настоящему времени меры прямого стимулирования стали малоэффективными: программа льготной ипотеки - причина роста цен на недвижимость, в результате которого средняя площадь новых квартир сократилась в среднем на одну комнату[64]. Квартира без ипотеки недоступна для среднего и нижнего среднего сегментов. Верхний сегмент общества, который может платить ипотеку и получает льготы, покупает инвестици онные квартиры, поддерживая высокие цены. В результате цена на квартиру (на примере Москвы) с февраля 2000 г. (19 743 р.) до февраля 2025 г. (274 856 р.) возросла в 14,66 раз[65], опережая инфляцию. Увеличение цен (ухудшение доступности жилья) и уменьшение площади отрицательно влияют на деторождение. Вторая проблема - дорогое «социальное воспроизводство» для среднего класса, не только в плане финансов, но и времени родителей, затрачиваемого на поддержание социального статуса и последующую передачу его детям. Поэтому методы наталистской пропаганды не работают: «Более обеспеченные семейные пары теряют больше по сравнению с менее обеспеченными супругами, поскольку их время ценится дороже»[66]. Третья проблема - неуправляемые миграционные процессы: «новые граждане» слабо интегрируются в социум, предпочитая анклавы (будущие гетто), монополизируя отдельные отрасли экономики. Но вследствие принципа равенства граждан перед законом они используют жилищные сертификаты и иные льготы в большей мере, чем «старые граждане». В России формируется два «молодежных горба» - в средах элиты и «новых граждан». Средний класс, цементирующий общество, сокращается как в относительных показателях, так и абсолютных, будучи зажатым с нескольких сторон. В случае сценария «архаизации» вследствие разрастания «экономических анклавов» с одной стороны, и жесткой консервативной, традиционалистской государственной политики, возникает риск конфликтов как на национально- религиозной почве, так и по социально- экономическим основаниям. Альтернативой сценарию «архаизации» является эффективное управление, динамическое маневрирование социальными льготами, стимулирующими мерами, культурной политикой, миграционными процессами. Данный подход предполагает трансляцию опыта одних территорий для других и гибкую координацию из федерального центра, выступающего в роли «критика». Внедрение подобной методики связано с теоретическим подходом к политической системе как сложной ансамблевой модели управления и принятия политических решений [12]. Настройка ее гиперпараметров или «апгрейд» существенно улучшает производительность и метрики качества. Для реализации государственной политики необходимо использование способного к самообучению искусственного интеллекта (ИИ). Научная новизна исследования заключается в применении метода Multi- Agent Deep Deterministic Policy Gradient (MADDPG), используемого для киберфизических систем и управления «роем» БПЛА, для нужд государственного управления. Цель исследования - построить модель взаимодействия агентов- управляющих региональным развитием по набору показателей, проиллюстрировать возможность использования ИИ-инструментов для обеспечения демографического роста, стабилизации затрат ресурсов и миграционных процессов. Материалы и методы исследования Сложные процессы требуют применения методов глубокого обучения с подкреплением. Алгоритм используется для многоагентных динамических сред, позволяет агентам учиться взаимодействовать друг с другом: каждый обучается оптимальной стратегии, основываясь на собственных наблюдениях и действиях других, что делает метод адаптивным и гибким. Основная проблема обучения с подкреплением у моделей типа DQN (Deep Q-Learning, [13]) - «нестатистичность» среды, градиент политики страдает от увеличения дисперсии с ростом числа агентов. Обученный один раз алгоритм трудно масштабировать (в Российской Федерации - 89 регионов). Созданная для отдельных регионов модель или наработанная политика непригодны для остальных. Алгоритм MADDPG [14] применяется в управлении беспилотными [15] и военными системами [16], эффективен для смешанных кооперативно- конкурентных сред [17], является одним из прообразов перспективного «коллективного искусственного интеллекта» [18; 19]. MADDPG расширяет метод Deep Deterministic Policy Gradients (DDPG) для кооперативной или конкурентной работы в сложных средах. MADDPG[67] учитывает политику действий других агентов и способен успешно обучаться политикам, требующим сложной координации между ИИ-агентами. Вводится режим тренировки с использованием ансамбля политик для каждого агента для создания устойчивых многоагентных сообществ. Метод предполагает централизованное планирование и децентрализованное выполнение: у каждого агента есть прямой доступ к локальным наблюдениям, во время обучения все агенты управляются центральным модулем, во время тестирования он деактивируется, а агенты со своими политиками и локальными данными остаются. MADDPG включает минимакс- стратегию, которая регулирует политику каждого агента, чтобы он действовал оптимально даже в самом худшем случае. Для управления важна возможность реализации мультиагентного сотруд ничестества и кооперации, постановки общих целей, обмена информацией, кооперации и синхронизации действий, что гораздо эффективнее обычных методов глубокого обучения с подкреплением в условиях сложных сред [20]. Результаты исследования Для эксперимента использован фреймворк машинного обучения для языка Python с открытым исходным кодом PyTorch, создана динамическая модель среды без детализации на отдельные социально- экономические показатели: население зависит от привлекательности реализуемых в городах политик; экономический рост связан с населением и текущей политикой; ресурсы истощаются пропорционально экономической активности. Функция вознаграждения агентов включает: награду за поддержание баланса населения, экономического роста, устойчивости ресурсов, согласованности действий с соседями. Агенты учатся балансировать между привлечением населения и сохранением ресурсов; формируются кластеры регионов с согласованными политиками: система приходит к состоянию динамического равновесия с умеренными колебаниями показателей, обусловленными случайными факторами. Сгенерировано 7 профилей регионов (число может быть любым). Обучение осуществлялось в течение 100 эпох на 200 шагов в каждой, так как задача требует поддержания баланса вдолгосрок. Псевдослучайные показатели на старте зафиксированы, и результаты эксперимента могут быть воспроизведены. В коде[68] представлены: модель среды, включающая создание рандомных профилей регионов (с численностью населения от 0,5 до 1,5), механизм расчета миграционных потоков, факторы экономического роста и потребления ресурсов, функция награды. Создана архитектура актор- критик, предполагающая децентрализованную политику для каждого агента, принимающего решения и централизованную функцию ценности для критика. Реализован класс MADDPG, имеющий функцию добавления хаотических эффектов, создание агентов по числу регионов. После 20 эпизода ИИ-система обучилась (суммарная награда примерно равна 100) и смогла поддерживать это состояние на протяжении оставшихся эпох. На графике (рис. а) приведена функция награды и относительно стабильное «плато» обучения после 20-го эпизода. Результаты эксперимента показали общий прирост населения (рис. б), при этом поддерживался устойчивый рост экономики, баланс миграционных процессов и не допускалось исчерпание ресурсов. а б Динамика обучения ИИ-агентов (а), состояния регионов по численности населения на начало и окончание эксперимента (б) Источник: выполнено А.В. Дождиковым в среде Python c помощью фреймворка для работы с нейросетями PyTorch при реализации класса MADDPG. Заключение Базовым ограничением эксперимента выступает время обучения и производительность оборудования, включая графические ускорители. Стратегия преодоления ограничений предусматривает распараллеливание обучения, либо изменение архитектуры, например, 2-3-этапное обучение: сначала обучается несколько «агентов инноваций», далее к ним добавляются необ ученные, с которыми первые делятся опытом. Второй вариант предполагает разделение регионов на группы подобия по социально- экономическим признакам с помощью стандартных методов кластеризации c обучением представителей и последующим распространением опыта. ИИ-агент управления регионом, основываясь на собственном опыте и опыте соседей, сможет: предсказать миграционные тренды, разработать инициативы для улучшения демографических показателей; моделировать сценарии, направленные на улучшение условий жизни; адаптировать стратегию миграции; оптимизировать снабжение ресурсами и сектор услуг; гибко реагировать на изменения спроса на услуги и планировать развитие инфраструктуры; организовывать взаимодействие с другими ИИ, обмениваясь данными и опытом. Метод MADDPG предоставляет инструментарий для управления социальными процессами. Интеграция многоагентных систем в управление позволяет государственным ведомствам более гибко и эффективно реагировать на изменения в демографии и миграции, подобный класс методов может стать ключевым элементом в управлении, создавая устойчивые и адаптивные системы. Реализация модели «актор- критик» в MADDPG соответствует структуре государственного управления в Российской Федерации: «критик» - федеральный центр, «акторы» - агенты управления в округах и регионах, что создает возможность «апгрейда» процедур управления и принятия решений.Об авторах
Антон Валентинович Дождиков
Институт социально-политических исследований ФНИСЦ РАН
Автор, ответственный за переписку.
Email: antondnn@yandex.ru
ORCID iD: 0000-0002-1069-1648
SPIN-код: 2208-1891
кандидат политических наук, старший научный сотрудник, кафедра ЮНЕСКО
Россия, 119333, Москва, ул. Фотиевой, д. 6, корп. 1Список литературы
- Зинькина Ю.В., Шульгин С.Г. Молодежные бугры как фактор социально-политической нестабильности // Вестник Московского университета. Серия 27: Глобалистика и геополитика. 2020. № 1. С. 41–52. https://doi.org/10.56429/2414-4894-2020-31-1-41-52 EDN: DREPPQ
- Goldstone J.A. Revolution and rebellion in the early modern world. Berkeley : University of California Press, 1991. 608 p.
- Нефедов С.А. «Молодежный бугор» и первая русская революция // Социологические исследования. 2015. № 7 (375). С. 140–147. EDN: UCFOCB
- Коротаев А.В., Исаев Л.М. Революция бугров и разломов // Эксперт. 2012. № 30/31 (462). Спецвыпуск. С. 7–10.
- Муртузалиева Д.Д., Симагин Ю А., Ванькина И.Н. Динамика численности населения северокавказских регионов России в 2010–2022 годах // Народонаселение. 2022. Т. 25. № 3. С. 33–45. https://doi.org/10.19181/population.2022.25.3.3 EDN: BSBPER
- Акрамов Ш.Ю., Блиничкина Н.Ю. Демографическая безопасность в контексте международной миграции // ДЕМИС. Демографические исследования. 2023. Т. 3. № 2. С. 28–39. https://doi.org/10.19181/demis.2023.3.2.2 EDN: CESKQP
- Turchin P. Political instability may be a contributor in the coming decade // Nature. 2010. Vol. 463. P. 608. https://doi.org/10.1038/463608a
- Попов А.В. От прекарной занятости к прекариату // Социологические исследования. 2020. № 6. С. 155–160. https://doi.org/10.31857/S013216250009300-3 EDN: YOXAYW
- Клупт М.А. Проблемы семьи и рождаемости в ценностных конфликтах 2010-х гг. // Социологические исследования. 2021. № 5. С. 36–46. https://doi.org/10.31857/S013216250014119-3 EDN: TAKIRG
- Свадьбина Т.В., Немова О.А. Российская семья как хранитель и транслятор традиционных национальных ценностей // Вестник Мининского университета. 2023. Т. 11. № 4 (45). С. 14. https://doi.org/10.26795/2307-1281-2023-11-4-14 EDN: EHHNCH
- Благорожева Ж.О., Шаповалова И.С. Влияние альтернативных ценностей и установок на матримониальные стратегии молодежи // Социальная политика и социология. 2024. Т. 23. № 2 (151). С. 30–39. https://doi.org/10.17922/2071-3665-2024-23-2-30-39 EDN: HTXQXM
- Дождиков А.В. Политическая система как модель машинного обучения // Технологии социально-гуманитарных исследований. 2024. № 2 (6). С. 9–24. EDN: MTPDDQ
- Li Sh. Reinforcement learning for sequential decision and optimal control. 1st ed. Singapore : Springer, 2023. 460 p. https://doi.org/10.1007/978-981-19-7784-8
- Fu X., Wang H., Xu Z. Cooperative pursuit strategy for multi-UAVs based on DE-MADDPG algorithm // Acta Aeronautica et Astronautica Sinica. 2022. Vol. 43. № 5. P. 325311. https://doi.org/10.7527/S1000-6893.2021.25311 EDN: XBKXBQ
- Liu Bo., Wang Sh., Li Q., Zhao X., Pan Yu., Wang Ch. Task assignment of UAV swarms based on deep reinforcement learning // Drones. 2023. Vol. 7. № 5. P. 297. https://doi.org/10.3390/drones7050297 EDN: STKSJG
- Li W., Chen X., Yu W., Xie M. Multiple unmanned aerial vehicle coordinated strikes against ground targets based on an improved multi-agent deep deterministic policy gradient algorithm // Proceedings of the Institution of Mechanical Engineers. Part I: Journal of Systems and Control Engineering. 2024. https://doi.org/10.1177/09596518241291185 EDN: WXEPFO
- Wei X., Huang X., Yang L.F. et al. Hierarchical RNNs-based transformers MADDPG for mixed cooperative-competitive environments // Journal of Intelligent and Fuzzy Systems. 2022. Vol. 43. № 1. P. 1011–1022. https://doi.org/10.3233/JIFS-212795 EDN: HLEHUN
- Wang Zh., Guo Ya., Li N., Hu Sh., Wang M. Autonomous collaborative combat strategy of unmanned system group in continuous dynamic environment based on PD-MADDPG // Computer Communications. 2023. Vol. 200. P. 182–204. https://doi.org/10.1016/j.comcom.2023.01.009 EDN: ROHQUW
- Zhao M., Wang G., Fu Q. et al. MW-MADDPG: A meta-learning based decision-making method for collaborative UAV swarm // Frontiers in Neurorobotics. 2023. Vol. 17. https://doi.org/10.3389/fnbot.2023.1243174 EDN: NPYWPK
- Chen Zh. DQN-MADDPG Coordinating the multi-agent cooperation // Highlights in Science, Engineering and Technology. 2023. Vol. 39. P. 1141–1145. https://doi.org/10.54097/hset.v39i.6720 EDN: XKQISV
Дополнительные файлы










