В работе решена задача кластеризации регионов Российской Федерации по социально-экономическому развитию с учетом отраслевой структуры валового регионального продукта. Инструментом решения задачи кластеризации являются классические методы машинного обучения. Исходная база данных включает реальные статистические данные по социально-экономическому развитию субъектов РФ и отраслевой структуре их валового регионального продукта за 2019 год. Для выявления кластеров регионов по социально-экономическому развитию применены современные методы машинного обучения, реализованные на высокоуровневом языке программирования Python с подключением библиотек для работы с данными: Pandas, Sklearn, SciPy и др. Выполнена предобработка исходной информации: оцифровка категорий данных, переход к удельным величинам, стандартизация показателей. Исходный набор данных за 2019 год содержит 5525 записей по 65 показателям социально-экономического развития 85 регионов РФ. На основе метода главных компонент выделено 15 базовых индикаторов социально-экономического развития региона, по ним методом k-средних определены пять региональных кластеров: первый кластер характеризируется высокой долей в структуре ВРП оптовой и розничной торговли, операций с недвижимым имуществом, профессиональной, научной и технической деятельности; второй кластер специализируется на обрабатывающем производстве, оптовой и розничной торговле, деятельности по операциям с недвижимым имуществом, сельском и лесном хозяйстве; третий можно описать как кластер со смешанной экономикой, для которого характерны средние значения по основным социально-экономическим показателям в РФ; в регионах, относящихся к четвертому кластеру, наблюдается высокий уровень безработицы, при этом выявлена высокая доля государственного управления и обеспечения военной безопасности, социального обеспечения; пятый кластер специализируется на добыче полезных ископаемых
Ключевые слова
валовой региональный продукт, метод главных компонент, кластерный анализ, социально-экономические показатели, машинное обучение, отраслевая структура