Preview

Вопросы статистики

Расширенный поиск
Доступ открыт Открытый доступ  Доступ закрыт Только для подписчиков

Применение метода случайного леса для выявления детерминантов заработной платы

https://doi.org/10.34023/2313-6383-2025-32-5-30-36

Аннотация

Статья посвящена анализу предикторов заработной платы на основе данных о вакансиях, публикуемых в открытом доступе на интернет-портале федеральной государственной информационной системы Федеральной службы по труду и занятости «Работа России». Рассматривается вопрос о том, какие детерминанты вакансий определяют уровень заработной платы и делают их наиболее высокооплачиваемыми на рынке труда. Для их выявления автор использует метод машинного обучения «случайный лес».

Качество прогноза методом случайного леса оценивается путем применения показателя средней абсолютной ошибки, который является лучше интерпретируемым в контексте используемой шкалы зависимой переменной. Помимо этого, рассчитаны значения средней квадратичной ошибки и оценки коэффициента детерминации, показывающего долю дисперсии зависимой переменной, объясненной предикторами. Для повышения точности модели проведена настройка гиперпараметров с помощью алгоритма RandomizedSearchCV, позволяющего выбрать из большого множества вариантов наилучшие.

Результаты исследования показали, что в наибольшей мере на размер заработной платы влияет такая характеристика вакансий, как «регион, в котором открыта вакансия», и в относительно меньшей степени (но также существенно) – признаки «профессиональная сфера» и «график работы». Полученные выводы могут быть полезны для понимания факторов формирования конкурентной заработной платы и реализации эффективных мер поддержки на рынке труда.

Об авторе

А. А. Салмина
Российская академия народного хозяйства и государственной службы при Президенте Российской Федерации (РАНХиГС)
Россия

Салмина Алла Александровна – канд. социол. наук, старший научный сотрудник, Центр «Институт социального анализа и прогнозирования», Институт прикладных экономических исследований

119571, г. Москва, пр-т Вернадского, д. 82



Список литературы

1. Martín I. et al. Salary Prediction in the IT Job Market with Few High-Dimensional Samples: A Spanish Case Study // International Journal of Computational Intelligence Systems. 2018. Vol. 11. Iss. 1. P. 1192–1209. doi: https://doi.org/10.2991/ijcis.11.1.90.

2. Wang Z., Sugaya S., Nguyen D. Salary Prediction Using Bidirectional-GRU-CNN Model. Proc. of the Annual Meeting of the Association for Natural Language Processing. Nagoya, March 13th 2019. F3-1. P. 292–295. URL: https://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/F3-1.pdf.

3. Chen J., Mao Sh., Yuan Q. Salary Prediction Using Random Forest with Fundamental Features // Proc. SPIE 12167, Third International Conference on Electronics and Communication; Network and Computer Technology (ECNCT 2021), 1216720 (7 March 2022). doi: https://doi.org/10.1117/12.2628520.

4. Хохлова О.А., Хохлова А.Н., Чойжалсанова А.Ц. Разработка алгоритма анализа вакансий на рынке труда по данным из открытых источников // Вопросы статистики. 2022. № 29(4). С. 33–41. doi: https://doi.org/10.34023/2313-6383-2022-29-4-33-41.

5. Гарафиев И.З., Гарафиева Г.И. Типологизация вакансий инженеров: различие условий размещения работодателем сходных вакансий // Управленческий учет. 2024. № 8. С. 426–432.

6. Шамина Л.К. и др. Региональная дисперсия доходов населения: анализ математических подходов к моделированию // Естественно-гуманитарные исследования. 2023. № 6(50). С. 512–520.

7. Джункеев У. Прогнозирование инфляции в России на основе градиентного бустинга и нейронных сетей // Деньги и кредит. 2024. Т. 83. № 1. C. 53–76.

8. Зарова Е.В., Дубравская Э.И. Метод «случайный лес» в исследовании влияния макроэкономических показателей регионального развития на уровень неформальной занятости // Вопросы статистики. 2020. Т. 27. № 6. С. 37–55. doi: https://doi.org/10.34023/2313-6383-2020-27-6-37-55.

9. Breiman L. Random Forests // Machine Learning. 2001. Vol. 45. P. 5–32. doi: https://doi.org/10.1023/A:1010933404324.

10. Cutler A. Random Forests // Balakrishnan N. et al. (eds) Wiley StatsRef: Statistics Reference Online. N. Bala krishnan et al. (eds). John Wiley & Sons, Ltd, 2014. doi: https://doi.org/10.1002/9781118445112.stat06520.

11. Cutler A., Cutler D.R., Stevens J.R. Random Forests // Zhang C., Ma Y. (eds) Ensemble Machine Learning: Methods and Applications. New York: Springer, 2012. doi: https://doi.org/10.1007/978-1-4419-9326-7_5.

12. Рашка С., Мирджалили В. Python и машинное обучение: машинное и глубокое обучение с использованием Python, scikit-learn и TensorFlow. 2-е изд.: пер. с англ. СПб.: ООО «Диалектика», 2019. 656 с.

13. Грас Дж. Data Science. Наука о данных с нуля: пер. с англ. СПб.: БХВ – Петербург, 2020. 336 с.

14. Джеймс Г. и др. Введение в статистическое обучение с примерами на языке R. Изд. 2-е, испр. Пер. с англ. С.Э. Мастицкого. М.: ДМК Пресс, 2017. 456 с.


Рецензия

Для цитирования:


Салмина А.А. Применение метода случайного леса для выявления детерминантов заработной платы. Вопросы статистики. 2025;32(5):30-36. https://doi.org/10.34023/2313-6383-2025-32-5-30-36

For citation:


Salmina A.A. Application of Random Forest Method to Identify Determinants of Wages. Voprosy statistiki. 2025;32(5):30-36. (In Russ.) https://doi.org/10.34023/2313-6383-2025-32-5-30-36

Просмотров: 29


ISSN 2313-6383 (Print)
ISSN 2658-5499 (Online)