Большие данные и официальная статистика
https://doi.org/10.34023/2313-6383-2019-26-12-5-14
Аннотация
Большие данные - одна из составляющих четвертой промышленной революции. Глубокое внедрение цифровой технологии в экономику способствовало тому, что информация стала неотъемлемым элементом производственного процесса. Большие данные создаются в процессе работы машины, взаимодействия человека с машиной и взаимодействия между людьми. В статье последовательно рассматриваются вопросы, вытекающие из ее названия. Прежде всего, раскрывается содержание понятия ≪большие данные≫, отмечается, что это не только цифры в традиционном понимании, но и текстовая часть, аудио- и видеозаписи в социальных сетях, фотографии, спутниковые изображения, электронные письма, программы, приложения и многое другое. Автор проводит различие между неструктурированными и структурированными данными, отмечая, что последние - это в основном количественные данные, которые представлены в базе данных с заранее определенной моделью для их хранения, обработки и распространения. Анализируя такой новый и, безусловно, революционный источник информации, каковым являются большие данные, автор оценивает их с точки зрения соответствия основным критериям и базовым принципам качества данных, таким как достоверность, возможность обеспечения сопоставимости, точность и надежность, правильное использование методологии. Отмечается, что тема больших данных вызывает чрезвычайный интерес у статистиков, которые рассматривают их как дополнительный источник сведений в условиях бурного развития информационных технологий. При этом некоторые пользователи переоценивают их потенциал и часто трактуют большие данные как предстоящую замену официальной статистики. Однако, по мнению автора, такое заключение является преждевременным; использовать большие данные необходимо с определенной осторожностью. Автор статьи отмечает два важных момента. Во-первых, для значительного числа пользователей интерес представляет только часть больших данных, а именно структурированные данные, в результате чего объем первых значительно сокращается. Во-вторых, как наукой, так и практикой доказано, что для получения достоверных результатов достаточно наблюдать небольшое число единиц, отобранных на основе случайной выборки (выборочной совокупности). В статье также дается критическая оценка больших данных с точки зрения других национальных базовых принципов, принятых ООН для обеспечения качества статистических данных. Особо выделяются проблемы, связанные с мониторингом достижения Целей устойчивого развития (ЦУР). Автор отмечает, что за данные, предоставляемые официальной статистикой, несут ответственность национальные статистические управления (НСУ). В отсутствие какой-либо институциональной ответственности надежность больших данных может быть поставлена под сомнение. В заключение подчеркивается, что пригодность больших данных определяется обоснованностью предположений, которые устанавливаются в ходе трансформации неструктурированного массива информации для проведения некоторого количественного измерения. В противном случае, по мнению автора, возможно проникновение в информационное поле потока нестатистической количественной информации в большом объеме, которая может дезинформировать общество и привести органы государственного управления и бизнеса к принятию неверных решений.
Ключевые слова
Об авторе
Ш. УпадхьяяАвстрия
Упадхьяя Шьям - Ph.D. (экономическая статистика), главный статистик Организации Объединенных Наций по промышленному развитию, ЮНИДО. Vienna International Centre, Wagramer Strasse 5, P.O. Box 300, A-1400, Vienna, Austria
Список литературы
1. Венецкий И.Г., ВенецкаяВ.И. Основные математико-статистические понятия и формулы в экономическом анализе. М.: Статистика, 1974. 279 с.
2. Cochran W. Sampling Techniques. New York: John Wiley & Sons, 1999. 428 p.
3. Kaplan R.M., Chambers D.A., Glasgow R.E. Big Data and Large Sample Size: A Cautionary Note on the Potential for Bias // CTS Journal. 2014. Vol. 7. Iss. 4. P. 342-346. doi: https://doi.org/10.1111/cts.12178.
4. Национальные базовые принципы обеспечения качества. Доклад Генерального секретаря ООН. 2012. URL: https://unstats.un.org/unsd/statcom/doc12/2012-13-NQAF-R.pdf.
5. Upadhyaya S., Kynclova P. Big Data - Its Relevance and Impact on Industrial Statistics. Vienna: UNIDO, 2017.
6. Cox D.R., Kartsonaki C., Keogh R.H. Big Data: Some Statistical Issues // Statistics & Probability Letters. 2018. Vol. 136. P. 111-115. doi: https://doi.org/10.1016/j.spl.2018.02.015.
7. Calleja R., Rogerson A. Financing Challenges for Developing Statistical Systems: A review of Financing Options. PARIS21 Discussion Paper, No. 14. Paris, 2019. URL: https://paris21.org/sites/default/files/2019-01/Financing%20challenges%20for%20developing%20statistical%20systems%20%28DP14%29.pdf.
8. UN Statistical Commission. Cape Town Global Action Plan for Sustainable Development Data. Adopted by the UN Statistical Commission at its 48th Session, March 2017. URL: https://unstats.un.org/sdgs/hlg/Cape_Town_Global_Action_Plan_for_Sustainable_Development_Data.pdf.
9. Sachs J. et al. Sustainable Development Report 2019. New York: Bertelsmann Stiftung and Sustainable Development Solutions Network (SDSN), 2019. URL: https://s3.amazonaws.com/sustainabledevelopment.report/2019/2019_sustainable_development_report.pdf.
Рецензия
Для цитирования:
Упадхьяя Ш. Большие данные и официальная статистика. Вопросы статистики. 2019;26(12):5-14. https://doi.org/10.34023/2313-6383-2019-26-12-5-14
For citation:
Upadhyaya S. Big Data and Official Statistics. Voprosy statistiki. 2019;26(12):5-14. (In Russ.) https://doi.org/10.34023/2313-6383-2019-26-12-5-14