BazEkon - Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie

BazEkon home page

Meny główne

Autor
Bernardelli Michał (Warsaw School of Economics, Poland)
Tytuł
Econometric modeling of panel data using parallel computing with Apache Spark
Ekonometryczne modelowanie danych panelowych z wykorzystaniem obliczeń równoległych na Apache Spark
Źródło
Roczniki Kolegium Analiz Ekonomicznych / Szkoła Główna Handlowa, 2016, nr 41, s. 198-202, tab., bibliogr. 17 poz.
Słowa kluczowe
Modelowanie ekonometryczne, Dane panelowe, Big Data, Algorytmy
Econometric modeling, Panel data, Big Data, Algorithms
Uwagi
streszcz., summ.
Abstrakt
Celem artykułu jest przedstawienie sposobu wyznaczania estymatora fixed effects przy użyciu modelu programowania MapReduce zaimplementowanego w Apache Spark. Spośród wielu znanych algorytmów zostały wykorzystane dwa popularne podejścia: transformacja within oraz least squares dummy variables method (LSDV). Efektywność obliczeń wykazano, rozwiązując specjalnie spreparowany przykład dla wygenerowanej losowo próbki danych. Na podstawie analizy teoretycznej i eksperymentów numerycznych można stwierdzić, że Apache Spark jest efektywnym narzędziem do modelowania danych panelowych, zwłaszcza jeśli chodzi o Big Data. (abstrakt oryginalny)

The aim of this article is to provide a method for determining the fixed effects estimators using MapReduce programming model implemented in Apache Spark. From many known algorithms two common approaches were exploited: the within transformation and least squares dummy variables method (LSDV). Efficiency of the computations was demonstrated by solving a specially crafted example for sample data. Based on theoretical analysis and computer experiments it can be stated that Apache Spark is an efficient tool for modeling panel data especially if it comes to Big Data.(original abstract)
Dostępne w
Biblioteka SGH im. Profesora Andrzeja Grodka
Biblioteka Główna Uniwersytetu Ekonomicznego w Poznaniu
Pełny tekst
Pokaż
Bibliografia
Pokaż
  1. Arellano M., Panel Data Econometrics, Oxford University Press, Oxford 2003.
  2. Baltagi B., Econometric Analysis of Panel Data, Wiley, Chippenham 2013.
  3. Cheney E., Kincaid D., Numerical Mathematics and Computing, Cengage Learning, Boston 2007.
  4. Dean J., Ghemawat S., MapReduce: Simplified Data Processing on Large Clusters, "Communication of ACM" 2008, vol. 51, issue 1, pp. 107-113.
  5. Diggle P., Heagerty P., Liang K. Y., Zeger S., Analysis of Longitudinal Data, Oxford University Press, Oxford 2013.
  6. Gardiner J. C., Luo Z., Roman L. A., Fixed effects, random effects and GEE: What are the differences?, "Statistics in Medicine" 2009, vol. 28, pp. 221-239.
  7. Hsiao Ch., Analysis of Panel Data, Cambridge University Press, New York 2003.
  8. Strub M., Cieszewski Ch. J., Base-age invariance properties of two techniques for estimating the parameters of site index models, "Forest Science" 2006, vol. 52 (2), pp. 182-186.
  9. Tait D., Cieszewski Ch. J., Bella I. E., The stand dynamics of lodgepole pine, "Canadian Journal Forest Research" 1986, vol. 18, pp. 1255-1260.
  10. Ullman J. D., Designing good MapReduce algorithms, "XRDS: Crossroads. The ACM Magazine for Students" 2012, vol. 19, pp. 30-34.
  11. Wooldridge J. M., Introductory Econometrics: A Modern Approach, South-Western, Mason 2013.
  12. Doug L., 3D Data Management: Controlling data volume, velocity, and variety, 2001, http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management- Controlling-Data-Volume-Velocity-and-Variety.pdf (retrieved 2016.04.05).
  13. http://hadoop.apache.org (retrieved 2016.04.05).
  14. http://sortbenchmark.org (retrieved 2016.04.05).
  15. http://spark.apache.org (retrieved 2016.04.05).
  16. http://www.numpy.org (retrieved 2016.04.05).
  17. https://www.python.org (retrieved 2016.04.05)
Cytowane przez
Pokaż
ISSN
1232-4671
Język
eng
Udostępnij na Facebooku Udostępnij na Twitterze Udostępnij na Google+ Udostępnij na Pinterest Udostępnij na LinkedIn Wyślij znajomemu