BazEkon - The Main Library of the Cracow University of Economics

BazEkon home page

Main menu

Author
Maślankowski Jacek (Uniwersytet Gdański)
Title
Analiza jakości danych pozyskiwanych ze stron internetowych z wykorzystaniem rozwiązań Big Data
Big Data quality analysis on data retrieved from websites
Source
Roczniki Kolegium Analiz Ekonomicznych / Szkoła Główna Handlowa, 2015, nr 38, s. 167-177, tabl., bibliogr. 18 poz.
Keyword
Big Data, Badania statystyczne, Normalizacja, Cykl życia
Big Data, Statistical surveys, Normalization, Life cycles
Note
streszcz., summ
Abstract
Podczas przygotowywania badania statystycznego dużą wagę przywiązuje się do jakości danych. W wynikach badań reprezentacyjnych są sprawdzane w szczególności błędy standardowe. W przypadku odchyleń dla błędów względnych, najczęściej przekraczających 10%, uznaje się, że dane są mało wiarygodne. Coraz częściej w literaturze można zetknąć się z zastosowaniem systemów Big Data do wspierania realizacji różnego rodzaju badań, w tym statystycznych. Celem jest przede wszystkim zmniejszenie kosztów związanych z realizacją badania tradycyjną metodą, tj. przez sieć ankieterską lub zlecając realizację podmiotom zewnętrznym. Pytanie zatem brzmi: czy w przypadku rozwiązań Big Data można mówić o danych dobrej jakości? Celem niniejszego artykułu jest zbadanie możliwości wyprodukowania dobrej jakości danych statystycznych pozyskanych dzięki zastosowaniu tych systemów. W pierwszej części przedstawiono przesłanki związane z wykorzystaniem systemów Big Data do badania różnego rodzaju zjawisk. Druga część obrazuje istotę zastosowań tych systemów i możliwość ich szerokiego zastosowania również przez administrację publiczną. W trzeciej części zawarto definicję jakości danych z wykorzystaniem systemów Big Data. W czwartej części znajduje się opis rozwiązania testowego oraz wyniki przeprowadzonego pilotażu oceny jakości danych pozyskiwanych z tych systemów. Piąta część prezentuje propozycję szablonu jakości danych w kontekście przetwarzania ich z zastosowaniem rozwiązań Big Data. W ostatniej części zostały zamieszczone wnioski i plany dalszych prac w tym obszarze. (fragment tekstu)

The article presents a proposition of a Big Data quality framework in terms of processing Big Data sources to produce statistical information. The case used in the article concerns job offers that generate information about the demand of the labour market. The analyses has resulted in a suggestion of several quality dimensions with indicators.(original abstract)
Accessibility
The Library of Warsaw School of Economics
The Main Library of Poznań University of Economics and Business
Bibliography
Show
  1. Boja C., Pocovnicu A., Bătăgan L., Distributed Parallel Architecture for "Big Data", "Informatica Economica" 2012, vol. 16, issue 2, s. 116-127.
  2. Chen M., Mao S., Liu Y., Big Data: A Survey, "Mobile Network Applications" 2014, no. 19,s. 171-209.
  3. Das T. K., Kumar P. M., BIG Data Analytics: A Framework for Unstructured Data Analysis, "International Journal of Engineering Science & Technology" 2013, vol. 5, issue 2, February, s. 153-156.
  4. Gang-Hoon K., Trimi S., Ji-Hyong C., Big-Data Applications in the Government Sector, "Communications Of The ACM" 2014, vol. 57, no. 3, s. 78-85.
  5. Haug A., Arlbjorn J. S., Zachariassen F., Schlichter J., Master data quality barriers: an empirical investigation, "Industrial Management & Data Systems" 2014, vol. 113, no. 2, s. 234-249.
  6. Hazen B., Boone C., Ezell J., Jones-Farmer L. A., Data quality for data science, predictive analytics,and big data in supply chain management: An introduction to the problem and suggestions for research and applications, "International Journal of Production Economics" 2014, vol. 154,August, s. 72-80.
  7. Kordos J., Dokładność danych w badaniach społecznych, "Biblioteka Wiadomości Statystycznych"(GUS) 1987, t. 35.
  8. Kuiler E. W., From Big Data to Knowledge: An Ontological Approach to Big Data Analytics,"Review of Policy Research" 2014, vol. 31, issue 4, July, s. 311-318.
  9. Kwon O., Lee N., Shin B., Data quality management, data usage experience and acquisition intention of big data analytics, "International Journal of Information Management" 2014,vol. 34, issue 3, June, s. 387-394.
  10. Maślankowski J., Data Quality Issues Concerning Statistical Data Gathering Supported by Big Data Technology, "Communications in Computer and Information Science" 2014, no. 424, s. 92-101.
  11. Maślankowski J., The integration of web-based information and the structured data in data warehousing, "Lecture Notes in Business Information Processing" 2013, no. 161, s. 66-75.
  12. Mone G., Beyond Hadoop, "Communications of the ACM" 2013, vol. 56, issue 1, January, s. 22-24.
  13. Płoszajski P., Big Data: nowe źródło przewag i wzrostu firm, "E-mentor" 2013, nr 3 (50), s. 5-10.
  14. Suciu G., Vulpe A., Todoran G., Militaru T.-L., Cloud Computing and Big Data as Convergent Technologies for Mobile E-Learning, "Elearning & Software for Education" 2014, issue 1,s. 113-120.
  15. Szreder M., Metody i techniki sondażowych badań opinii, PWE, Warszawa 2004.
  16. Wang R. Y., Strong D. M., Beyond Accuracy: What Data Quality Means to Data Consumers, "Journal of Management Information Systems" 1996, vol. 12, no. 4, s. 5-34.
  17. Wright A., Big Data Meets Big Science, "Communications of the ACM" 2014, vol. 57, issue 7, July, s. 13-15.
  18. http://www.stat.gov.pl/gus/5466_PLK_HTML.htm (data odczytu: 24.08.2014).
Cited by
Show
ISSN
1232-4671
Language
pol
Share on Facebook Share on Twitter Share on Google+ Share on Pinterest Share on LinkedIn Wyślij znajomemu