BazEkon - Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie

BazEkon home page

Meny główne

Autor
Dudek Andrzej (Wrocław University of Economics, Poland)
Tytuł
Classification of Large Data Sets : Comparison of Performance of Chosen Algorithms
Klasyfikacja dużych zbiorów porównanie wydajności wybranych algorytmów
Źródło
Acta Universitatis Lodziensis. Folia Oeconomica, 2013, t. 285, s. 71-77, tab., rys., bibliogr. 10 poz.
Tytuł własny numeru
Multivariate Statistical Analysis Theory and Practice
Słowa kluczowe
Algorytmy, Analiza skupień, Teoria zbiorów
Algorithms, Cluster analysis, Set theory
Abstrakt
Klasyfikacja dużych zbiorów porównanie wydajności wybranych algorytmów Badacze analizujący przy pomocy metod analizy skupień duże (> 100.000 obiektów) zbiory danych, stają często przed problemem złożoności obliczeniowej algorytmów, uniemożliwiającej niekiedy przeprowadzenie analizy w akceptowalnym czasie. Jednym z rozwiązań tego problemu jest stosowanie mniej złożonych obliczeniowo algorytmów (hierarchiczne aglomeracyjne, k-średnich), które z kolei mogą w wielu sytuacjach dawać zdecydowanie gorsze rezultaty niż np. algorytmy wykorzystujące dekompozycję względem wartości własnych. Rezultaty rzeczywistych analiz tego typu zbiorów są więc zazwyczaj kompromisem pomiędzy jakością a możliwościami obliczeniowymi komputerów. Artykuł jest próbą przedstawienia aktualnego stanu wiedzy na temat klasyfikacji dużych zbiorów danych oraz wskazania dróg rozwoju i problemów otwartych. (abstrakt oryginalny)

Researchers analyzing large (> 100,000 objects) data sets with the methods of cluster analysis often face the problem of computational complexity of algorithms, that sometimes makes it impossible to analyze in an acceptable time. Common solution of this problem is to use less computationally complex algorithms (like k-means), which in turn can in many cases give much worse results than for example algorithms using eigenvalues decomposition. The results of analysis of the actual sets of this type are therefore usually a compromise between quality and computational capabilities of computers. This article is an attempt to present the current state of knowledge on the classification of large datasets, and identify ways to develop and open problems. (original abstract)
Dostępne w
Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie
Biblioteka Szkoły Głównej Handlowej
Biblioteka Główna Uniwersytetu Ekonomicznego w Katowicach
Biblioteka Główna Uniwersytetu Ekonomicznego w Poznaniu
Biblioteka Główna Uniwersytetu Ekonomicznego we Wrocławiu
Bibliografia
Pokaż
  1. Bock H.H., Diday E. (eds.) (2000), Analysis of symbolic data. Explanatory methods for extracting statistical information from complex data, Springer-Verlag, Berlin.
  2. Diday E., Noirhomme-Fraiture M. (eds.) (2008), Symbolic Data Analysis with SODAS Software, John Wiley & Sons, Chichester.
  3. Dimitriadou E., Weingessel A., Hornik K. (2001), Voting-Merging: An Ensemble Method for Clustering, [in:] G. Dorffher, H. Bischop, K. Hornik (eds.), Artificial Neural Networks - ICANN 2001, Lecture Notes in Computer Science volume 2130 Springer, Berlin / Heidelberg, 217-224
  4. Everitt B.S., Landau S., Leese M. (2001), Cluster analysis, Edward Arnold, London.
  5. Gordon A.D. (1999), Classification, Chapman & Hall/CRC, London.
  6. Hubert L.J., Arabie P. (1985), Comparing partitions. "Journal of Classification", no. 2, 193-218.
  7. Kaufman L., Rousseeuw P.J. (1990), Finding groups in data: an introduction to cluster analysis, Wiley, New York.
  8. Ng A., Jordan M., Weiss Y. (2002), On spectral clustering: analysis and an algorithm, [w:] T. Dietterich, S. Becker, Z. Ghahramani (Eds.), Advances in Neural Information Processing Systems 14. MIT Press, 849-856.
  9. Walesiak M., Dudek A. (2010), Klasyfikacja spektralna z wykorzystaniem odległości GDM, Prace Naukowe UE we Wrocławiu nr 107, 161-171.
  10. Walesiak M., Dudek A. (2011), clusterSim package, URL http://www.R-project.org.
Cytowane przez
Pokaż
ISSN
0208-6018
Język
eng
Udostępnij na Facebooku Udostępnij na Twitterze Udostępnij na Google+ Udostępnij na Pinterest Udostępnij na LinkedIn Wyślij znajomemu