BazEkon - Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie

BazEkon home page

Meny główne

Autor
Najman Kamila
Tytuł
Analiza podobieństwa wyników grupowania uzyskanych w oparciu o metodę k-średnich dla wybranych metod ustalania optymalnej liczby skupień
Similarity Analysis Grouping Results Basis of Algorithm K-means for Selected Methods Determining the Number of Clusters
Źródło
Prace i Materiały Wydziału Zarządzania Uniwersytetu Gdańskiego, 2007, nr 5, s. 601-610, tab., rys., bibliogr. 23 poz.
Słowa kluczowe
Analiza skupień, Analiza wskaźnikowa, Badania naukowe, Indeksy oceny klastrów
Cluster analysis, Ratio analysis, Scientific research, Cluster validity indices
Uwagi
summ.
Abstrakt
Przedstawiono wybrane, najczęściej opisywane w literaturze mierniki służące do oceny podobieństwa wyników dwóch klasyfikacji, takie jak: miara Rand`a, skorygowana miara Rand`a, współczynniki Jaccard`a i indeks Fowkles`a i Mallows`a. Własności tych mierników weryfikowano na przygotowanych 15 zbiorach testowych.

Clustering is an unsupervised classification scheme where no a priori knowledge of data set is available. The prediction of correct number of clusters is a fundamental problem in classification problem. Many clustering algorithms require the definition of the number of clusters beforehand. To overcome this problem, various cluster validity indices have been proposed to assess the quality of a clustering partition. In the literature of clustering, a large number of cluster validity indices are there. In this article, a cluster validity indexes and its methodology were described, which can provide a measure of goodness of clustering on different partitions of a data set. Results were demonstrating basis of k-means algorithm. Cluster validity indexes may be an effective tool to discovery knowledge in data sets. The problem of measuring the correspondence between partitions of an object set has attracted substantial interest in the literature of classification. A possibility of comparison between different partitions for example by different classification methods, different combinations of characteristics, observations from different periods, of a given set, is considered. In this paper, there is presented well-known measures of classification partition, like Rand Statistic, Jaccard Coefficient, Fowlkes and Mallows index. The resulting between partitions were defined the following indices to measure the degree of similarity. Theoretical considerations are illustrated by the 15 numerical examples. (original abstract)
Dostępne w
Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie
Biblioteka Szkoły Głównej Handlowej
Biblioteka Główna Uniwersytetu Ekonomicznego w Katowicach
Biblioteka Główna Uniwersytetu Ekonomicznego w Poznaniu
Biblioteka Główna Uniwersytetu Ekonomicznego we Wrocławiu
Bibliografia
Pokaż
  1. Arabie P., Boorman S.A. (1973), Multidimensional scaling of measures of distance between partitions, Journal of Mathematical Psychology, 10.
  2. Ayala G., Epifanio I., Simó A., Zapater V. (2006), Clustering of spatial point patterns, Computational Statistics & Data Analysis 50.
  3. Ball G., Hall D.J., (1965), ISODATA, A novel method of data analysis and pattern classification. Menlo Park: Stanford Research Institute.
  4. Calinski R.B., Harabasz J. (1974), A dendrité method for cluster analysis. Communications in Statistics, 3.
  5. Davies D.L., Bouldin D.W. (1979), A cluster separation measure. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1.
  6. Fowkles E.B., Mallows C.L. (1983), A Method for Comparing two hierarchical clusterings, Journal of the American Statistical Association, 78.
  7. Friedman H.P., Rubin J. (1967), On some invariant criteria for grouping data. Journal of the American Statistical Association, 62.
  8. Goodman L.A., Kruskal W.H. (1979), Measures of association for cross classifications, Springer-Verlag, New York, Heidelberg.
  9. Gordon A.D. (1987), A review of hierarchical classification, Journal of the Royal Statistical Society ser. A.
  10. Hartigan J.A. (1975), Clustering Algorithms. New York, Wiley.
  11. Hubert L.J., Arabie P. (1985), Comparing partitions, Journal of Classification, no. 1.
  12. Kaufman L., Rousseeuw P.J. (1990), Finding Groups in Data, A Wiley-Interscience Publication, John Wiley & Sons, Inc.
  13. Maimon O., Rokach L. (2005), Data mining and knowledge discovery handbook, Springer.
  14. Mirkin B. (2005), Clustering for Data Mining, Chapman&Hall/CRC.
  15. Najman K., Najman K. (2005), Analityczne metody ustalania liczby skupień, Prace Naukowe Akademii Ekonomicznej we Wrocławiu, Nr 1076
  16. Taksonomia 12, Klasyfikacja i analiza danych - teoria i zastosowania, Wrocław.
  17. Najman K., Najman K. (2006), Analityczne metody ustalania liczby skupień w rozmytych zbiorach danych. Prace Naukowe Akademii Ekonomicznej we Wrocławiu, Taksonomia 13: Klasyfikacja i analiza danych - teoria i zastosowania.
  18. Nowak E. (1985), Wskaźnik podobieństwa wyników podziału, Przegląd Statystyczny, z. l.
  19. Rand W.M. (1971), Objective criteria for the evaluation of clustering methods, Journal of the American Statistical Association, vol. 66, no. 336.
  20. Rohlf F.J. (1974), Methods of Comparing Classifications, Annual Review of Ecology and Systematics, 5.
  21. Rohlf F.J. (1982), Consensus Indices for Comparing Classifications, Mathematical Biosciences, 59.
  22. Scott A.J., Symons M.J. (1971), Clustering methods based on likelihood ratio criteria, Biometrics, 27.
  23. Szmigiel C. (1976), Wskaźnik zgodności kryteriów podziału, Przegląd Statystyczny, z. 4.
  24. Wallace D.L. (1983), A method for comparing two hierarchical clustering: comment, Journal of the American Statistical Association, vol. 78, no. 383.
Cytowane przez
Pokaż
ISSN
1732-1565
Język
pol
Udostępnij na Facebooku Udostępnij na Twitterze Udostępnij na Google+ Udostępnij na Pinterest Udostępnij na LinkedIn Wyślij znajomemu