BazEkon - Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie

BazEkon home page

Meny główne

Autor
Korzeniowski Jerzy (Uniwersytet Łódzki)
Tytuł
Badanie odporności metody HINoV na błędnie zadaną liczbę skupień w zbiorze danych
Investigating the Robustness of HINoV to Wrongly Predetermined Number of Clusters
Źródło
Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu. Taksonomia (17), 2010, nr 107, s. 432-438, tab., bibliogr. 11 poz.
Research of Wrocław University of Economics
Tytuł własny numeru
Klasyfikacja i analiza danych - teoria i zastosowania
Słowa kluczowe
Analiza skupień, Eksperyment badawczy, Odporne metody statystyczne
Cluster analysis, Scientific experiment, Robust statistical methods
Uwagi
streszcz., summ.
Abstrakt
Metoda HINoV służąca do wybierania zmiennych w analizie skupień jest popularna i jest jedną z najlepszych [Steinley, Brusco 2008]. Nieznana jest jednak efektywność tej metody wtedy, gdy liczba skupień w zbiorze danych jest błędnie zadana. Taka sytuacja jest powszechna, gdyż indeksy wyznaczające liczbę skupień mają na ogół charakter optymalizacyjny dla przyjętej metody grupowania i popełniają dość duże błędy. W artykule zbadana jest odporność metody na kilku tysiącach zbiorów danych wygenerowanych w postaci mieszanin rozkładów normalnych. Dobór liczb skupień, liczby zmiennych istotnych i maskujących, stopnia zachodzenia skupień na siebie, rozkładów zmiennych maskujących jest taki sam jak w eksperymencie symulacyjnym Steinleya i Brusco [2008].(abstrakt oryginalny)

The HINoV method for choosing variables in the context of cluster analysis is very popular one and one of the best [Steinley, Brusco 2008]. However, the efficiency this method to the wrongly predetermined number of clusters remains an uninvestiga problem. The situation in which we cannot have precise knowledge about the number clusters in a data set is very common since the indices most of which are of optimi nature usually go wrong. In the paper, the robustness of HINoV is investigated in a b simulation experiment on thousands of data sets in the form of the mixture of no distributions. The organization of the experiment with respect to the number of variabl clusters, distributions etc. follows the experiment conducted by Steinley and Brusco [2008].(original abstract)
Dostępne w
Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie
Biblioteka SGH im. Profesora Andrzeja Grodka
Biblioteka Główna Uniwersytetu Ekonomicznego w Katowicach
Biblioteka Główna Uniwersytetu Ekonomicznego w Poznaniu
Biblioteka Główna Uniwersytetu Ekonomicznego we Wrocławiu
Pełny tekst
Pokaż
Bibliografia
Pokaż
  1. Brusco M., Cradit D., A variable-selection heuristic for k-means clustering, "Psyehometrika" 2001 no 66.
  2. Carmone F.J. Jr., Kara A., Maxwell S., HINoV: a new model to improve market segment definition by identifying noisy variables, "Journal of Marketing Research" 1999 vol. 36.
  3. Dash M., Liu H., Feature Selection for Clustering, Proceedings of Fourth Pacific-Asia Conference on Knowledge Discovery and Data Mining, (PAKDD), 2000.
  4. Dy J., Brodley C., Feature Subset Selection and Order Identification for Unsupervised Learning, Proc. 17th International Conf. on Machine Learning, 2000.
  5. Friedman J., Meulman J., Clustering objects on subsets of attributes, "Journal of the Royal Statistical Society", Series В 66, 2004.
  6. Law M., Jain A., Figueiredo M., Feature Selection in Mixture-Based Clustering , IEEE Transaction on Pattren Analysis and Machine Inteligence, 2003.
  7. Montanari A., Lizzani L., A projection pursuit approach to variable selection, "Computation Statistics and Data Analysis" 2001 vol. 35(4).
  8. Najman K., Najman K., Analityczne metody ustalania liczby skupień, Prace Naukowe Akademii Ekonomicznej we Wrocławiu nr 1076, AE, Wrocław 2005.
  9. Raftery A.E., Dean N., Variable Selection for Model Based Clustering, JASA 101, 2006.
  10. Steinley D., Brusco M., A new variable weighting and selection procedure for k-means cluster analysis, "Multivariate Behavioral Research" 2008 no 43.
  11. Steinley D., Brusco M., Selection of variables in cluster analysis: an empirical comparison of eight procedures, "Psychometrika" 2008 no 73.
Cytowane przez
Pokaż
ISSN
1899-3192
1505-9332
Język
pol
Udostępnij na Facebooku Udostępnij na Twitterze Udostępnij na Google+ Udostępnij na Pinterest Udostępnij na LinkedIn Wyślij znajomemu