BazEkon - Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie

BazEkon home page

Meny główne

Autor
Gąsior Marcin (Lublin University of Technology), Skowron Łukasz (Lublin University of Technology)
Tytuł
Methods for Imputation of Missing Values and Their Influence on the Results of Segmentation Research
Metody uzupełniania braków danych i ich wpływ na wyniki badań segmentacyjnych
Źródło
Ekonometria / Uniwersytet Ekonomiczny we Wrocławiu, 2016, nr 4 (54), s. 61-71, rys., tab., bibliogr. 18 poz.
Econometrics / Uniwersytet Ekonomiczny we Wrocławiu
Słowa kluczowe
Analiza skupień, Metoda k-średnich, Segmentacja
Cluster analysis, K-means methods, Segmentation
Uwagi
streszcz., summ.
Abstrakt
Braki odpowiedzi są częstym problemem we wszelkiego rodzaju badaniach, zwłaszcza z obszaru nauk społecznych. W konsekwencji opracowane zostało wiele sposobów rozwiązania tego problemu, uwzględniających między innymi analizę przypadków kompletnych czy imputacje - polegające na przypisaniu w miejsce braku wartości wyznaczonej przy wykorzystaniu różnych algorytmów. W niniejszym artykule dokonano oceny wpływu przyjętej metody zastępowania braków odpowiedzi na wyniki badań segmentacyjnych, prowadzonych przy wykorzystaniu analizy skupień. W tym celu wykorzystano zbiór danych z rzeczywistego badania konsumenckiego, w którym braki odpowiedzi zostały usunięte bądź zastąpione przy wykorzystaniu różnych, możliwych podejść. Na tak przygotowanych zestawach przypadków przeprowadzono analizy skupień, zarówno przy założeniu porządkowego, jak i przedziałowego poziomu pomiaru, następnie zaś porównano jakość grupowania, wyrażoną wybranymi wskaźnikami. Tak przeprowadzone badanie wskazało na przewagę imputacji nad analizą przypadków kompletnych, dowiodło także zasadności stosowania podejść bardziej złożonych niż zastępowanie braków średnią lub medianą.(abstrakt oryginalny)

The lack of answers is a common problem in all types of research, especially in the field of social sciences. Hence a number of solutions were developed, including the analysis of complete cases or imputations that supplement the missing value with a value calculated according to different algorithms. This paper evaluates the influence of the adopted method for the supplementation of missing answers regarding the result of segmentation conducted with the use of cluster analysis. In order to achieve this we used a set of data from an actual consumer research in which the cases with missing values were deleted or supplemented with the use of various methods. Cluster analyses were then performed on those sets of data, both with the assumption of ordinal and ratio level of measurement, and then the grouping quality, as expressed by different indicators, was evaluated. This research proved the advantage of imputation over the analysis of complete cases, it also proved the validity of using more complex approaches than the simple supplementation with an average or median value.(original abstract)
Dostępne w
Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie
Biblioteka SGH im. Profesora Andrzeja Grodka
Biblioteka Główna Uniwersytetu Ekonomicznego w Katowicach
Biblioteka Główna Uniwersytetu Ekonomicznego w Poznaniu
Biblioteka Główna Uniwersytetu Ekonomicznego we Wrocławiu
Pełny tekst
Pokaż
Bibliografia
Pokaż
  1. Caliński T., Harabasz J., 1974, A dendrite method for cluster analysis, Communications in Statistics, 3 (1), pp. 1-27.
  2. Charrad M., Ghazzali N., Boiteau V., Niknafs A., Charrad M.M., 2014, Package 'NbClust', Journal of Statistical Software 61, pp. 1-36.
  3. Cole J.C., 2008, How to deal with missing data, Best Practices in Quantitative Methods, pp. 214-238.
  4. Hubert L.J., Levin J.R., 1976, A general statistical framework for assessing categorical clustering in free recall, Psychological Bulletin, 83(6), pp. 1072-1080.
  5. Jajuga K., Walesiak M., Bak A., 2003, On the General Distance Measure, [in:] Exploratory Data Analysis in Empirical Research, Springer Berlin Heidelberg, pp. 104-109.
  6. King G., James H., Anne J., Kenneth S., 2001, Analyzing incomplete political science data: an alternative algorithm for multiple imputation, American Political Science Review 95 (1, March), pp. 49-69.
  7. Labovitz S., 1967, Some observations on measurement and statistics, Social Forces, 46(2), pp. 151-160.
  8. Little R.J.A., 1988, Missing data adjustments in large surveys, Journal of Business Economics and Statistics, 6, pp. 287-301.
  9. Marcus-Roberts H.M., Roberts F.S., 1987, Meaningless statistics, Journal of Educational Statistics, 12, pp. 383-394.
  10. Migdał-Najman K., 2011, Ocena jakości wyników grupowania-przegląd bibliografii, Przegląd Statystyczny, 58(3-4), pp. 281-299.
  11. Rousseeuw P., 1987, Silhouettes: a graphical aid to the interpretation and validation of cluster analysis, Journal of Computational and Applied Mathematics, 20, pp. 53-65.
  12. Rubin D.B., 1976, Inference and missing data, Biometrika, 63, pp. 581-592.
  13. Sambandam R., 2003, Cluster analysis gets complicated, Marketing Research, vol. 15, no. 1.
  14. Stevens S., 1946, On the theory of scales of measurement, Science, 103(2684), pp. 677-680.
  15. Schafer, J.L., 1997, Analysis of Incomplete Multivariate Data, Chapman & Hall, New York.
  16. Schafer J.L., Graham J.W., 2002, Missing data: our view of the state of the art, Psychological Methods, 7(2).
  17. Walesiak M., 2006, Uogólniona miara odległości w statystycznej analizie wielowymiarowej, Wydawnictwo Akademii Ekonomicznej im. Oskara Langego, Wrocław.
  18. Walesiak M., Dudek A., 2006, Symulacyjna optymalizacja wyboru procedury klasyfikacyjnej dla danego typu danych - oprogramowanie komputerowe i wyniki badań, Taksonomia 13, Prace Naukowe Akademii Ekonomicznej we Wrocławiu 1126, pp. 120-129.
Cytowane przez
Pokaż
ISSN
1507-3866
Język
eng
URI / DOI
http://dx.doi.org/10.15611/ekt.2016.4.04
Udostępnij na Facebooku Udostępnij na Twitterze Udostępnij na Google+ Udostępnij na Pinterest Udostępnij na LinkedIn Wyślij znajomemu