BazEkon - The Main Library of the Cracow University of Economics

BazEkon home page

Main menu

Author
Gliwa Małgorzata (Uniwersytet Ekonomiczny w Katowicach)
Title
Wpływ metody dyskretyzacji na jakość klasyfikacji
The Influence Of Discretization Metod On Classification Quality
Source
Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu. Taksonomia (18), 2011, nr 176, s. 348-357, bibliogr. 12 poz.
Research of Wrocław University of Economics
Issue title
Klasyfikacja i analiza danych - teoria i zastosowania
Keyword
Jakość, Klasyfikacja
Quality, Classification
Note
streszcz., sum.
Abstract
Główny cel artykułu to porównanie wielkości błędów klasyfikacji modeli dyskryminacyjnych zbudowanych dla zbiorów danych przed dyskretyzacją i po dyskretyzacji. Jako metodę dyskryminacji zastosowano naiwny klasyfikator bayesowski. Modele budowano dla zbiorów danych zarówno przed dyskretyzacją, jak i po dyskretyzacji. Dyskretyzacji dokonano z wykorzystaniem metod bezkontekstowych (dyskretyzacja na równe przedziały i przedziały o równych liczebnościach) i kontekstowych (metoda ChiMerge i minimalizacji entropii). Obliczenia wykonano na podstawie autorskich procedur i funkcji zawartych w pakietach dprep, e1071, grDevices, infotheo oraz car programu R.(abstrakt oryginalny)

The aim of this article is to compare classification errors of classification models for data sets before and after discretization. The naive-Bayes classifiers as a supervised classification method was used. It was trained on a data before discretization and on a data preprocessed by discretization methods. The unsupervised (discretization using intervals of equal width, discretization using intervals of equal frequencies) and supervised (discretization using the Chi-Merge method, discretization using the minimum entropy criterion) discretization methods are used. In the empirical part, procedures from dprep, e1071, grDevices, infotheo and car packages for R software are used.(original abstract)
Accessibility
The Main Library of the Cracow University of Economics
The Library of Warsaw School of Economics
The Library of University of Economics in Katowice
The Main Library of Poznań University of Economics and Business
The Main Library of the Wroclaw University of Economics
Full text
Show
Bibliography
Show
  1. Bock H.H., Diday E. (red.), Analysis of Symbolic Data. Exploratory Methods for Extracting Statistical Information from Complex Data, Springer, Berlin 2000.
  2. Catlett J., On Changing Continuous Attributes into Ordered Discrete Attributes, [w:] Y. Kodratoff (red.), Proceedings of the European Working Session on Learning, Springer, Berlin 1991, s. 164-178.
  3. Dougherty J., Kohavi R., Sahami M., Supervised and Unsupervised Discretization of Continuous Features, Proceedings of the 12th International Conference on Machine Learning, Morgan Kaufmann, San Francisco 1995, s. 194-202.
  4. Fayyad U.M., Irani K.B., Multi-interval Discretization of Continuous - Valued Attributes for Classifiaction Learning, Proceedings of the 13th International Joint Conference on Artificial Intelligence, Morgan Kaufmann, San Francisco 1993, s. 1022-1027.
  5. Freedman D., Diaconis P., On histogram as a density estimator: L2 theory, "Probability Theory and Related Fields" 1981, vol. 57, no. 4, s. 453-476.
  6. Gatnar E., Problemy dyskretyzacji zmiennych, Prace Naukowe Akademii Ekonomicznej we Wrocławiu nr 874, Wrocław 2000, s.190-198.
  7. Hsu Ch.-N., Huang H.-J.,Wong T.-T., Why Discretization Works for Naive Bayesian Classifiers, Proceedings of the 17th International Conference on Machine Learning, Stanford 2000, s. 399-406.
  8. Kerber R., ChiMerge: Discretization of Numerical Attributes, Proceedings of the 10th National Conference on Artificial Intelligence, MIT Press, San Jose 1992, s. 123-128.
  9. Scott D. W., On optimal and data-based histograms, "Biometrika" 1979, vol. 66, no. 3, s. 605-610.
  10. Sturges H., The choice of a class-interval, "Journal of the American Statistical Association" 1926, vol. 21, no. 153, s. 65-66.
  11. Walesiak M., Gatnar E. (red.), Statystyczna analiza danych z wykorzystaniem programu R, Wyd. Naukowe PWN, Warszawa 2009, s. 193-194.
  12. Yang Y., Webb G.I., Proportional k-interval Discretization for Naive-Bayes Classifiers, Proceedings of the 12th European Conference on Machine Learning, Springer, Berlin 2001, s. 564-575.
Cited by
Show
ISSN
1899-3192
1505-9332
Language
pol
Share on Facebook Share on Twitter Share on Google+ Share on Pinterest Share on LinkedIn Wyślij znajomemu