BazEkon - Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie

BazEkon home page

Meny główne

Autor
Ziemba Paweł (Zachodniopomorski Uniwersytet Technologiczny w Szczecinie), Piwowarski Mateusz (Zachodniopomorski Uniwersytet Technologiczny w Szczecinie)
Tytuł
Feature Selection Methods in Data Mining Techniques
Metody selekcji cech w technikach data mining
Źródło
Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu, 2011, nr 206, s. 213-223, tab., bibliogr. 23 poz.
Research Papers of Wrocław University of Economics
Tytuł własny numeru
Advanced Information Technologies for Management - AITM 2011: Inteligent Technologies and Applications
Słowa kluczowe
Data Mining, Algorytmy, Uczenie maszynowe, Drzewo decyzyjne
Data Mining, Algorithms, Machine learning, Decision tree
Uwagi
streszcz., summ.
Abstrakt
Techniki data mining w większości oparte są na algorytmach uczenia maszynowego. Służą one wykrywaniu w danych wzorców, które z powodu bardzo dużej ilości informacji są niewidoczne dla człowieka. Jednak dla algorytmów data mining, podobnie jak dla człowieka, problemem jest nadmiarowość danych. W związku z tym stosowane są metody mające na celu redukcję ilości danych analizowanych przez metody data mining, takie jak np. selekcja cech. W artykule omówiono podstawowe zagadnienia związane z zagadnieniem selekcji cech. Przybliżono i zbadano działanie pięciu algorytmów selekcji cech, należących do kategorii filtrów. Walidacja wyników selekcji wykonanej za pomocą każdej z metod została wykonana z użyciem algorytmu drzew decyzyjnych CART. Uzyskane rezultaty wskazują na akceptowalność wyników otrzymanych z użyciem każdej z badanych metod. (abstrakt oryginalny)

Data mining techniques are largely based on machine learning algorithms. They are to serve to extract data models which, due to their large information content, are not recognized by people. Data redundancy poses a problem both for data mining algorithms as well as people, which is why various methods are used in order to reduce the amount of analyzed data, including data mining methods such as feature selection. The article outlines basic issues linked with feature selection and contains an analysis of five feature selection algorithms belonging to the filter category. Results obtained by each method were validated with the help of CART decision tree algorithms. The CART analysis revealed that the results of each of the five algorithms are acceptable. (original abstract)
Dostępne w
Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie
Biblioteka Szkoły Głównej Handlowej w Warszawie
Biblioteka Główna Uniwersytetu Ekonomicznego w Katowicach
Biblioteka Główna Uniwersytetu Ekonomicznego w Poznaniu
Biblioteka Główna Uniwersytetu Ekonomicznego we Wrocławiu
Bibliografia
Pokaż
  1. Ahmad A., Dey L. (2005), A feature selection technique for classificatory analysis, Pattern Recognition Letters, Vol. 26, pp. 43-56.
  2. Chizi B., Maimon O. (2010), Dimension reduction and feature selection, [in:] O. Maimon, L. Rokach (Eds.), Data Mining and Knowledge Discovery Handbook, Springer, New York, pp. 83-100.
  3. Cortez P., Cerdeira A., Almeida F., Matos T., Reis J. (2009), Modeling wine preferences by data mining from physicochemical properties, Decision Support Systems, Vol. 47, No. 4, pp. 547-553.
  4. Guyon I. (2008), Practical feature selection: From correlation to causality, [in:] F. Fogelman-Soulié, D. Perrotta, J. Piskorski, R. Steinberger (Eds.), Mining Massive Data Sets for Security: Advances in Data Mining, Search, Social Networks and Text Mining, and Their Applications to Security, IOS Press, Amsterdam, pp. 27-43.
  5. Hall M.A. (2000), Correlation-based feature selection for discrete and numeric class machine learning, [in:] ICML'00 Proceedings of the 17th International Conference on Machine Learning, pp. 359-366.
  6. Hall M.A., Holmes G. (2003), Benchmarking attribute selection techniques for discrete class data mining, IEEE Transactions on Knowledge and Data Engineering, Vol. 15, No. 3, pp. 1437-1447.
  7. Hall M.A., Smith L.A. (1998), Practical feature subset selection for machine learning, [in:] Proceedings of Australasian Computer Science Conference, pp. 181-191.
  8. Hall M.A., Smith L.A. (1999), Feature selection for machine learning: Comparing a correlation-based filter approach to the wrapper, [in:] Proceedings of the 12th International Florida Artificial Intelligence Research Society Conference, pp. 235-239.
  9. Hand D., Mannila H., Smyth D. (2005), Eksploracja danych, WNT, Warszawa, pp. 414-416.
  10. Hsu H., Hsieh C., Lu M. (2011), Hybrid feature selection by combining filters and wrappers, Expert Systems with Applications, Vol. 38, pp. 8144-8150.
  11. Kannan S.S., Ramaraj N. (2010), A novel hybrid feature selection via Symmetrical Uncertainty ranking based local memetic search algorithm, Knowledge-Based Systems, Vol. 23, pp. 580-585.
  12. Kira K., Rendell L.A. (1992), A practical approach to feature selection, [in:] ML92 Proceedings of the 9th International Workshop on Machine Learning, pp. 249-256.
  13. Kononenko I. (1994), Estimating attributes: Analysis and extensions of RELIEF, Lecture Notes in Computer Science, Vol. 784, pp. 171-182.
  14. Kononenko I., Hong S.J. (1997), Attribute selection for modelling, Future Generation Computer Systems, Vol. 13, No. 2-3, 1997, pp. 181-195.
  15. Liu H., Setiono R. (1996), A probabilistic approach to feature selection - A filter solution, The 13th International Conference on Machine Learning ICML'96, pp. 319-327.
  16. Liu H., Yu L., Motoda H. (2003), Feature extraction, selection, and construction, [in:] N. Ye (Ed.), The Handbook of Data Mining, Lawrence Erlbaum Associates, Mahwah, pp. 409-424.
  17. Michalak K., Kwaśnicka H. (2006), Correlation-based feature selection strategy in classification problems, International Journal of Applied Mathematics and Computer Science, Vol. 16, No. 4, pp. 503-511.
  18. Rokach L., Maimon O. (2010a), Classification trees, [in;] O. Maimon, L. Rokach (Eds.), Data Mining and Knowledge Discovery Handbook, Springer, New York, pp. 149-174.
  19. Rokach, L., Maimon, O. (2010b), Supervised learning, [in:] O. Maimon, L. Rokach (Eds.), Data Mining and Knowledge Discovery Handbook, Springer, New York, pp. 133-148.
  20. UCI Machine Learning Repository, http://archive.ics.uci.edu/ml/index.html
  21. Webb G.I. (2003), Association rules, [in:] N. Ye (Ed.), The Handbook of Data Mining, Lawrence Erlbaum Associates, Mahwah, pp. 25-40.
  22. Witten I.H., Frank E. (2005), Data Mining. Practical Machine Learning Tools and Techniques, Elsevier, San Francisco, pp. 288-295.
  23. Yu L., Liu H. (2003), Feature selection for high-dimensional data: A fast correlation-based filter solution, [in:] Proceedings of the 20th International Conference on Machine Learning (ICML-03), pp. 856-863.
Cytowane przez
Pokaż
ISSN
1899-3192
Język
eng
Udostępnij na Facebooku Udostępnij na Twitterze Udostępnij na Google+ Udostępnij na Pinterest Udostępnij na LinkedIn Wyślij znajomemu