BazEkon - Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie

BazEkon home page

Meny główne

Autor
Mikulski Łukasz (Uniwersytet Mikołaja Kopernika w Toruniu; Memex), Weichbroth Paweł (Uniwersytet Mikołaja Kopernika w Toruniu; Memex)
Tytuł
Usuwanie artefaktów w wykrywaniu wzorców użytkowania stron WWW
Denoising as a Method of Discovering Hidden Web Usage Patterns
Źródło
Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu. Informatyka Ekonomiczna (22), 2011, nr 212, s. 254-266, rys., tab., bibliogr. 21 poz.
Research Papers of Wrocław University of Economics. Business Informatics
Słowa kluczowe
World Wide Web (WWW), Użytkownicy internetu, Wiedza
World Wide Web (WWW), Internet users, Knowledge
Uwagi
streszcz., summ.
Abstrakt
Aktywność użytkowników korzystających z zasobów portali internetowych zapisywana jest w plikach logów serwera WWW. W celu odkrycia i analizy wzorców zachowań takich użytkowników dane z surowych plików loga należy poddać przetwarzaniu wstępnemu. W niniejszym artykule przeprowadzono badanie złożone z dwóch etapów. W pierwszym z nich znajdowane są wszystkie częste zbiory przy arbitralnie założonym współczynniku wsparcia oraz reguły asocjacyjne, przy arbitralnie założonym współczynniku ufności. W drugim etapie podawane są analizie uzyskane wyniki - częste zbiory i wygenerowane na ich podstawie reguły asocjacyjne. Na podstawie tej analizy usuwane są zakwalifikowane jako szum subiektywnie wybrane zbiory, które pochodzą spoza zakresu danych objętego badaniem lub dominują nad pozostałymi elementami serwisu. Jeżeli zachodzi taka potrzeba, czynności związane z odszumianiem danych można iterować. Na podstawie tak przetworzonego pliku loga serwera WWW ostatecznie znajdowane są często zbiory. Na ich podstawie ekstrahowane są z kolei reguły asocjacyjne. Według tak przyjętego założenia, to one mogą odzwierciedlać istotne ścieżki nawigacji, które odpowiednio zagregowane posłużą do wyodrębnienia wzorców użytkowania portalu. (abstrakt oryginalny)

The activity of web portals' users is recorded in a WWW server log file. In order to reveal and analyse the web usage patterns, the data from unprocessed log files should be preprocessed. In this article the two-stage research was conducted. In the first one all frequent sets were found, with arbitrarily assumed support ratio, and association rules, with arbitrarily assumed confidence ratio. In the second stage the obtained results were analysed frequent sets, and based on them generated association rules. Based on this analysis the subjectively chosen sets, classified as noise, are removed. Those are either outside the scope of research data or the ones which dominate other elements. If necessary the activities connected with data denoising can be iterated. Based on such a processed WWW server log file, finally frequent sets are selected. In turn, based on aforementioned, association rules are extracted. Those are the ones reflecting the relevant navigation paths which, while adequately aggregated, would be used to select the web usage patterns. (original abstract)
Dostępne w
Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie
Biblioteka Główna Uniwersytetu Ekonomicznego w Katowicach
Biblioteka Główna Uniwersytetu Ekonomicznego w Poznaniu
Biblioteka Główna Uniwersytetu Ekonomicznego we Wrocławiu
Bibliografia
Pokaż
  1. Agrawal R., Imielinski T., Swami A. [1993], Mining Association Rules between Sets of Items in Large Databases, [w:] SIGMOD '93: Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data, ACM, Nowy Jork, s. 207-216.
  2. Agrawal R., Srikant R. [1994], Fast algorithms for mining association rules. Proceedings of the Twentieth International Conference on Very Large Data Bases, Morgan Kaufmann, San Francisco, s. 487-499.
  3. Berners-Lee T., Fielding R., Frystyk H. [1995], Hypertext Transfer Protocol - HTTP/1.0. Internet Draft, http://www.w3.org/Protocols/HTTP/1.0/draft-ietf-http-spec.html (24.11.2009).
  4. Cooley R., Mobasher B., Srivastava J. [1997], Web mining: Information and pattern discovery on the world wide web. Proceedings of the 9th IEEE International Conference on Tools with Artificial Intelligence, Los Alamitos, s. 558-567.
  5. Evfimievski A., Srikant R., Agrawal R., Gehrke J. [2002], Privacy Preserving Mining of Association Rules. Proceedings of the eighth ACM SIGKDD International Conference on Knowledge discovery and data mining, ACM, Nowy Jork, s. 217-228.
  6. Fielding R., Gettys J., Mogul J., Frystyk H., Berners-Lee T. [1997], Hypertext Transfer Protocol - HTTP/1.1. Internet Official Protocol Standards (RFC 2068), http://tools.ietf.org/html/rfc2068 (24.11.2009).
  7. Fielding R., Gettys J., Mogul J., Frystyk H., Masinter L., Leach P., Berners-Lee T. [1999], Hypertext Transfer Protocol - HTTP/1.1. Internet Official Protocol Standards (RFC 2616), http://www.w3. org/Protocols/ rfc2616/ rfc2616.html (24.11.2009).
  8. Hatonen K., Boulicaut J.F., Klemettinen M., Miettinen M., Mason C. [2003], Comprehensive Log Compression with frequent patterns, DaWaK 2003, LNCS 2737, Springer-Verlag, Berlin, s. 360-370.
  9. Ivancsy R., Vajk I. [2006], Frequent pattern mining in web log data, Acta Polytechnica Hungarica, vol. 3, no. 1, s. 77-90.
  10. Kosala R., Blockel H. [2000], Web mining research: A survey, Newsletter of the Special Interest Group (SIG) on Knowledge Discovery and Data Mininig SIGKDD: GKDD Explorations 1.
  11. Markov Z., Larose D.T. [2007], Data Mining the Web: Uncovering Patterns in Web Content Structure, John Wiley & Sons, New York.
  12. Mikulski Ł., Weichbroth P. [2009], Discovering patterns of visits on the Internet web sites in the perspective of associative models, "Polish Journal of Environmental Studies", vol. 18, no. 3B, Olsztyn, s. 267-271.
  13. Mobasher B., Jain N., Han E.S., Srivastava J. [1996], Web Mining: Pattern Discovery from World Wide Web Transactions, Technical Report 96-050. University of Minnesota, Minnesota.
  14. Scime A. [2005], Web Mining: Applications and Techniques, Idea Group Publishing, Hershey.
  15. Spiliopoulou M., Faulstich L.C. [1998], WUM: A Web Utilization Miner, Proceedings of EDBT Workshop WebDB98, Springer Verlag, Berlin, s. 109-115.
  16. Srivastava J., Cooley R., Deshpande M., Tan P.N. [2000], Web usage mining: discovery and applications of usage patterns from web data, ACM SIGKDD Explorations Newsletter, vol. 1, issue 2, New York.
  17. Yan T.W., Jacobsen M., Garcia-Molina H., Dayal U. [1996], From User Access Patterns to Dynamic Hypertext Linking, Computer Networks and ISDN Systems, vol. 28, issue 7-11, s. 1007-1014.
  18. Wassom B.D. [1998], Note: Copyright Implications of "Unconventional Linking" on the World Wide Web: Framing, Deep Linking and Inlinking, Law Review Case Western Reserve University.
  19. Weichbroth P. [2009a], Analiza zachowań użytkowników portalu onet.pl w ujęciu reguł asocjacyjnych, [w:] Inżynieria Wiedzy i Systemy Ekspertowe, red. A. Grzech, K. Juszczyszyn, H. Kwaśnicka, N.T. Nguyen, Akademicka Oficyna Wydawnicza Exit, Warszawa, s. 81-88.
  20. Weichbroth P. [2009b], Odkrywanie reguł asocjacyjnych z transakcyjnych baz danych, [w:] Informatyka Ekonomiczna. Rynek usług informatycznych, red. A. Nowicki, I. Chomiak-Orsa, Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu 14, Wyd. Uniwersytetu Ekonomicznego we Wrocławiu, Wrocław, s. 301-309.
  21. Weichbroth P. [2010], A framework of rule based expert system for market basket analysis, [w:] Advanced Information Technologies for Management - AITM2010, red. J. Korczak, H. Dudycz, M. Dyczkowski, Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu, Wrocław, s. 276-291.
Cytowane przez
Pokaż
ISSN
1899-3192
1507-3858
Język
pol
Udostępnij na Facebooku Udostępnij na Twitterze Udostępnij na Google+ Udostępnij na Pinterest Udostępnij na LinkedIn Wyślij znajomemu