BazEkon - Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie

BazEkon home page

Meny główne

Autor
Matusiak Joanna (Uniwersytet Szczeciński, doktorant)
Tytuł
Ekstrakcja i agregacja zawartości stron internetowych na przykładzie portali pracy
Extraction and Aggregation of the Job Market Web Sites Content
Źródło
Zeszyty Naukowe Uniwersytetu Szczecińskiego. Studia Informatica, 2012, nr 30, s. 59-73, rys., bibliogr. 7 poz.
Tytuł własny numeru
Internet w społeczeństwie informacyjnym
Słowa kluczowe
Internet, Portale internetowe, Oprogramowanie
Internet, Web portals, Software
Uwagi
summ.
Abstrakt
W artykule przedstawiono możliwości praktycznego wykorzystania narzędzia do ekstrakcji zawartości stron internetowych w celu agregacji danych do dalszych analiz. Wskazano formaty wymiany danych: XML, XLS i CSV, dzięki którym pozyskane dane mogą stać się danymi wejściowymi złożonych systemów analitycznych. Dzięki wykorzystaniu technologii, takich jak eksploracja danych i ETL, systemy te mogą reorganizować dane, przeszukiwać je i w efekcie wyświetlać rezultaty analiz w formie raportów, wykresów i statystyk.(fragment tekstu)

The article presents overview and practical exploration of the data extraction scraping tool for internet web sites content. As the exemplary analytical data source author has chosen job market portals offering the advertisements of new vacancies. Outcome results can be used in further detailed analysis as the input data of the complex analytical systems based on the data exploration, displaying search results according to the chosen criteria. Extraction data tool let the user store output results and exchange the data with other systems through XML, XSL and CSV files. Web scraping mechanism built into the tool offers graphical, action-based, user interactive processes. Data extraction is based on the web macro recordings as well as data and pages patterns generation. (original abstract)
Dostępne w
Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie
Biblioteka Główna Uniwersytetu Szczecińskiego
Pełny tekst
Pokaż
Bibliografia
Pokaż
  1. http://web-harvest.sourceforge.net.
  2. http://www.sundewsoft.com.
  3. http://www.lixto.com.
  4. http://www.newprosoft.com.
  5. http://www.pracuj.pl.
  6. http://www.eclipse.org.
  7. http://www.eclipse.org/PDE.
Cytowane przez
Pokaż
ISSN
0867-1753
Język
pol
Udostępnij na Facebooku Udostępnij na Twitterze Udostępnij na Google+ Udostępnij na Pinterest Udostępnij na LinkedIn Wyślij znajomemu