Indeksiranje i Pretrayivanje Web-A
-
Upload
milos-stojanovic -
Category
Documents
-
view
225 -
download
0
Transcript of Indeksiranje i Pretrayivanje Web-A
7/27/2019 Indeksiranje i Pretrayivanje Web-A
http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 1/30
Indeksiranje i pretraživanje
Web-a
Student: Profesor:
Milo š Ilić Prof. Dr Milena Stanković
Broj indeksa:12896
7/27/2019 Indeksiranje i Pretrayivanje Web-A
http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 2/30
Oblasti koje su obraĎene u okviru
rada
• Web mining
•
Agenti za pretraživanje Web-a• Agoritmi i osnovni problemi u implementaciji Web
pretraživača
• Metode pretraživanja Web-a
• Pretraživači sličnosti i razlike • Optimizacija
7/27/2019 Indeksiranje i Pretrayivanje Web-A
http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 3/30
Web mining
• Web mining je prikupljanje zanimljivih i potencijalno
korisnih obrazaca i implicitnih informacija iz predmeta i
aktivnosti vezanih za WorldWide Web.
• Izdvajaju se tri tehnike.
– Web Content Mining
– Web Structure Mining
– Web Usage Mining
Svaka od tehnika se bavi nekom odreĎenom oblašću Web-a.
7/27/2019 Indeksiranje i Pretrayivanje Web-A
http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 4/30
Klasifikacija Web mining-a
7/27/2019 Indeksiranje i Pretrayivanje Web-A
http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 5/30
Agenti za pretraživanje Web-a
• „Lutaju“ Web-om u potrazi za novim stranicama, i kada ih pronaĎu„dovlače“ ih i snimaju u bazu.
• Stacionirani su na računaru i tu dovlače stranice.
• Ono što agent sagledava su reči HTML dokumenta naučene korištenjem programskih detektora ( senzora ) povezanih kroz celu mrežu ( Internet )uz pomoć HTTP-a.
• Agent deluje na okolinu koristeći izlazne metode kako bi obavestiokorisnika o statusu pretraživanja ili krajnjim rezultatima, koji bi trebali
predstavljati postignut cilj
7/27/2019 Indeksiranje i Pretrayivanje Web-A
http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 6/30
Inteligentni agenti za pretraživanje Web-a
• Inteligentnim agentima za pretraživanje Web-a nazivaju se
računarski programi koji samostalno izvode neki pretraživački posao “u ime i za račun” korisnika.
• Smešteni su u računaru vlasnika, što ne mora biti ( a najčešde
i nije ) računar krajnjeg korisnika, ved neko web mesto.
•
Korisnik defini še informacije o omenima svog interesovanja,pravilima pretraživanja, prioritetima...
7/27/2019 Indeksiranje i Pretrayivanje Web-A
http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 7/30
Podela inteligetnih agenata
• Web crawler
• Web pauci ( Web spider )
• Web roboti ( Web robot )
7/27/2019 Indeksiranje i Pretrayivanje Web-A
http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 8/30
Oblasti primene inteligentnih agenata
• Statističke analize
• Osvežavanje URL adresa
• Mirroring
• Indeksiranje
• Pronalaženje podataka
• Kombinirana upotreba
7/27/2019 Indeksiranje i Pretrayivanje Web-A
http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 9/30
Crawling
Arhitektura crawling sistema
7/27/2019 Indeksiranje i Pretrayivanje Web-A
http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 10/30
Funkcionalnosti koje obavlja crawling
• Robustnost
• Pristojnost
• Distribuiranost
• Skalabilnost
• Performanse i efikasnost
• Kvalitet
• Ažurnost rezultata • Proširivost
7/27/2019 Indeksiranje i Pretrayivanje Web-A
http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 11/30
Spajderi
Arhitektura spajdera
7/27/2019 Indeksiranje i Pretrayivanje Web-A
http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 12/30
• Spajderi obično kreću svoje krstarenje web-om sa najpopularnijih sajtova i
servera i dalje preteći linkove obilaze sve ostale stranice.
• Dve veoma bitne karakteristike Web-a iktiraju ponašanje spajera i njihov
zaatak čine veoma teškim:
– Veliki broj stranica. Ovo ima za posledicu da spajderi mogu samo da posete
delić web-a, što znači da taj delić treba da bude posebno odabran.
– Brzina promene. Dok spajder poseti poslednju stranicu na sajtu, veoma je
verovatno da su u meĎuvremenu neke strane dodate, neke obrisane, a neke
izmenjene. Ovo je pogotovo karakteristično za velike sajtove.
7/27/2019 Indeksiranje i Pretrayivanje Web-A
http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 13/30
7/27/2019 Indeksiranje i Pretrayivanje Web-A
http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 14/30
Jedan osnovni primer Robots.txt fajla koji zabranjuje svim pretraživačima daindeksiraju bilo sta sa web sajta.
User-agent: *Disallow: /
Ako želimo da Yahoo web crawler ne indeksira neki folder, to se može postićinaredbom.
User-agent: Yahoo! SlurpDisallow: neki-folder
Google robot ima pristup celom sajtu dok je svim ostalim robotima zabranjeno da
pristupe.
User-agent: Google
Disallow:
User-agent: *
Disallow: /
7/27/2019 Indeksiranje i Pretrayivanje Web-A
http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 15/30
Osim posebnog robots.txt fajla koji se postavlja u root direktorijum sajta
na web serveru, mogu se koristiti i robots meta tagovi, koji se ubacuju u
head deo html dokumenta.
<META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW">
<META NAME="ROBOTS" CONTENT="INDEX, NOFOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
NOINDEX - ne indeksira se data strana
INDEX - indeksira se data strana
FOLLOW - prate se linkovi sa strane na kojoj je dati meta tag
NOFOLLOW ne prate se linkovi sa strane na kojoj je dati meta tag
http://www.google.com/support/webmasters/bin/answer.py?a
nswer=79812&topic=15262
7/27/2019 Indeksiranje i Pretrayivanje Web-A
http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 16/30
Indeksiranje
• Invertovani indeks, predstavlja osnovnu struktura podataka koja se korisiti u
okviru Web pretraživača i information retrieval ( IR-oblast koja se bavi
izučavanje metoda za pronalazak informacija u okviru dokumenata i van njih )softvera uopšte.
• Dve osnovne varijante realizacije invertovanog indeksa su:
– na nivou zapisa ( record level inverted index )
– nivou reči (word level inverted index)
Pored vrlo jednostavnog odreĎivanja fizičke veličine samog indeksa kadasu u pitanju Web pretraživači tako definisana veličina je od veoma malogznačaja jer ne pruža informaciju o količini informacija koje se nalaze uindeksu.
7/27/2019 Indeksiranje i Pretrayivanje Web-A
http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 17/30
PageRank
• Algoritam (koristi se kod Google pretraživača), dodeljuje
vrednost od 0 do1 svakom čvoru u Web Grafu, pri čemu datavrednost prvenstveno zavisi od link strukture Web Grafa.
• Algoritam se zasniva na činjenici da se Web Graf može predstaviti kao povezani graf.
• Primer je model slučajnog surfera
http://www.prchecker.info/check_page_rank.php
7/27/2019 Indeksiranje i Pretrayivanje Web-A
http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 18/30
Clustering
• Predstavlja način obrade podataka, kojim se u samim podacimaotkrivaju tzv. “grupe” ( clusters ) podataka koje pokazuju izvestanstepen “ prirodne bliskosti”.
• Dva najčešća pristupa problematici grupisanja su
– Supervised learning
– Unsupervised learning
Često se koristi u “istraživanju podataka”, kada ne postoji prethodno definisani korpus podataka ili kada nismo sigurni
šta tačno tražimo u podacima.
7/27/2019 Indeksiranje i Pretrayivanje Web-A
http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 19/30
Metode pretraživanja Web-a
• Postoje dve osnovne klase algoritama za pretraživanje
– Blin search or uninforme search ( neinformisano pretraživanje )
– Heuristic or informe search ( informisano pretraživanje )
7/27/2019 Indeksiranje i Pretrayivanje Web-A
http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 20/30
Blind search or uninformed search
( neinformisano pretraživanje )
U ovu grupu pretraživanja spadaju:
−pretraživanja po dubini ( eng. Depth-first search )
− pretraživanja po širini ( eng. Breadth-first search )
− pretraživanja s jednakom cenom ( eng. Uniform-cost search )
− pretraživanje do odreĎene dubine ( eng. Depth-limiting search )
− iterativno pretraživanje po dubini ( eng. Iterative deeping search )
− dvosmerno pretraživanje ( eng. Bidirectional search )
7/27/2019 Indeksiranje i Pretrayivanje Web-A
http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 21/30
Heuristic or informed search
( informisano pretraživanje )
• U ovu grupu pretraživanja spadaju:
− pretraživanje najboljim prvim ( eng. Best first search )− pretraživanje penjanjem ( eng. Hill-climbing search )
− A* pretraživanje ( eng. A* search )
− ograničeno pretraživanje po širini ( eng. Beam search )
− IDA* pretraživanje ( eng. Iterative deeping A* search )
7/27/2019 Indeksiranje i Pretrayivanje Web-A
http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 22/30
Pretraživači sličnosti i razlike
• Prvi “ pretraživač ” 1990. god Archie, od strane studenta Alan Emtage
• 1994 - Yahoo!, (David Filo, Jarry Yang);
• 1997 - Google,( Larry Page, Sergey Brin )
• 1998 - MSN Search
7/27/2019 Indeksiranje i Pretrayivanje Web-A
http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 23/30
Google daje najpreciznije i najrelevantnije rezultate pretrage pomoćPageRank algoritma koji klasifikuje Web stranice (rangira ih) i na osnovu
tog rangiranja pravi redosled u rezultatima pretrage
Faktori za visoko rangiranje na Google pretraživaču
1) ulazni linkovi
2) starost
3) sadržaj
4) uspeh na rezultatima pretrage
7/27/2019 Indeksiranje i Pretrayivanje Web-A
http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 24/30
Yahoo
• Nije samo Internet pretraživač nego i najpoznatiji Webdirektorijum koji predstavlja ogromnu listu Web sajtova
uredno razvrstanih po kategorijama i podkategorijama.
• Nastao je kao lista omiljenih linkova dvoje ljudi koji su danas
vlasnici ove multi-kompanije.
• Smatra se da je glavni konkurent Googl-u
7/27/2019 Indeksiranje i Pretrayivanje Web-A
http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 25/30
Faktori za visoko rangiranje na Yahoo
pretraživaču
1) gustina ključnih reči
2) struktura web stranice
3) ulazni linkovi
4) starost
7/27/2019 Indeksiranje i Pretrayivanje Web-A
http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 26/30
MSN
• Relativno nov pretraživač
• Sistem rangiranja prvenstveno zavisi od sadržaja Web sajtova
•
Faktori za visoko rangiranje na MSN-u
1) saržaj stranice
2) struktura unutrašnjeg povezivanja
3) broj stranica i relevantnost
4) naslovi, zaglavlja i posebni formati
7/27/2019 Indeksiranje i Pretrayivanje Web-A
http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 27/30
Optimizacija
• Termin se pojavljuje sredinom 90-tih.
• Proces zavisi od primenjene tehnologije i arhitekture web
stranica
• Klasične ( HTML, statične ) stranice je potrebno ručnooptimizovati
– Uredjenjem sadržaja
– Dodavanjem meta podataka
• Kod dinamičkih je postupak delimično automatizovan
7/27/2019 Indeksiranje i Pretrayivanje Web-A
http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 28/30
Metodi za optimizaciju web stranica
• Onpage – Pojedina stranica se prilagodjava svom sadržaju
– Meta tagovi (description, keywords, author, Content-Type ...)
omogućavaju da stranuca ne bude svrstana duplicate content filter
– Naslov Web stranice 64 karaktera po W3 konzorcijumu
– Struktura stranice
– Izgled URL-a
• Offpage
– Radi se nakon Onpage optimizacije
– Orijentisana na poboljšanje Web lokacije sa drugim Web lokacijama
– Suština je predstavljanje web stranica razmenom linkova i link building-om
7/27/2019 Indeksiranje i Pretrayivanje Web-A
http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 29/30
Pitanja!
• Podela Web mininga.
•Oblasti primene inteligentnih agenata.
• PageRank.
• Metoe pretraživanja Web-a.
• Metodi za optimizaciju web stranica.