Optimizing Web Search Using Social Annotations

21
Optimizing Web Search Using Social Annotations Παρουσίαση: Λάζος Άγγελος

description

Optimizing Web Search Using Social Annotations. Παρουσίαση: Λάζος Άγγελος. Εισαγωγή. Πολλοί χρήστες αφιερώνουν κοινωνικά σχόλια σε ιστοσελίδες Π.χ στο www.del . icio . us για το Amazon αγορά, μουσική, βιβλία κατάστημα Εκμετάλλευση από τους SSR και SPR - PowerPoint PPT Presentation

Transcript of Optimizing Web Search Using Social Annotations

Page 1: Optimizing Web Search Using Social Annotations

Optimizing Web Search Using Social Annotations

Παρουσίαση: Λάζος Άγγελος

Page 2: Optimizing Web Search Using Social Annotations

Εισαγωγή

Πολλοί χρήστες αφιερώνουν κοινωνικά σχόλια σε ιστοσελίδες Π.χ στο www.del.icio.us για το Amazon

αγορά, μουσική, βιβλία κατάστημα Εκμετάλλευση από τους SSR και SPR

SSR: Ομοιότητα μεταξύ σχολίων (similarity ranking) SPR: Μέτρηση δημοτικότητας μιας σελίδας (static ranking)

Προηγούμενοι αλγόριθμοι: Έμφαση σε: Anchor text, link analysis, click-thought data

Page 3: Optimizing Web Search Using Social Annotations
Page 4: Optimizing Web Search Using Social Annotations

Σκοπός

Η χρήση των κοινωνικών σχολίων στο web search

SSR: Ορίζει την ομοιότητα μεταξύ των σχολίων Λύνει το πρόβλημα του ακριβούς ταιριάσματος

SPR Υπολογισμός της ποιότητας μιας σελίδας από τα σχόλια Διαφορετικά σχόλια έχουν διαφορετικό βάρος

Page 5: Optimizing Web Search Using Social Annotations

Αναζήτηση με τη χρήση κοινωνικών

σχολίων

3 ομάδες χρηστών στο web Δημιουργοί σελίδων Σχολιαστές ( annotators ) Απλοί χρήστες

Κάθε μία παρέχει διαφορετική

πληροφορία Ενδιαφερόμαστε για την άποψη

των annotator

Page 6: Optimizing Web Search Using Social Annotations

Social Similarity Ranking

Απλοϊκή προσέγγιση των κοινωνικών σχολίων

σύνολο σχολίων Α(p)={α1, .αn}

ερώτηση q={q1,q2,. . .,qn}

Πρόβλημα στα συνώνυμα

O SSR λύνει το πρόβλημα

Page 7: Optimizing Web Search Using Social Annotations

Social Similarity Ranking (συνέχεια)

NA Πλήθος σχολίων

ΝP Πλήθος σελίδων

ΝU Πλήθος χρηστών

ΜAP NA x NP πίνακας συσχέτισης μεταξύ σχολίων και

σελίδων

ΜAP(αx, py) Πλήθος χρηστών που αναθέτουν το σχόλιο αx στη

σελίδα py

SA NA x NA πίνακας τα στοιχεία του οποίου SA(αi, αj)

δηλώνουν το σκορ ομοιότητας μεταξύ των σχολίων αi και αj

SP NP x NP πίνακας ομοιότητας μεταξύ δύο σελίδων

CA, CP Damping παράγοντες της διάδοσης της ομοιότητας για τα σχόλια και τις σελίδες αντίστοιχα (CA, CP =

0.7 )

PA Σύνολο σελίδων που χαρακτηρίζονται από το σχόλιο αi

A(pj) Σύνολο σχολίων που αναφέρονται στη σελίδα pj

Pm(αi) Η mth σελίδα στην οποία αναφέρεται το σχόλιο αi

Am(pi) Το mth σχόλιο που αναφέρεται στη σελίδα pi

Page 8: Optimizing Web Search Using Social Annotations

Social Similarity Ranking (συνέχεια)

Για παράδειγμα τη σελίδα b χαρακτηρίζουν τα σχόλια “ubuntu” και “linux” από τους Ua και Ub αντίστοιχα. Έτσι υπάρχει ένας βαθμός ομοιότητας μεταξύ τους.

Page 9: Optimizing Web Search Using Social Annotations

Social Similarity Ranking (συνέχεια)

Πολυπλοκότητα αλγορίθμου Για κάθε βήμα του αλγορίθμου Ο(ΝΑ

2ΝP2)

Η συνολική πολυπλοκότητα του αλγορίθμου ανάλογη με τα βήματα ώστε ο SSR να συγκλίνει.

Ομοιότητα ερώτησης-σελίδας βασισμένη στον SSR

σύνολο σχολίων Α(p)={α1, .αn}

ερώτηση q={q1,q2,. . .,qn}

Page 10: Optimizing Web Search Using Social Annotations

Social Page Rank Eνημερωμένοι χρήστες προτιμούν δημοφιλείς σελίδες, οι οποίες

αποκομίζουν θερμά σχόλια

ΝΑ Πλήθος σχολίων

ΝU Πλήθος χρηστών

ΜPU Ο ΝP x ΝU πίνακας συσχέτισης μεταξύ σελίδων και χρηστών

ΜAP Ο ΝA x ΝP πίνακας συσχέτισης μεταξύ σχολίων και σελίδων

ΜUΑ Ο ΝU x ΝA πίνακας συσχέτισης μεταξύ χρηστών και σχολίων

ΜPU(pi, uj) Περιέχει το πλήθος των σχολίων του χρήστη ui για τη σελίδα

pj

ΜAP(pi, uj),

MUA(pi, uj)

Όμοια με ΜPU(pi, uj)

P0 Το διάνυσμα που περιέχει τα τυχαία αρχικοποιημένα SPR σκορ

Pi Το διάνυσμα δημοτικότητας μιας σελίδας στην i-οστή επανάληψη

Ui, Ai Όμοια με το Pi

Pi΄, Ui΄, Ai΄ Μέση τιμή

Page 11: Optimizing Web Search Using Social Annotations

Social Page Rank(συνέχεια)

(5.1) η δημοτικότητα των χρηστών αντλείται από τις σελίδες που σχολιάζουν.

(5.2) η δημοτικότητα των σχολίων από τη δημοτικότητα των χρηστών.

(5.3)των σελίδων από των σχολίων. (5.4) των σχολίων από των σελίδων. (5.5)των χρηστών από των σχολίων. (5.6) ξανά των σελίδων από των

χρηστών.

Πολυπλοκότητα Σε κάθε επανάληψη Ο(ΝUNP + ΝANP + ΝUNA).

Page 12: Optimizing Web Search Using Social Annotations

Πειραματικά αποτελέσματα

Σύνολο 1.736.628 σελίδων και 269.566 σχολίων από το

del.icio.us από το Μάιο του 2006.

Λέξεις με μη έγκυρη για τους αλγορίθμους μορφή χωρισμός τους σε στάνταρ όρους με τη βοήθεια του WordNet

πριν την εκτέλεση των πειραμάτων. (π.χ. java.programming ή java/programming)

Page 13: Optimizing Web Search Using Social Annotations

Εκτίμηση της ομοιότητας σχολίων με τον SSR

Για τον αλγόριθμο SSR χρειάστηκαν 12 επαναλήψεις

ώστε να συγκλίνει.

Page 14: Optimizing Web Search Using Social Annotations

Εκτίμηση των SPR αποτελεσμάτων

7 επαναλήψεις μέχρι τη σύγκλιση. Το PageRank κάθε σελίδας υπολογίστηκε επίσης από το

API του Google toolbar.

Στις περισσότερες περιπτώσεις, είναι πιθανόν πολλοί χρήστες να αφιερώνουν πολλά σχόλια σε σελίδες με υψηλότερο PageRank

Page 15: Optimizing Web Search Using Social Annotations

Εκτίμηση των SPR αποτελεσμάτων (συνέχεια)

Σελίδες με PageRank 0 έχουν περισσότερα σχόλια και χρήστες από σελίδες με PageRank 10.

Page 16: Optimizing Web Search Using Social Annotations

Δυναμική διάταξη με τη χρήση κοινωνικών σχολίων

Αποτελέσματα από σύνολα ερωτήσεων Manual ή automatic

“DocSimilarity” ως baseline

MAP:

NDCG:

Page 17: Optimizing Web Search Using Social Annotations

Δυναμική διάταξη με τη χρήση κοινωνικών σχολίων(συνέχεια)

MAP MAP

Page 18: Optimizing Web Search Using Social Annotations

Παράδειγμα

Ερώτηση “airfare” Στο www.excellent-romantic-vacations.com/best-airfare-search-engine.html το kayak έρχεται πρώτο σε προτιμήσεις

Top-4 από 318

Λόγω SSR ομοιότητα με “ticket”, ”flight”, ”hotel”, ”airline”. Επιπλέον σχετικές σελίδες

Page 19: Optimizing Web Search Using Social Annotations

Πλεονεκτήματα-Μειονεκτήματα

Σημαντική βελτίωση των αποτελεσμάτων από την αναζήτηση Οι δύο αλγόριθμοι συγκλίνουν γρήγορα

Λόγω των αραιών πινάκων

Πολυπλοκότητα πολύ μικρότερη από την εκτιμώμενη.

______________________________________________

Χρήστες και σχόλια έχουν εκθετικό ρυθμό ανάπτυξης πιο αργή σύγκλιση των αλγορίθμων

Έλλειψη σχολίων για νέες σελίδες Αδυναμία αποσαφήνισης σχολίων με δισημία

Page 20: Optimizing Web Search Using Social Annotations

Επεκτάσεις

Βελτιστοποίηση του αλγορίθμου SSR για την αντιμετώπιση των εκθετικά αυξανόμενων σχολίων και χρηστών.

Για την αντιμετώπιση σχολίων spam θα μπορούσε πριν από την εκτέλεση των βασικών αλγορίθμων να γίνεται γλωσσολογική ανάλυση και αγνόηση τους.

Υλοποίηση αλγορίθμου για εύρεση ομοιότητας μεταξύ σχολίων και μεταδεδομένων από τον δημιουργό σελίδας. π.χ. annotation – anchor text

Page 21: Optimizing Web Search Using Social Annotations

Ερώτηση

Ποια η σημαντικότερη διαφορά των αλγορίθμων όπως ο PageRank με τον SPR;

Με ποιο τρόπο οι αλγόριθμοι SSR και SPR συνεισφέρουν στην αναζήτηση των σχετικών σελίδων για μία ερώτηση;