Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting....
Transcript of Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting....
![Page 1: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/1.jpg)
Vector Space Model for Search
![Page 2: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/2.jpg)
TF-IDF weighting
![Page 3: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/3.jpg)
ทบทวน vector space model
• โมเดลความหมายของ query และความหมายของ document ด้วย
vector (project query และ document ลงบน space)
• cosine similiarity ในการเปรียบเทียบความหมาย
![Page 4: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/4.jpg)
Cosine similarity ระหว่าง query กับ document
query
![Page 5: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/5.jpg)
query
![Page 6: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/6.jpg)
สูตรไหนใช้ได้ก็ใช้ ใช้ไม่ได้ก็เททิ้งไป
ddd.qqqlnc.ltc
![Page 7: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/7.jpg)
สูตรไหนใช้ได้ก็ใช้ ใช้ไม่ได้ก็เททิ้งไป
![Page 8: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/8.jpg)
Evaluation of Relevance Model - Precision, Recall, F1
![Page 9: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/9.jpg)
The usual
• precision
• recall
• f1 = 2 * (P + R) / (P * R)
![Page 10: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/10.jpg)
The usual
• precision
• recall
• f1 = 2 * (P + R) / (P * R)
จํานวนครั้งที่ทายถูก / จํานวนครั้งที่ทาย
จํานวนเอกสารทายถูกว่าเกี่ยวข้อง / จํานวนเอกสารที่เอามาให้ดู
จํานวนครั้งที่ทายถูก / จํานวนคําตอบที่ถูก
จํานวนเอกสารทายถูกว่าเกี่ยวข้อง / จํานวนเอกสารที่เกี่ยวข้องทั้งหมด
![Page 11: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/11.jpg)
Click data
query doc id rank click?
1 30 1 1
1 12 2 0
1 11 3 1
1 50 4 0
2 12 1 0
2 7 2 0
2 30 3 0
2 4 4 1
![Page 12: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/12.jpg)
Click model
• precision@kจํานวนเอกสารทายถูกว่าเกี่ยวข้อง จํานวนเอกสารที่เอามาให้ดู
• recall@kจํานวนเอกสารทายถูกว่าเกี่ยวข้อง จํานวนเอกสารที่เกี่ยวข้องทั้งหมด
query doc id rank click?
1 30 1 1
1 12 2 0
1 11 3 1
1 50 4 0
2 12 1 0
2 7 2 0
2 30 3 0
2 4 4 1
![Page 13: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/13.jpg)
Evaluation of Relevance Model - nDCG
![Page 14: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/14.jpg)
Rankingquery doc id rank click?
1 30 1 1
1 12 2 0
1 11 3 1
1 50 4 0
2 12 1 0
2 7 2 0
2 30 3 0
2 4 4 1
query doc id rank click?
1 30 1 1
1 11 2 1
1 12 3 0
1 50 4 0
2 4 1 1
2 7 2 0
2 30 3 0
2 12 4 0
![Page 15: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/15.jpg)
![Page 16: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/16.jpg)
Evaluation of IR System
![Page 17: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/17.jpg)
ข้อจํากัดของการใช้ Click Data
• ถ้า doc ที่ดีกว่านี้มันไม่อยู่ใน search results แล้วทําไง
• คลิกเยอะแล้วดีจริงเหรอ
• คลิกน้อยแล้วดีจริงเหรอ
![Page 18: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/18.jpg)
Classic Search Model
Information Need
Query
Search Engine
Results
Documentcollection
ปัญหาของการใช้ Intrinsic evaluation
![Page 19: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/19.jpg)
Metric มาตรวัดไหนดีกว่ากัน
Clickthrough Rate (CTR) อัตราการสั่งอาหารอัตราการจองโรงแรม
อัตราการสั่งซื้อสินค้า
![Page 20: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/20.jpg)
A/B Testing (online testing)
• Word Segmentation —> Thai Character Cluster?
• วิธีการคํานวณ relevance score แบบใหม่
![Page 21: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/21.jpg)
Step 1
• คํานวณ nDCG@k จาก click data เอาให้แน่ใจว่าจะลอง A/B testing
![Page 22: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/22.jpg)
Step 2 สร้าง search engine สองตัว
• Word Segmentation (ของเดิม)
• Thai Character Cluster (อยากลอง)
![Page 23: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/23.jpg)
Step 3 แบ่งกลุ่มผู้ใช้
1% 99%
ของเดิม
Word segmentation
ของใหม่
Thai Character cluster
![Page 24: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/24.jpg)
Step 4 รอนานๆ แล้วดูผล
1% 99%
ของเดิม
Word segmentation
ของใหม่
Thai Character cluster
![Page 25: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/25.jpg)
Step 4 รอนานๆ แล้วดูผล
• ผลต่างมักจะเล็กมากๆๆๆๆๆ ต้องรอเก็บสถิติเยอะๆ ถึงจะแน่ใจว่าผลที่เราเห็นมีนัยสําคัญจริงๆ (ไม่ใช่ฟลุค)
• อัตราการสั่งอาหารอาจจะเพิ่มจาก 0.50% --> 0.51% 0.01% อาจจะเท่ากับรายได้เพิ่มเป็นแสนๆบาทต่อปี
![Page 26: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/26.jpg)
Step 5 ค่อยๆ ถ่ายไประบบใหม่
• ค่อยๆถ่าย traffic ไปยังระบบใหม่
• เช็คว่า effect ที่เห็นนั้นยังอยู่ไม่หายไปไหน
![Page 27: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/27.jpg)
A/B Testing
• ข้อดี
• ชัวร์มากว่าตอบโจทย์ information need รึเปล่า
• จะใช้ metric อะไรก็ได้ที่สนใจและวัดได้
• ข้อเสีย
• ใช้เวลาเยอะ
• ตั้งระบบยาก
![Page 28: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/28.jpg)
Semantic Search (Query Expansion)
![Page 29: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/29.jpg)
ระบบไม่ได้แตะความหมายจริงๆ
• รับสมัครครูมัธยม
• รับสมัครอาจารย์มัธยม
• Lehrer in Berlin
• Lehrerin in Berlin
![Page 30: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/30.jpg)
Semantic Search Hack
• Hack = ลวกๆ ไม่มีหลักการ แต่ว่าลองแล้วมันดันใช้ได้
![Page 31: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/31.jpg)
Lexical Semantics
Token Lexical relation Terms
รับ - รับ
สมัคร antonymy สมัคร, จ้าง
อาจารย์ synonym อาจารย์, ครู
โรงเรียน hypernym โรงเรียน, สถานศึกษา
มัธยม - มัธยม
![Page 32: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/32.jpg)
Computational Lexical Semantics>>>w2v_model.most_similar('อาจารย'์)[('คณาจารย'์,0.5376085042953491),('ลูกศิษย'์,0.4775567650794983),('คร'ู,0.4513567388057709),('นักศึกษา',0.44001448154449463),('ศาสตราจารย'์,0.4223988950252533),('ศิษย์เก่า',0.4189813733100891),('อาจารย์พิเศษ',0.4124056398868561),('ศิษย'์,0.40856611728668213),('นักเรียน',0.40179842710494995),('รองศาสตราจารย'์,0.3998578190803528)]
![Page 33: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/33.jpg)
Query Expansion
• ใช้ (computational) lexical semantics ในการทําความเข้าใจ
query และ document
![Page 34: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/34.jpg)
Semantic Search (Query Understanding)
![Page 35: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/35.jpg)
Query Understanding
• พาสต้า โรแมนติก สีลม ไม่ แพง
![Page 36: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/36.jpg)
พาสต้า โรแมนติก สีลม ไม่ แพง
พาสต้า Category:Italianโรแมนติก Location: สีลม Attribute: ฿฿
Category:ItalianLocation: สีลม Attribute: ฿฿
Category:Italian Location: อุดมสุข Attribute: ฿฿฿฿
![Page 37: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/37.jpg)
Learning to Rank
![Page 38: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/38.jpg)
ปัจจัยอื่นๆ
• ระยะห่างระหว่างคน search
กับร้านอาหาร
• จํานวนดาว
• เปิดอยู่รึเปล่า
![Page 39: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/39.jpg)
ปัจจัยอื่นๆ
• q = ใบตอบรับ อาจารย์
พิทยาวัฒน์
จาก: อาจารย์พิทยาวัฒน์ หัวข้อ: อย่าลืมปิดไฟ10 ม.ค. 2561
จาก: คณะอักษรศาสตร์หัวข้อ: ใบตอบรับ10 ม.ค. 2562
![Page 40: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/40.jpg)
Features for Search
• Score(q, d)
• TermScore(q, d) โดยใช้ TF-IDF
• FromScore(q, d)
• TitleScore(q, d)
• QueryExpansionScore(q, d)
• Distance score(u, d)
• Recency score(u, d)
![Page 41: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/41.jpg)
ทํานายว่าจะ doc จะถูกคลิกมั้ย
query doc id rank click? Term score
Title Score Recency
1 30 1 1 0.6 0.2 5
1 12 2 0 0.4 0.1 10
1 11 3 1 0.35 0.5 3
1 50 4 0 0.2 0.5 2
2 12 1 0 0.9 0.2 4
2 7 2 0 0.2 0.6 2
2 30 3 0 0.1 0.5 1
2 4 4 1 0.1 0.1 4
![Page 42: Vector Space Model for Search - GitHub Pages · Vector Space Model for Search. TF-IDF weighting. ทบทวน vector space model • โมเดลความหมายของ](https://reader033.fdocuments.us/reader033/viewer/2022053004/5f07e9597e708231d41f6081/html5/thumbnails/42.jpg)
Pointwise model
click? Term score
Title Score Recency
1 0.6 0.2 5
0 0.4 0.1 10
1 0.35 0.5 3
0 0.2 0.5 2
0 0.9 0.2 4
0 0.2 0.6 2
0 0.1 0.5 1
1 0.1 0.1 4