1
Three-level approach for Passage Retrieval Three-level approach for Passage Retrieval in Arabic Question/Answering Systemsin Arabic Question/Answering Systems
Lahsen Abouenour1, Karim Bouzoubaa1, Paolo Rosso2
1 Mohammadia School of Engineers, Mohamed Vth University-Agdal
Rabat - Morocco
2 Natural Language Engineering Lab., Universidad Politécnica Valencia, Spain
Mohammadia School of Engineers, Rabat, Morocco - May 2009
The 3rd International Conference on The 3rd International Conference on Arabic Natural Language Processing Arabic Natural Language Processing
2
Arabic Question/Answering Systems
Classical IR
User Query (keywords)
List of documents/links
User Checking Answer toUser Query
1 2
34
???
?
3
Arabic Question/Answering Systems
Question/Answering
User Query (question = keywords+structure)
1
3
List of documents/links
User Checking
2
???
?
Answer toUser Query
4
Existing Arabic Q/A Systems
- QARAB (based on Al-Raya corpus)
- AQAS (extract answers from only structured texts)
- ArabiQA (deal with factoid questions, embeds NER module )
- QASAL (semi-automatic Q/A system for factoid questions )
Arabic Question/Answering Systems
Three Modules
Question Analysis
PassageRetrieval
AnswerExtraction
Question type
Keywords
Named Entities
…
Candidate passage
Passage ranking
…
Answer identification
Answer construction
…
5
Challenges of Arabic Q/A Systems
- short vowels,
- absence of capital letters,
- complex morphology,
-etc.
Arabic Question/Answering Systems
6
Arabic Question/Answering Systems
Question/Answering
User Query (question = keywords+structure)
1
?
Natural Language ( ؟ مراكش مدينة توجد (? Where is the city of Marrakech | أين
-- Keywords : Where | is | the | city | of | Marrakech مراكش | مدينة | توجد | أين
-- Structure :
Where is the city of Marrakech ?
Is Marrakech a city ?
≠توجد ؟ مراكش مدينةأين
≠؟ مدينة مراكش هل
7
Arabic Question/Answering Systems
Question/Answering
Passage Retrieval
2
( ؟ مراكش مدينة توجدأين | Where is the city of Marrakech ?)
Xxxxx مراكش (Marrakech)xxxxxx xx xxx xxxx
Xx xxx xxxxx xxx xxxx xxx xxxx
Xxxxx مدينة (city) xxxxx xx xxx توجد (exist in) xxx
يوجد إقليم مراكش xxx (Morroco) المغرب (the region
of marrakech exists in) xxx Xx xxx xxxxx xxx xxxx
xxx xxxx
Xxxxx xx xxxxx xx xxx xx xxx
Passage 1
Passage N
The answer
No answer
8
Arabic Question/Answering Systems
Question/Answering
Passage Retrieval
2
( ؟ مراكش مدينة توجدأين | Where is the city of Marrakech ?)
Xxxxx مراكش (Marrakech) xxxxxx xx xxx xxxx Xx xxx xxxxx xxx xxxx xxx xxxx
Xxxxx مدينة (city) xxxxx xx xxx توجد (exist in) xxx
Passage 1
Passage N
مدينة | مراكش | توجد
(Is in | Marrakech | city)
إقليم | مراكش | يوجد
(Is in | Marrakech | city)
hyponymy/semanticrelation
Morphologicalrelation
يوجد إقليم مراكش xxx (Morroco) المغرب (the region
of marrakech exists in) xxx Xx xxx xxxxx xxx xxxx
xxx xxxx
Xxxxx xx xxxxx xx xxx xx xxx
9
Arabic Question/Answering Systems
Question/Answering
Passage Retrieval
2
( ؟ مراكش مدينة توجدأين | Where is the city of Marrakech ?)
Xxxxx مراكش xxxxxx xx xxx xxxx
Xx xxx xxxxx xxx xxxx xxx xxxx
Xxxxx مدينة xxxxx xx xxx توجد xxx
يوجد إقليم مراكش xxx المغرب xxx
Xx xxx xxxxx xxx xxxx xxx xxxx
Xxxxx xx xxxxx xx xxx xx xxx
Passage 1 Passage N
Vs
???
With respect to Morphological and Semantic Relation relevance(P1)=relevance(PN)
What about the question structure ?
10
Arabic Question/Answering Systems
Question/Answering
Passage Retrieval
2
( ؟ مراكش مدينة توجدأين | Where is the city of Marrakech ?)
مراكش
مدينة توجد أين
Expected Answer:
في مراكش
مدينة توجد
Question: في مراكش مدينة توجد؟ مراكش مدينة توجدأين (The city of Marrakech is in …) (Where is the city of Marrakech ?)
xxxxx مراكش
xxxxxx xx
Passage 1 structures
xx xxx توجد xxx
xxxxx مدينة xxxx xx
xxxxx مراكش
يوجد إقليم
Passage N structures
11
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Presentation
Semantic Query Expansion (extending the list of keywords related to the user question)
Keyword-based level (candidate passages with related keywords)
Structure-based level (candidate passages with related structure)
Levels
Semantic reasoning level (comparing CG representations)
12
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Presentation
Semantic Query Expansion (Arabic WordNet, Amine Plateform)
Keyword-based PR (Yahoo API)
Structure-based PR (The Java Information Retrieval System - JIRS)
Resources & Tools
Semantic reasoning level (Amine Plateform)
13
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Presentation
Semantic Query Expansion
Ontology
- AWN is a free Lexical resource
- AWN contains Over than 20 000 arabic words grouped into synsets
- AWN is connected with the SUMO (Suggested Upper Merged Ontology)
- SUMO has about 2000 general concept
- SUMO Many relations between concepts (hyponymy, hypernymy, ...)
14
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Presentation
Semantic Query Expansion
Amine Platform
- Amine is a multi-layer platform dedicated to the development
of Intelligent Systems and Multi-Agents Systems
- Amine is an Open Source Platform
- Amine is 100 % Java implementation
- Amine provides a set of operations related to Ontologies
15
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Presentation
Semantic Query Expansion
Content
Arabic WordNet
Structure
Link with SUMO
Temporary DataBase (MySQL)
JAVA Program
Amine AWN ontology
Amine Platform API
16
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Presentation
Semantic Query Expansion
17
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Presentation
Semantic Query Expansion
Global Expansion
Morphological Expansion
AAWN Ontology Expansion
1 - By synonyms
2 – By supertypes
3 – By definition
4 – By subtypes
Concept/Term
18
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Presentation
Structure-based PR
The Java Information Retrieval System (JIRS)
- a language-independent PR system
- adpated for many non-agglutinative European languages (English,
French, Spanish, Italian, ...)
- adapted for the Arabic language
- re-ranking of the retrieved passages is based on a distance density n-
gram model
URL : http://sourceforge.net/projects/jirs/
19
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Evaluation Process
CLEF Questions
The accuracy
We consider only the first five returned passagesThe Mean Reciprocal Rank (MRR)
2 - Automatic Process
Yahoo Semantic QE
Yahoo
Semantic QE
JIRS
JIRSGoogle Semantic QE
1 - Manual Process
Keyword-based Structure-based
TREC Questions
20
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Evaluation Process
The Questions
- a set of 82 of the CLEF and TREC questions
- facoid questions seeking for NE
- significant coverage : questions classified into different domains
21
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Evaluation Process
Keyword-based evaluation
Accuracy and MRR have been improved after using semantic QE
Google (CLEF)
Yahoo (CLEF)
Yahoo(TREC)
no QE QE no QE QE no QE QE
Accuracy 29,26% 32,92% 1,22% 7,32% 5,02 % 6,95 %
MRR 10,15 11,25 0,99 3,25 2,04 2,88
22
Arabic Question/Answering Systems
Our Passage Retrieval Approach : Evaluation Process
Structure-based evaluation
Accuracy and MRR have been improved after using semantic QE
Compared to the keyword-based PR, the structure-based PR givesThe best Accuracy and MRR
Yahoo (CLEF)
Yahoo(TREC)
no QE QE no QE QE
Accuracy 15,85% 19,51% 2,7 % 10,81 %
MRR 5,46 7,85 0,67 4,53
23
Arabic Question/Answering Systems
Semantic Query Expansion
Keyword-based PR
Structure-based PR
Our Passage Retrieval Approach : Evaluation Process
Summarize
Acc. 7,32%
MRR 3,25
Yes No
Acc. 1,22%
MRR 0,99
Acc. 15,85%
MRR 5,46
Acc. 19,51%
MRR 7,85
24
Arabic Question/Answering Systems
Our Passage Retrieval Approach : The semantic reasoning level
Presentation
Question Expected Answer CG-EA
P1
Pi
sub passage
sub passage
CG1
CGi Generalization)CG-Pi,CG-EA(
Semantic score (p1)
Generalization)CG-P1,CG-EA(
Semantic score (pi)
25
Arabic Question/Answering Systems
Our Passage Retrieval Approach : The semantic reasoning level
Example
TREC question: األرض؟ علىسطح نقطة أعلى تقع أين(Where is the highest point on the surface of the earth?" )
ID Rank Passage
P1 1
إلى قمة األرضفي نقطتينوأخفض أعلىباالضافة حيث ترتفع افرست، الهماليا جبال 8848فيعن تكون سطحمتر وبذلك األرض البحر سطح في نقطة اخفض أعلى بينما سطح ، على نقطة
قارات .. . األرض cأّي ضمن أوقيانوسيا في الهادّي المحيط جزر تقع ال البحر قرب تكون
P2 2
األرض كل على إليها ... نقطة ننسب أن يمكن وهكذا ومواز، طول خط تقاطع على تقع القطبين عداوصف أجل من أنه نتذكر أن األرض المهم سطح على على ... نقطة ولهذا عددين، إلى نحتاج
" أسفل " في للكرة المماس من "نقطةالمستوّي انطالقا نقطة" منها . ...أعلى فيها
P3 3ابعاد األرض ولتمثيل ثم ... سطح خفيف مع تتناسب خاصة بنسب األبعاد هذه ترسم ، الخريطة على
عند حاد اإلرتفاع يصبح حتى اإلرتفاع مع اإلنحدار نقطة يزداد . ...أعلى
P4 4هواء كثافة بنفس يتمتع ال المريخ على األرضهواء الجوّي الضغط يبلغ مقابل .... سطحإذ تقع فهي
إلى وتصل الغروب، في تظهر إذ سمائنا؛ في بالضبط نقطة الشمس لها ...أعلى
P5 5
cنا م�ثل قطرها األرضإذا صغيرة كرة فيه ... 457بصورة المفروض كان أعلى ارتفاع فيكون متر ميلي cاألرضأن ) حول ) تدور وغيرها والشمس العالم مركز في الشمس األرضحركة. ... األرضتقع حول
في فسرعتها مدارها على مواضعها هي نقطةباختالف فيما 5كم ... 29.3األوج القطبية األنوار ظهورسطح من كيلومتر ألف إلى أنc ...األرضيرتفع على cيدل
P6 6نقطة جبل اليابسة في أعلى قمة ترتفع إفرستهي عن 8846ألنها في سطحمترا وتقع البحر
على جبل أطول أن والواقع ، الهماليا األرض جبال إذ ...سطح ، هاواّي في موناكي هو
>> Using Google Search Engine
26
Arabic Question/Answering Systems
Our Passage Retrieval Approach : The semantic reasoning level
Example
TREC question: األرض؟ علىسطح نقطة أعلى تقع أين(Where is the highest point on the surface of the earth?" )
ID Structure Score Passage
P1 0,67
إلى قمة األرض في نقطتينوأخفض أعلىباالضافة حيث ترتفع افرست، الهماليا جبال فيعن 8848 تكون سطحمتر وبذلك نقطة البحر األرض في أعلى اخفض سطح بينما على ، نقطة
األرض قارات .. . سطح cأّي ضمن أوقيانوسيا في الهادّي المحيط جزر تقع ال البحر قرب .. .تكون
P6 0,63نقطة اليابسة أعلى جبل في قمة ترتفع إفرستهي عن 8846ألنها في سطحمترا وتقع البحر
جبل أطول أن والواقع ، الهماليا األرض جبال سطح إذ على ، هاواّي في موناكي .. .هو
P2 0,54األرض كل على إليها نقطة ننسب أن يمكن وهكذا ومواز، طول خط تقاطع على تقع القطبين عدا
وصف.. . أجل من أنه نتذكر أن األرض المهم سطح على ولهذا نقطة عددين، إلى .. .نحتاج
P4 0,49هواء كثافة بنفس يتمتع ال المريخ على األرضهواء الجوّي الضغط يبلغ تقع ... . سطحإذ فهي
إلى وتصل الغروب، في تظهر إذ سمائنا؛ في بالضبط الشمس نقطة مقابل .. .لها أعلى
P3 0,39ابعاد على ولتمثيل األرض خفيف .. . سطح مع تتناسب خاصة بنسب األبعاد هذه ترسم ، الخريطة
عند حاد اإلرتفاع يصبح حتى اإلرتفاع مع اإلنحدار يزداد نقطة ثم ... .أعلى
P5 0,29
cنا م�ثل قطرها األرضإذا صغيرة كرة فيكون 457بصورة متر أعلى ميلي المفروض ... ارتفاع كان cأن ( تقع األرضفيه حول ) تدور وغيرها والشمس العالم مركز حول األرضحركة. ... األرضفي
هي األوج نقطة في فسرعتها مدارها على مواضعها باختالف األنوار 5كم ... 29.3الشمس ظهورمن كيلومتر ألف إلى يرتفع فيما األرض القطبية أنc ...سطح على cيدل
>> Passages Ranks after LEVEL 1 (Keyword-based) and LEVEL 2 (Structure-based)
27
Arabic Question/Answering Systems
Our Passage Retrieval Approach : The semantic reasoning level
Example
TREC question: األرض؟ علىسطح نقطة أعلى تقع أين(Where is the highest point on the surface of the earth?" )
The expected answer is: األرضفي علىسطح نقطة أعلى ... تقع
CG-EA : [نقطة]- -attr->[أعلى], -ala->[األرض], <-agnt-[تقع]-fi->[ عام [مفهوم
Passage Generalization (CG-EA, CG-P)
1 [صفة]
2 [صفة]
3 [صفة]
4 [فعل]
5
[ 0نقطة # ] -
-attr->[أعلى], -ala->[األرض]
6 [حدث]-agnt->[نقطة]
28
Arabic Question/Answering Systems
Our Passage Retrieval Approach : The semantic reasoning level
Example
TREC question: األرض؟ علىسطح نقطة أعلى تقع أين(Where is the highest point on the surface of the earth?" )
SemanticScore(P) = ∑(weight(ci)*β(ci,π(ci)))/ ∑(weight(ci) ci C
Semantic Score Formula
ID Semantic Score Passage
P6 0,66إفرست جبل هيقمة اليابسة في نقطة ترتفع أعلى أطول 8846ألنها أن والواقع ، الهماليا جبال في وتقع البحر سطح عن مترا
إذ ، هاواّي في موناكي هو األرض سطح على .. .جبل
P1 0,29
األرض، في نقطتين وأخفض أعلى إلى ترتفع باالضافة الهماليا جبال افرستفي البحر 8848حيثقمة عنسطح متراألرض فيسطح نقطة أعلى تكون الهادّي .. . وبذلك المحيط جزر تقع ال البحر قرب تكون األرض سطح على نقطة اخفض بينما ،
قارات cأّي ضمن أوقيانوسيا .. .في
P5 0,26
قطرها صغيرة كرة بصورة األرض cنا م�ثل العالم ... 457إذا مركز في تقع األرض cأن فيه المفروض كان أعلى ارتفاع فيكون متر ميلي ... . ) هي ) األوج نقطة في فسرعتها مدارها على مواضعها باختالف الشمس حول األرض حركة األرض حول تدور وغيرها 29.3والشمس
أنc ...5كم ... على cيدل األرض سطح من كيلومتر ألف إلى يرتفع فيما القطبية األنوار ظهور
P3 0,20حتى .. . اإلرتفاع مع اإلنحدار يزداد ثم خفيف مع تتناسب خاصة بنسب األبعاد هذه ترسم ، الخريطة على األرض سطح ابعاد ولتمثيل
نقطة أعلى عند حاد اإلرتفاع ... .يصبح
P4 0,19إذ ... . سمائنا؛ في بالضبط الشمس مقابل تقع فهي سطح على الجوّي الضغط يبلغ إذ األرض هواء كثافة بنفس يتمتع ال المريخ هواء
لها نقطة أعلى إلى وتصل الغروب، في .. .تظهر
P2 0,04وصف .. . أجل من أنه نتذكر أن المهم إليها ننسب أن يمكن وهكذا ومواز، طول خط تقاطع على تقع القطبين عدا األرض على نقطة كل
ولهذا عددين، إلى نحتاج األرض سطح على .. .نقطة
29
Conclusion & Future Work
Covering all CLEF and TREC questions
Automating the semantic reasoning level module
Conducting corresponding experiments
Integrating more enriched releases of Arabic WordNet
The keyword-based and structure-based levels of our Arabic PR approach
have improved the Accuracy and the MRR in the context of Q/A systems
A semantic reasoning level on top of the first and second levels could
impove even more the reached performances
Top Related