Поиск ключевых слов в тексте

23
Information: 1. it is very important thing 2. it’s amount increases very fast

Transcript of Поиск ключевых слов в тексте

Page 1: Поиск ключевых слов в тексте

Information:

1. it is very important thing2. it’s amount increases very fast

Page 2: Поиск ключевых слов в тексте

The problem is:

«How to find necessary information?»

Page 3: Поиск ключевых слов в тексте

Simple example

Consider some E-Libratygen.lib.rus.ec*– library of science literature.Contains moreover than 250k books.

*(it is not advertising, but just example)

Page 4: Поиск ключевых слов в тексте

Search “физика”-993 results

Page 5: Поиск ключевых слов в тексте

Search “закон Ньютона” – 0 results

Page 6: Поиск ключевых слов в тексте

The question appears:

«How to get the list of keywords from each

book?»

Page 7: Поиск ключевых слов в тексте

I’ll try answer it in my coursework

Page 8: Поиск ключевых слов в тексте

Ziph’s law

Page 9: Поиск ключевых слов в тексте

Ziph’s law

Page 10: Поиск ключевых слов в тексте

Ziph’s law

Ziph’s law (1940-s) is empirical law

Page 11: Поиск ключевых слов в тексте

TF-IDF weight

Page 12: Поиск ключевых слов в тексте

TF-IDF weight

Page 13: Поиск ключевых слов в тексте

TF-IDF weight

Result weight = TF*IDF

Page 14: Поиск ключевых слов в тексте

Lemmatisation

Page 15: Поиск ключевых слов в тексте

Lemmatisation

Page 16: Поиск ключевых слов в тексте

Lemmatisation

Mystem – the program which can perform lemmatisation.

For non-commercial use.

By

Page 17: Поиск ключевых слов в тексте

Algorithm

1. Get text2. For each word:– Perform lemmatisation– Find amount of occurances in the text

3. Get list of keywords, using Ziph’s law4. Get more accurate list of words, usint TF-IDF5. Get next text

Page 18: Поиск ключевых слов в тексте

Algorithm of keywords search

Page 19: Поиск ключевых слов в тексте

Algorithm of text search by query

Page 20: Поиск ключевых слов в тексте

Result

The list of keywords (with their weights) for each text

Page 21: Поиск ключевых слов в тексте

Result

Page 22: Поиск ключевых слов в тексте

OWL ontology

Classes:• Library• Text• Keyword

Relations:• Contains• Has keyword• Arrears in text• Has TFIDF equals

Page 23: Поиск ключевых слов в тексте

OWL ontology