Explorative und Semantische Suche mit Mediaglobe
-
Upload
harald-sack -
Category
Technology
-
view
1.199 -
download
0
description
Transcript of Explorative und Semantische Suche mit Mediaglobe
Harald SackInternet Technologies and Systems (ITS) Future Internet Technologies / Semantic TechnologiesHasso-Plattner-Institute for IT Systems Engineering
Vom Suchen und Finden in multimedialen Archiven der nächsten GenerationIRT Symposium, 1.-2. Dezember 2010, München
Explorative und Semantische Suche mit Mediaglobe
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
2
• Semantic Technologies & Multimedia Retrieval
• Projekt Mediaglobe
• Semantische Suche in audiovisuellen Daten
• Audiovisuelle Analyse und Metadatengenerierung
• Semantische Analyse
• Explorative Suche
Explorative und Semantische Suche mit Mediaglobe
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
3
Semantic Technologies & Multimedia Retrieval @ HPI
• Hasso Plattner Institute for IT Systems Engineering
• ca. 500 Students / >100 Researchers
• Forschungsgruppe ,Semantic Technologies & Multimedia Retrieval‘
• Research Topics
• Semantic Web Technologies
• Ontological Engineering
• Information Retrieval
• Multimedia Analysis & Retrieval
• Social Networking
• Data/Information Visualization
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
4
Semantic Technologies & Multimedia Retrieval
•Research Projects
http://www.yovisto.com
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
5
• Semantic Technologies & Multimedia Retrieval
• Projekt Mediaglobe
• Semantische Suche in audiovisuellen Daten
• Audiovisuelle Analyse und Metadatengenerierung
• Semantische Analyse
• Explorative Suche
Explorative und Semantische Suche mit Mediaglobe
Freitag, 10. Dezember 2010
• THESEUS Mittelstand Projekt
• assoziiert mit dem THESEUS AnwendungsszenarioCONTENTUS - Technologien für die Mediathek der Zukunft
• Laufzeit: Sept 2009 – Sept. 2011 (Juni 2012)
• 4 Projektpartner
• Ziel:
• Öffnung von audiovisuellen Medienarchiven mit historischen und dokumentarischen Inhalten zur inhaltsbasierten semantischen und explorativen Suche
• Business Case:
• Infrastruktur (SaS) zur semantischen Suche für Medienarchive, Produzenten und Distributoren
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
6
Projekt Mediaglobe - About
http://www.projekt-mediaglobe.de
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
7
Projekt Mediaglobe - Partner
Project Management Research & Development
AV Archive Media Asset Management
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
8
Projekt Mediaglobe - Themenschwerpunkte
Automatisierte Medienanalyse
Semantische Suche
Digitale audiovisuelle Medien
Rechtemanagement
Anforderungen der Medienarchive
Innovative User Interfaces
Metadatengenerierung
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
9
Projekt Mediaglobe - Topics
Topic: Anforderungsanalyse und AV-Bestandsanalyse Bundesweite Erfassung von > 200 Medienarchiven zuThemen Digitalisierung Online Distribution undRechtesituation
Topic: Effiziente Digitalisierung von AV-Archiven Workflow und Best Practices abgestimmt auf dieAnforderungen der Archive
Topic: Software Enabled Digital Rights Management Workflow-Definition und Best Practices für rechtliche Handlungsrahmen und softwarebasierte Rechteprüfung
Topic: Automatisierte AV Medienanalyse Extraktion textueller und semantischer Metadaten für die semantische Suche
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
10
Projekt Mediaglobe - Topics
Topic: Metadata Engineering Definition, Interlinking und Validierung eines (semantischen) Metadatenmodells für Medienarchive
Topic: Semantische SucheKombination semantischer Metadaten unterschiedlicher Provenienz in einem semantischen Suchindex zur Gewährleistung einer leistungsfähigensemantischen und explorativen Multimediasuche
Topic: User Interface Design Unterstützung innovativer Suchstrategien mit geeigneten Visualisierungen und interaktiven Benutzerschnittstellen
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
11
Projekt Mediaglobe - Verantwortlichkeiten
Structural AV-SegmentationIntelligent Character RecognitionFace/Body DetectionGenre DetectionSpeaker DetektionAutomated Speech Recognition
Ontology DesignEntity-Mapping / Schema MappingSemantic Enabled Retrieval Exploratory SearchGUI Design Data/Information Visualization
Media Asset ManagementDistribution
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
12
Projekt Mediaglobe - Verantwortlichkeiten
Structural AV-SegmentationIntelligent Character RecognitionFace/Body DetectionGenre DetectionSpeaker DetektionAutomated Speech Recognition
Ontology DesignEntity-Mapping / Schema MappingSemantic Enabled Retrieval Exploratory SearchGUI Design Data/Information Visualization
Media Asset ManagementDistribution
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
13
• Semantic Technologies & Multimedia Retrieval
• Projekt Mediaglobe
• Semantische Suche in audiovisuellen Daten
• Audiovisuelle Analyse und Metadatengenerierung
• Semantische Analyse
• Explorative Suche
Explorative und Semantische Suche mit Mediaglobe
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
14
Semantische Suche in audiovisuellen Daten
Wie findet man etwas in einem audiovisuellen Archiv?
• Damit audiovisuelle Daten einer computergestützten gezielten Suche zugänglich werden, müssen Beschreibungen, Schlüsselwörter, etc. üblicherweise Textform vorliegen.
Manuelle Analyse und Annotation
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
15
Semantische Suche in audiovisuellen Daten
Inhaltsbezogene Videoanalyse■ Ergebnis: Videosegmente mit beigeordneten, zeitbezogenen Metadaten
■ Automatische Medienanalyse und Metadatenextraktion
■ Strukturelle Analyse / Video OCR / Automated Speech Recognition / Audio Mining / Speaker Detection / Genre Detection / ...
■ (textuelle) Metadaten dienen als Basis für klassisches Information Retrieval
Metadata Extractiontime
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
16
Semantische Suche in audiovisuellen Daten
Improving Retrieval with Semantic Annotation
time
e.g., person xy
location yz
event abc
e.g., bibliographical data,geographical data,encyclopaedic data, ..
Metadata Extraction
Entity Recognition/ Mapping
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
17
• Semantic Technologies & Multimedia Retrieval
• Projekt Mediaglobe
• Semantische Suche in audiovisuellen Daten
• Audiovisuelle Analyse und Metadatengenerierung
• Semantische Analyse
• Explorative Suche
Explorative und Semantische Suche mit Mediaglobe
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
18
Audiovisuelle Analyse und Metadatengenerierung
AutomatedMedia Analysis
Structural Analysis
Intelligent CharacterRecognition
Face Detection + Tracking
Audio Analysis
Genre Analysis
SemanticAnalysis
Context
Entity Mapping
Evaluation Framework
Media Transcoding
Persistent S
torage
UIMA - Unstructured Information Management Architecture
digitizedAV-Media
SemanticSearch
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
19
video
scenes
shots
subhots
frames
Structural Analysis
Audiovisuelle Analyse und Metadatengenerierung
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
20
Structural Analysis
shots
• Shot Boundary Detection
• Identification of• Hard Cuts• Drop Outs• Soft Cuts, as e.g., Dissolve, Wipe, Cross-Fade, etc.
Analytical Shot Boundary Detection• Analysis of Luminance/Chrominance Histograms• Analysis of Edge Distribution• Analysis of Motion Vectors
Machine Learning• Classification of Hard/Soft Cuts based on Image Features• K-Nearest Neighbor• Random Forrest • Support Vector Machines
Histogram Difference Analysis
Audiovisuelle Analyse und Metadatengenerierung
Motion Vector Analysis
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
21
• Preprocessing• keyframe extraction• text detection• text separation• Adaption of script geometry (Deskew)• image quality enhancement
• Optical Character Recognition (OCR)• with standard software (tesseract/ocropus)
• Postprocessing• Keyterm spotting• Lexical analysis • Statistical filtering
Intelligent Character Recognition
Prof. Rudolf AgstenLDPD
Audiovisuelle Analyse und Metadatengenerierung
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
22
• Overall System Workflow
Intelligent Character Recognition
Audiovisuelle Analyse und Metadatengenerierung
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
23Intelligent Character Recognition
(a) Original
(f) Mask after erosion & dilation(e) Binarized(d) Normalized
(c) Weighted DCT(b) DCT
• DCT Based Text Detection
Audiovisuelle Analyse und Metadatengenerierung
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
24Intelligent Character Recognition
• Classifier Based Text Detection
Edge filtering
features sequence: ........ ........
reference vector: 0 0 0 ........ 1 ........ 0 0 0 0
randomforest
feature vector
reference vectorclassifiers
feature vector: {V0..Vn, V0..Vn, V0..Vn,......, V0..Vn, ............., V0..Vn, V0..Vn}
Audiovisuelle Analyse und Metadatengenerierung
training
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
25Intelligent Character Recognition
• Scale Invariant Text Detection
scaled edge images
classifier basedfixed scale
text detection
scale integratedresult mask
Audiovisuelle Analyse und Metadatengenerierung
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
26Intelligent Character Recognition
(h) sequence 1
(i) sequence 2
(k) Adapted sequence 2
(j) Adapted sequence 1
Audiovisuelle Analyse und Metadatengenerierung
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
27
• Semantic Technologies & Multimedia Retrieval
• Projekt Mediaglobe
• Semantische Suche in audiovisuellen Daten
• Audiovisuelle Analyse und Metadatengenerierung
• Semantische Analyse
• Explorative Suche
Explorative und Semantische Suche mit Mediaglobe
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
28• Entity Mapping
• Mapping keyterms (text) to semantic entities• Context Analysis and Disambiguation
Truman
Keyterm / User Tag
Truman Capote
Harry S. Truman
Truman, Minesota
The Truman Show
?
?
?
?
Semantic Analysis
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
29• Entity Mapping
• Mapping keyterms (text) to semantic entities• Context Analysis and Disambiguation
Truman Context Defining Elements• Time-related Metadata • Same Time Point • Adjacent Time Points / Segments
• Metadata Provenance• User-generated Metadata• Authoritative Metadata• Automated Analysis
Semantic Analysis
PotsdamEisenhower
Inauguration
Context• Statistical /Linguistic Methods (Co-Occurrence Analysis)• Semantic Methods (Semantic Graph Analysis)• Machine Learning
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
30• Entity Mapping by Semantic Graph Analysis
Truman
Keyterm / User Tag
LOD Cloud
Semantic Analysis
PotsdamEisenhower
Inauguration
Context
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
31 • Entity Mapping by Co-Occurrence Analysis
Semantic Analysis
Truman
Keyterm / User Tag
PotsdamEisenhower
Inauguration
ContextWeight(Harry S. Truman): 0.87
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
32 • Core Components of Mediaglobe‘s Semantic Search• Creation of a Semantic Search Index• Query String Mapping • Query String Refinement• Facetted Search• Search by Timeline• Geographical Search
• Exploratory Search...
Semantic Search
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
33
• Semantic Technologies & Multimedia Retrieval
• Projekt Mediaglobe
• Semantische Suche in audiovisuellen Daten
• Audiovisuelle Analyse und Metadatengenerierung
• Semantische Analyse
• Explorative Suche
Explorative und Semantische Suche mit Mediaglobe
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
34
Explorative Suche
Information und wo/wie man sie findet•...früher ging man z.B. in die Bibliothek
Ich suche das Buch „Brave New World“ von Aldous Huxleyin der ersten in Deutschland erschienenen Ausgabe...
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
35
Explorative Suche
Information und wo/wie man sie findet•...früher ging man z.B. in die Bibliothek
Ich suche das Buch „Brave New World“ von Aldous Huxleyin der ersten in Deutschland erschienenen Ausgabe...
Brave New World. - Aldous H U X L E Y. - The Albatros Continental Library, 47 (Hamburg usw., Albatros Verlag, 1933) 257 S. 8“
II 1, 2506, 34548
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
36
Explorative Suche
Information und wo/wie man sie findet•...aber was, wenn man nicht genau weiß, was man sucht?
Mir hat das Buch „Brave New World“ von Aldous Huxley gefallen und ich möchte Bücher mit ähnlicher Thematik lesen....
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
37
Explorative Suche
Explorative Suche• Was, wenn der Benutzer nicht weiß, welchen Suchbegriff er/sie benutzen soll?
• Was, wenn der Benutzer komplexere Antworten sucht?
• Was, wenn er/sie das Wissensgebiet, über das er sich informieren will, nicht (gut) kennt?
• Was, wenn er/sie wissen möchte, welche Dokumente es insgesamt zu einem speziellen Thema in einem Repository gibt?
• Das Problem ist nicht neu....
• ...,Stöbern‘ statt ,Suchen‘
• ...etwas ,zufällig‘ finden (Serendipity)
• ...einen Überblick gewinnen
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
38
Explorative Suche
■How to Explore the Web of Data?
dbpedia:Aldous_Huxley
Wie soll das semantischeNetzwerk um dbpedia:Aldous_Huxleyherum durchsucht werden?
http://dbpedia.org/page/Aldous_Huxley
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
39
Explorative Suche
■How to Explore the Web of Data?
Aldous Huxley
Yago:EnglishScienceFictionWriters
rdfs:type
dbpedia:ontology/influences
George Orwell
rdfs:type
dbpedia:ontology/influences
H.G. Wells
rdfs:type
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
40
Explorative Suche
Aldous Huxley
dbpedia:ontology/influences
George Orwell
dbpedia:ontology/influences
Kurt Vonnegut
dbpedia:notableWorks dbpedia:notableWorks
Freitag, 10. Dezember 2010
■Problem: Was ist eigentlich wichtig?
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
41
Explorative Suche
http://dbpedia.org/page/Aldous_Huxley
Aldous Huxley
• z.B.., Aldous Huxley• > 600 Fakten (RDF-triples)• > 80 Eigenschaften (properties)• keine Reihenfolge• keine Relevanzbewertungen
• Linked Data beinhaltet ungewichtetes Wissen• ungewichtet = keine Unterscheidung, ob wichtig oder unwichtig
• Entwicklung von heuristischenVerfahren zur Relevanzbewertungvon Linked Data Fakten• semantische Graphenanalyse• statistische Verfahren
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
42
Waitelonis, Sack: Augmenting Video Search with Linked Open Data, in Proc. I-Semantics , Graz 2009.http://mediaglobe.yovisto.com:8080/
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
43
Explorative Suche
Innovative User Interfaces
Exploratives Suchkonzept
Aktivierte Facetten
+ Vorschläge
+ geografische Suche + zeitbasierte Suche
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
44
Explorative Suche
Innovative User Interfaces
Freitag, 10. Dezember 2010
Dr. Harald Sack, Explorative und Semantische Suche in Mediaglobe, IRT Symposium, 1.-2. Dezember 2010, München
45
• Semantic Technologies & Multimedia Retrieval
• Projekt Mediaglobe
• Semantische Suche in audiovisuellen Daten
• Audiovisuelle Analyse und Metadatengenerierung
• Semantische Analyse
• Explorative Suche
Explorative und Semantische Suche mit Mediaglobe
Vielen Dank fü
r
Ihre Aufmerksamkeit!
Freitag, 10. Dezember 2010