Post on 26-Jun-2015
description
© FINDWISE, COMINVENT 2010
Open Source & Apache Lucene/SolrFrokostseminar Oslo 5. mai 2010
cominvent asEnterprise Search Experts
cominvent as
Cominvent AS: Jan Høydahl
● IT architect, 15 years with search, telecom, mobile
● Helped build FAST's Global Services as first engineer
● Founder of Cominvent AS● Search consultant 10 years● Certified Solr instructor
cominvent as
Cominvent AS: Consulting
– Cominvent delivers independent search consulting– Focus on Apache Lucene/Solr & Microsoft FAST ESP
– Idea – architecture – implementation
cominvent as
Cominvent AS: Commercial Support
– When community & mailing list support is not enough..– Paid support agreement for Apache Solr/Lucene– In cooperation with Lucid Imagination
– Read more: http://www.cominvent.com/support/
cominvent as
Cominvent AS: Training
– Cominvent AS delivers training public and on-site– Certified Solr Training Partner for Lucid Imagination– Certified FAST ESP Training Partner
– Read more: http://www.cominvent.com/training/
Photo: fluidpowerzone.com
cominvent as
Solr kurs
Hva er Open Source?
«Åpen Kildekode betyr at kildekoden tl et dataprogram er gjort tlgjengelig
(ofe på Internet) for alle.» (Wikipedia)
Fri programvare er programvare som gir mer frihet, eierskap og feksibilitet.
Det er ingen som dikterer hva man kan gjøre eller hvilken leverandør som må
benytes. Man kan gjøre endringer i programvaren eter eget ønske, og man
kan dele programvaren med andre, om ønskelig.
Fri programvare er ikke nødvendigvis grats for bedrifer og organisasjoner.
Selv om lisensen ikke koster penger, kommer allikevel levetdskostnader.
(friprog.no)
De mest kjente...
Funker det for «seriøse» bedrifter?
Årsaker tl at noen er motvillige tl åpen kildekode:
Hvordan kan vi vite at kvaliteten er god?
Hvem ringer vi ved problemer?
Hva med sikkerheten?
Usikkerhet rundt fremtd og oppdateringer
Forstår ikke modellen
Policy
FUD
Hvorfor Fri Programvare?
Open Source tar markedsandeler
Open Source Sofware vinner markedsandeler hvert år.
Fra 13% i 2007 tl 27% i 2010
Kilde: Gartner
2010
Hvorfor går folk over til Open Source
Hvor viktg var reduksjonen i kostnader når du valgte Open Source?
Kilde: The 451 Group
Hvorfor forblir folk ved Open Source?
Eter å ha gjort overgangen tl åpen kildekode, hva var den største gevinsten?
Kilde: The 451 Group
Fra Forrester/Unisys:
•62% view open source soft ware as capable of delivering signifi cant business payback
•80% viewed factors other than cost such as open standards support, use of code, and avoiding lock-in
•58% of IT execs reported that they now use Open Source for mission-criti cal applicati ons
Hvordan utvikles Open Source?
Kildekoden er tlgjengelig for alle fra SCM
Brukere og utviklere danner et fellesskap
Alle kan bidra med kodeforbedringer, feilrapporter, dokumentasjon etc
En kjerne av utviklere, ofe betalt av bedrifer som bruker produktet
Virtuell utviklerorganisasjon
Eksempel:
En bruker fnner en feil og reter den samme dag. Feilfksen sendes tlbake tl
fellesskapet og blir umiddelbart tlgjengelig for andre.
Med lukket programvare tar det ofe uker eller måneder før en feil retes.
Om Apache Software Foundation
•Startet i Juni 1999, ut fra Apache Web Server
•Ideell organisasjon/stfelse
•Ca 60 toppnivå-prosjekter med fere underprosjekter
•Tekniske eksperter leder hvert prosjekt
•Apache-lisensen er meget liberal og business-vennlig
- I praksis kan du gjøre hva du vil med programvaren
Apache Lucene
•Programvarebibliotek for søk, skrevet i Java
•Ble et Apache-prosjekt i September 2001
•Den mest utbredte indeks-motoren på markedet
•Finnes innebygget i mange andre tjenester og programmer
•Powered by Lucene:
Apache Lucene
Apache Nutch
•Også fra Apache Foundaton
•Web-søkemotor
•Bygger på Lucene
•Spesialisert på å crawle og prosessere HTML + andre formater
•Bygget for å skalere tl milliarder av dokumenter
•Kan kombineres med Solr
Apache Tika
•Bibliotek for å ekstrahere tekst fra rike dokumentormater
•Støte for mange formater:
PDF, Word, Excel, PowerPoint, Open Document – ODT, ODS, ODP, RTF
•Kan også ekstrahere data fra rik media
GIF, JPG, MP3, MOV...
•Utvides stadig med støte for nye formater
•Savner du et format? Enkelt rammeverk for å plugge inn egne parsere.
•Tika er integrert i bl.a. Nutch og Solr
Apache Mahout
•Avansert samling skalerbare maskinlærings-biblioteker
•Bruker Hadoop Map/Reduce
•Apache-prosjekt siden 2008
•Eksempel på bruk
•Recommendatons
•Clustering
•Automatsk klassifsering
•++
•Antas å integreres i Lucene/Solr i fremtden
OpenPipeline
•Generisk prosesseringsmodul for søkemotorer
•Laget av Dieselpoint Inc.
•Ble gjort Open Source i 2008
•Skrevet som en Java web-applikasjon
•Tilbyr crawling- og avansert dokument-prosessering
•Let å integrere med mange ulike søkemotorer
Apache Solr
● Søke-server basert på Lucene
● Gjør det enkelt å legge tl søk på sin tjeneste/applikasjon
● Krever ingen programmering – alt er XML/HTTP og åpne APIer
● Utviklet av CNET Networks i 2004
● Kildekoden donert tl Apache i 2006
● Versjon 1.4 ble utgit november 2009
● Brukes av store bedrifer verden over
Funksjonalitet
• Rikt spørrespråk med bl.a.
• Boolske operatorer AND, OR, NOT
• Fuzzy søk og fonetsk søk
• Sortering i fere nivåer
• Nær sanntds indeksering av
strukturerte og ustrukturerte data
• Faset-navigering
• Avansert kontroll over relevans
• Did you mean stavekontroll
• GEO-søk
• Clustering
• Sikkerhet
Bruksområder
25
XML/HTTP
Snakker med alle plattformer
Data inn i søkemotoren
Eksempel med XML input
Data ut (spørring)
http://localhost:8080/solr/select?q=car&fl=id,title
Eller med en litt penere presentasion...
Eksempel på en installasjon m/feiltoleranse
Arkitektur
30
cominvent as
Thank You
www.cominvent.com
www.twitter.com/cominvent
jh@cominvent.com