Frokostseminar mai 2010 solr open source cominvent as

Post on 26-Jun-2015

832 views 2 download

Tags:

description

Slides fra frokostseminar om Open Souce søk med Apache Lucene/Solr i Oslo mai 2010. Dette var et arrangement av Cominvent AS og FindWise AB. Presentation is in Norwegian language

Transcript of Frokostseminar mai 2010 solr open source cominvent as

© FINDWISE, COMINVENT 2010

Open Source & Apache Lucene/SolrFrokostseminar Oslo 5. mai 2010

cominvent asEnterprise Search Experts

cominvent as

Cominvent AS: Jan Høydahl

● IT architect, 15 years with search, telecom, mobile

● Helped build FAST's Global Services as first engineer

● Founder of Cominvent AS● Search consultant 10 years● Certified Solr instructor

cominvent as

Cominvent AS: Consulting

– Cominvent delivers independent search consulting– Focus on Apache Lucene/Solr & Microsoft FAST ESP

– Idea – architecture – implementation

cominvent as

Cominvent AS: Commercial Support

– When community & mailing list support is not enough..– Paid support agreement for Apache Solr/Lucene– In cooperation with Lucid Imagination

– Read more: http://www.cominvent.com/support/

cominvent as

Cominvent AS: Training

– Cominvent AS delivers training public and on-site– Certified Solr Training Partner for Lucid Imagination– Certified FAST ESP Training Partner

– Read more: http://www.cominvent.com/training/

Photo: fluidpowerzone.com

cominvent as

Solr kurs

Hva er Open Source?

«Åpen Kildekode betyr at kildekoden tl et dataprogram er gjort tlgjengelig

(ofe på Internet) for alle.» (Wikipedia)

Fri programvare er programvare som gir mer frihet, eierskap og feksibilitet.

Det er ingen som dikterer hva man kan gjøre eller hvilken leverandør som må

benytes. Man kan gjøre endringer i programvaren eter eget ønske, og man

kan dele programvaren med andre, om ønskelig.

Fri programvare er ikke nødvendigvis grats for bedrifer og organisasjoner.

Selv om lisensen ikke koster penger, kommer allikevel levetdskostnader.

(friprog.no)

De mest kjente...

Funker det for «seriøse» bedrifter?

Årsaker tl at noen er motvillige tl åpen kildekode:

Hvordan kan vi vite at kvaliteten er god?

Hvem ringer vi ved problemer?

Hva med sikkerheten?

Usikkerhet rundt fremtd og oppdateringer

Forstår ikke modellen

Policy

FUD

Hvorfor Fri Programvare?

Open Source tar markedsandeler

Open Source Sofware vinner markedsandeler hvert år.

Fra 13% i 2007 tl 27% i 2010

Kilde: Gartner

2010

Hvorfor går folk over til Open Source

Hvor viktg var reduksjonen i kostnader når du valgte Open Source?

Kilde: The 451 Group

Hvorfor forblir folk ved Open Source?

Eter å ha gjort overgangen tl åpen kildekode, hva var den største gevinsten?

Kilde: The 451 Group

Fra Forrester/Unisys:

•62% view open source soft ware as capable of delivering signifi cant business payback

•80% viewed factors other than cost such as open standards support, use of code, and avoiding lock-in

•58% of IT execs reported that they now use Open Source for mission-criti cal applicati ons

Hvordan utvikles Open Source?

Kildekoden er tlgjengelig for alle fra SCM

Brukere og utviklere danner et fellesskap

Alle kan bidra med kodeforbedringer, feilrapporter, dokumentasjon etc

En kjerne av utviklere, ofe betalt av bedrifer som bruker produktet

Virtuell utviklerorganisasjon

Eksempel:

En bruker fnner en feil og reter den samme dag. Feilfksen sendes tlbake tl

fellesskapet og blir umiddelbart tlgjengelig for andre.

Med lukket programvare tar det ofe uker eller måneder før en feil retes.

Om Apache Software Foundation

•Startet i Juni 1999, ut fra Apache Web Server

•Ideell organisasjon/stfelse

•Ca 60 toppnivå-prosjekter med fere underprosjekter

•Tekniske eksperter leder hvert prosjekt

•Apache-lisensen er meget liberal og business-vennlig

- I praksis kan du gjøre hva du vil med programvaren

Apache Lucene

•Programvarebibliotek for søk, skrevet i Java

•Ble et Apache-prosjekt i September 2001

•Den mest utbredte indeks-motoren på markedet

•Finnes innebygget i mange andre tjenester og programmer

•Powered by Lucene:

Apache Lucene

Apache Nutch

•Også fra Apache Foundaton

•Web-søkemotor

•Bygger på Lucene

•Spesialisert på å crawle og prosessere HTML + andre formater

•Bygget for å skalere tl milliarder av dokumenter

•Kan kombineres med Solr

Apache Tika

•Bibliotek for å ekstrahere tekst fra rike dokumentormater

•Støte for mange formater:

PDF, Word, Excel, PowerPoint, Open Document – ODT, ODS, ODP, RTF

•Kan også ekstrahere data fra rik media

GIF, JPG, MP3, MOV...

•Utvides stadig med støte for nye formater

•Savner du et format? Enkelt rammeverk for å plugge inn egne parsere.

•Tika er integrert i bl.a. Nutch og Solr

Apache Mahout

•Avansert samling skalerbare maskinlærings-biblioteker

•Bruker Hadoop Map/Reduce

•Apache-prosjekt siden 2008

•Eksempel på bruk

•Recommendatons

•Clustering

•Automatsk klassifsering

•++

•Antas å integreres i Lucene/Solr i fremtden

OpenPipeline

•Generisk prosesseringsmodul for søkemotorer

•Laget av Dieselpoint Inc.

•Ble gjort Open Source i 2008

•Skrevet som en Java web-applikasjon

•Tilbyr crawling- og avansert dokument-prosessering

•Let å integrere med mange ulike søkemotorer

Apache Solr

● Søke-server basert på Lucene

● Gjør det enkelt å legge tl søk på sin tjeneste/applikasjon

● Krever ingen programmering – alt er XML/HTTP og åpne APIer

● Utviklet av CNET Networks i 2004

● Kildekoden donert tl Apache i 2006

● Versjon 1.4 ble utgit november 2009

● Brukes av store bedrifer verden over

Funksjonalitet

• Rikt spørrespråk med bl.a.

• Boolske operatorer AND, OR, NOT

• Fuzzy søk og fonetsk søk

• Sortering i fere nivåer

• Nær sanntds indeksering av

strukturerte og ustrukturerte data

• Faset-navigering

• Avansert kontroll over relevans

• Did you mean stavekontroll

• GEO-søk

• Clustering

• Sikkerhet

Bruksområder

25

XML/HTTP

Snakker med alle plattformer

Data inn i søkemotoren

Eksempel med XML input

Data ut (spørring)

http://localhost:8080/solr/select?q=car&fl=id,title

Eller med en litt penere presentasion...

Eksempel på en installasjon m/feiltoleranse

Arkitektur

30

cominvent as

Thank You

www.cominvent.com

www.twitter.com/cominvent

jh@cominvent.com