OPEN SOURCE BUSINESS INTELLIGENCE · 2010-09-22 · Anbieter wie Jaspersoft, Pentaho oder auch das...

26
MÖGLICHKEITEN, CHANCEN UND RISIKEN QUELLOFFENER BI-LÖSUNGEN uwe Haneke stephan traHascH tobias Hagen tobias LaUer (Hrsg.) OPEN SOURCE BUSINESS INTELLIGENCE

Transcript of OPEN SOURCE BUSINESS INTELLIGENCE · 2010-09-22 · Anbieter wie Jaspersoft, Pentaho oder auch das...

Page 1: OPEN SOURCE BUSINESS INTELLIGENCE · 2010-09-22 · Anbieter wie Jaspersoft, Pentaho oder auch das deutsche Unternehmen Jedox sehen sich immer mehr in der Lage, den klassischen BI-Anbietern,

MÖGLICHKEITEN, CHANCEN UND RISIKEN QUELLOFFENER

BI-LÖSUNGEN

uwe Haneke

stephan traHascH

tobias Hagen

tobias LaUer

(Hrsg.)

OPEN SOURCE BUSINESS

INTELLIGENCE

Page 2: OPEN SOURCE BUSINESS INTELLIGENCE · 2010-09-22 · Anbieter wie Jaspersoft, Pentaho oder auch das deutsche Unternehmen Jedox sehen sich immer mehr in der Lage, den klassischen BI-Anbietern,

5

Inhalt

Seite

Vorwort .................................................................................................................................. 9

1 Einführung 11

1.1 Warum Open Source Business Intelligence? .......................................................... 121.1.1 Business Intelligence ................................................................................... 121.1.2 Open Source Business Intelligence ............................................................ 131.1.3 Zum Aufbau des Buches ............................................................................. 151.1.4 Ziele und Zielgruppen des Buches ............................................................ 16

1.2 Business Intelligence: Überblick und aktuelle Trends ........................................... 181.2.1 Der technische BI-Begriff als Sammelbezeichnung für multidimensional speichernde Informationssysteme und deren Werkzeuge ......................................................................................... 181.2.2 Werkzeuge der Datensammlung und -verteilung ................................... 201.2.3 Werkzeuge der Informationsaufbereitung und -bereitstellung ............. 231.2.4 Werkzeuge der Analyse und Präsentation der Informationen .............. 301.2.5 Metadatenmanagement .............................................................................. 371.2.6 Die Referenzarchitektur als Zusammenfassung technischer BI-Elemente .................................................................................................. 371.2.7 Die betriebswirtschaftliche BI-Anwendung als kontinuierlicher Anreiz zur technischen Innovation ........................................................... 391.2.8 BI-Architekturen und ihre technische Evolution .................................... 401.2.9 BI-Industrialisierung durch allgemeinen IT-Fortschritt ........................ 43

1.3 Open Source ................................................................................................................ 451.3.1 Historische Wurzeln .................................................................................... 451.3.2 Lizenzmodelle und ihre Grenzen .............................................................. 471.3.3 Open Content ............................................................................................... 501.3.4 Open-Source-Software als Innovationsmotor ......................................... 511.3.5 Sicherheit von Open-Source-Software ...................................................... 521.3.6 Wirtschaftliche Bedeutung von Open Source ......................................... 531.3.7 Quellen für Open-Source-Software .......................................................... 551.3.8 Open Source im kommerziellen Einsatz .................................................. 57

2 Architekturen und Kosten 59

2.1 BI-Strategie .................................................................................................................. 602.1.1 Aspekte der BI-Strategie .............................................................................. 602.1.2 Open Source als Teil der IT- bzw. BI-Strategie ........................................ 65

2.2 BI-Architektur: Anforderungen und Ausprägungen ............................................ 672.2.1 „BI Light“: Berichte und Analysen ohne Data Warehouse .................... 692.2.2 Data Warehouse und Enterprise Data Warehouse .................................. 712.2.3 Sonderfall Planungs- und Budgetierungsprozesse .................................. 762.2.4 BI und Enterprise Content Management ................................................. 772.2.5 Serviceorientierte Architekturen (SOA) und BI ...................................... 802.2.6 Cloud Computing und OSBI ..................................................................... 822.2.7 Architektur als Erfolgsfaktor ...................................................................... 82

Page 3: OPEN SOURCE BUSINESS INTELLIGENCE · 2010-09-22 · Anbieter wie Jaspersoft, Pentaho oder auch das deutsche Unternehmen Jedox sehen sich immer mehr in der Lage, den klassischen BI-Anbietern,

6 Inhalt

Seite

2.3 Vorgehensmodelle ...................................................................................................... 832.3.1 Projektphasen ............................................................................................... 832.3.2 Top-down- vs. Bottom-up-Vorgehen ........................................................ 872.3.3 Vorgehensmodelle des Software Engineering .......................................... 882.3.4 Spezielle BI-Vorgehensmodelle .................................................................. 942.3.5 Aktueller Trend: Agile BI ............................................................................ 952.3.6 Auswahl eines Vorgehensmodells ............................................................. 98

2.4 TCO – Kosten für Skalierbarkeit und Performance bei OSBI ............................. 992.4.1 TCO-Berechnung in BI-Projekten und ihre Grenzen .......................... 1002.4.2 Kostenvergleichskalkulation OSBI-Stack vs. Closed-Source-Stack ..... 1042.4.3 Checkliste: Wann lohnt sich der Umstieg? ............................................. 1092.4.4 Zusammenfassende Empfehlungen ......................................................... 111

3 OSBI-Lösungen in der Praxis 113

3.1 Open-Source-BI-Tools ............................................................................................ 1143.1.1 ETL – Extract, Transform, Load .............................................................. 1153.1.2 Relationale Open-Source-Datenbanksysteme ....................................... 1173.1.3 Reporting .................................................................................................... 1203.1.4 On-Line Analytical Processing (OLAP) ................................................. 1223.1.5 Data Mining ............................................................................................... 1243.1.6 All in One – BI-Suiten .............................................................................. 1263.1.7 OSBI-Angebote heute ............................................................................... 128

3.2 Talend Open Studio ................................................................................................. 1293.2.1 Über Talend Open Studio ......................................................................... 1293.2.2 Installation und erster Start ...................................................................... 1293.2.3 Der Anwendungsfall: Kaffeehaus Expresso ............................................ 1303.2.4 Der Arbeitsbereich ..................................................................................... 1313.2.5 Der erste ETL-Job ...................................................................................... 1333.2.6 Typische Fehlerquellen und Fehlerbehandlung ..................................... 1383.2.7 Kontexte für unterschiedliche Zielsysteme ............................................ 1393.2.8 Export .......................................................................................................... 1393.2.9 Dokumentation .......................................................................................... 1403.2.10 Modellierung von Business-Prozessen ................................................... 1403.2.11 Talend on Demand .................................................................................... 1413.2.12 Community und Hilfe im Internet .......................................................... 1413.2.13 Ausblick auf die kommerziellen Versionen und Services .................... 142

3.3 OSBI-Suiten im Vergleich – eine strukturelle Analyse ....................................... 1473.3.1 Installation .................................................................................................. 1473.3.2 Architektur der OSBI-Suiten .................................................................... 1543.3.3 Informationsangebote ............................................................................... 1553.3.4 Kostenpflichtiger Support ......................................................................... 1563.3.5 Feature-Vergleich ....................................................................................... 1583.3.6 Zusammenfassender Vergleich ...............................................................159

Page 4: OPEN SOURCE BUSINESS INTELLIGENCE · 2010-09-22 · Anbieter wie Jaspersoft, Pentaho oder auch das deutsche Unternehmen Jedox sehen sich immer mehr in der Lage, den klassischen BI-Anbietern,

7Inhalt

Seite

3.4 Jaspersoft ................................................................................................................... 1603.4.1 Schnittstellen und Aufteilung der Komponenten ................................. 1603.4.2 Beschreibung der Komponenten ............................................................. 1613.4.3 Datenaustausch zwischen Komponenten ............................................... 1633.4.4 ETL-Prozess ................................................................................................ 1653.4.5 OLAP-Analyse und Reporting ................................................................. 1663.4.6 Multi-User und Benutzergruppen ........................................................... 1733.4.7 Entwicklerkomponenten, Open Source, Erweiterbarkeit .................... 1743.4.8 Service, Support, Dokumentation ........................................................... 1753.4.9 Zusammenfassende Beurteilung ............................................................. 175

3.5 Pentaho ...................................................................................................................... 1773.5.1 Das Unternehmen und seine Produkte .................................................. 1773.5.2 Komponenten der Pentaho Community Edition .................................. 1793.5.3 Voraussetzungen und Installation ........................................................... 1803.5.4 BI Platform .................................................................................................. 1813.5.5 ETL mit Pentaho Data Integration .......................................................... 1823.5.6 Metadaten .................................................................................................... 1843.5.7 Analyse ........................................................................................................ 1853.5.8 Berichtswesen ............................................................................................. 1893.5.9 Bewertung ................................................................................................... 192

3.6 Palo Suite ................................................................................................................... 1943.6.1 Komponenten: Beschreibung und Aufteilung ....................................... 1943.6.2 Datenmodellierung .................................................................................... 1983.6.3 Dateneingabe/-import ............................................................................... 2073.6.4 OLAP-Analyse und Reporting ................................................................. 2103.6.5 Administration ........................................................................................... 2113.6.6 Service, Support, Dokumentation ........................................................... 2113.6.7 Zusammenfassende Beurteilung ............................................................. 211

3.7 Data Mining mit dem RapidMiner ........................................................................ 2143.7.1 Was ist Data Mining? ................................................................................. 2143.7.2 Ziele ............................................................................................................. 2143.7.3 Typische Anwendungsgebiete .................................................................. 2153.7.4 Wichtige Typen von Data-Mining-Aufgabenstellungen ...................... 2163.7.5 Data-Mining-Verfahren ............................................................................ 2183.7.6 Fallstricke im Data Mining ....................................................................... 2183.7.7 Betrieblicher Einstieg ins Data Mining ................................................... 2203.7.8 Data Mining mit Werkzeugen von Rapid-I ........................................... 2213.7.9 Zusammenfassende Empfehlungen ........................................................ 231

3.8 Anwendungsszenarien ............................................................................................. 2323.8.1 Szenario 1: OLAP-Analyse bestehender Tabelle ................................... 2333.8.2 Szenario 2: Unternehmensplanung mit Palo .......................................... 2373.8.3 Szenario 3: Auslesen von Daten aus SAP-Systemen .............................. 2393.8.4 Szenario 4: Ablösung einer programmierten Reporting-Lösung ....... 2413.8.5 Szenario 5: Datenqualität .......................................................................... 2433.8.6 Zusammenfassung ..................................................................................... 246

Page 5: OPEN SOURCE BUSINESS INTELLIGENCE · 2010-09-22 · Anbieter wie Jaspersoft, Pentaho oder auch das deutsche Unternehmen Jedox sehen sich immer mehr in der Lage, den klassischen BI-Anbietern,

8 Inhalt

Seite

4 Der Markt und seine Trends 247

4.1 Marktphänomen Open-Source-BI – ernstzunehmende Alternative zu traditionellen Angeboten? .................................................................................. 248

4.1.1 Hauptakteure des OSBI-Marktes ............................................................. 2484.1.2 Abdeckung von BI-Aufgaben durch OSBI-Produkte ........................... 2524.1.3 Vor- und Nachteile des Einsatzes von OSBI-Produkten ...................... 2564.1.4 Die aktuelle Marktsituation für OSBI ..................................................... 258

4.2 Geschäftsmodelle von Open-Source-BI-Anbietern ............................................ 2594.2.1 Struktur von Geschäftsmodellen ............................................................. 2594.2.2 Open-Source-Geschäftsmodelle .............................................................. 2604.2.3 Geschäftsmodelle der Anbieter von Open-Source-BI-Software ......... 2634.2.4 Entwicklungen und Trends ...................................................................... 269

4.3 Einsatzszenarien für OSBI ...................................................................................... 2714.3.1 Community versus Enterprise oder Professional: Open Source oder Commercial Open Source? .............................................................. 2724.3.2 Das Dilemma der Anbieter: Ohne Lizenzen keine Kontrolle? ............ 2734.3.3 Das Problem und das Potenzial der Download-Zahlen ....................... 2744.3.4 KMU als Zielgruppe für OSBI ................................................................. 2754.3.5 Mögliche Szenarien für den Einsatz von OSBI ...................................... 2794.3.6 Resümee ...................................................................................................... 283

4.4 OSBI trifft Forschung: GPUs als parallele Coprozessoren für OLAP-Aggregationen .............................................................................................. 285

4.4.1 Multidimensionale Aggregation .............................................................. 2854.4.2 GPGPU ........................................................................................................ 2884.4.3 GPU-Computing im Palo OLAP Server ................................................ 2904.4.4 Innovation und OSBI ................................................................................ 295

AnhangDie Autoren ................................................................................................................................... 296Danksagung ................................................................................................................................... 298Abkürzungsverzeichnis ................................................................................................................ 299Literaturverzeichnis ...................................................................................................................... 300Register ........................................................................................................................................... 315

Page 6: OPEN SOURCE BUSINESS INTELLIGENCE · 2010-09-22 · Anbieter wie Jaspersoft, Pentaho oder auch das deutsche Unternehmen Jedox sehen sich immer mehr in der Lage, den klassischen BI-Anbietern,

12 Einführung

Warum Open Source Business Intelligence?1.1

Uwe Haneke, Stephan Trahasch, Tobias Hagen, Tobias Lauer

Im Herbst 2009 fand erstmals der Workshop „Open Source Business Intelligence“ an der Hoch-schule Karlsruhe – Technik und Wirtschaft statt, der auf eine außerordentlich hohe Reso nanz stieß. Im Rahmen der Veranstaltung wurde deutlich, dass es im Bereich Open Source Business Intelligence (OSBI) ein gewisses Informationsdefizit zu geben scheint. Viele Interessierte hatten zwar von OSBI gehört oder gelesen und auch das eine oder andere Produkt getestet und mög-licherweise evaluiert, doch fehlte den meisten Teilnehmern eine neutrale Quelle, die sich mit den verschiedenen Aspekten des Themas befasst. Diese Lücke soll nun mit der vorliegenden Publikation, die sich erstmals umfassend mit OSBI auseinandersetzt, geschlossen werden.

Business Intelligence1.1.1 Das Marktsegment Business Intelligence hat sich in den vergangenen Jahren als sehr dyna-misch und auch relativ krisenresistent im Vergleich zum übrigen IT-Markt erwiesen. Sei es nun der Verkauf von BI-Software, deren Implementierungen, entsprechende Schulungen oder Studien zu BI-Werkzeugen: Nach wie vor boomt das Geschäft mit und um Business Intelligence. Allein der BI-Software-Markt hat auch im Krisenjahr 2009 in Deutschland laut einer Analyse des Business Application Research Center (BARC) um 8 % auf ein Volumen von mittlerweile über 800 Millionen Euro zugenommen.1

Vor allem in einem immer dynamischer werdenden Unternehmensumfeld, vor dem Hinter-grund eines steigenden Kostendrucks und immer mehr Anforderungen an die Transparenz innerhalb eines Unternehmens nimmt auch die Nachfrage nach geeigneten Informations-systemen zu. Unter der Bezeichnung Management-Support-Systeme oder Management-Informations systeme wurden die ersten entscheidungsunterstützenden Systeme bereits in den 1960er-Jahren entwickelt. In den 1980er- und 1990er-Jahren entstanden zu diesem Zweck spezielle Konzepte, Technologien und Werkzeuge wie das Data-Warehouse-Konzept, die OLAP-Technologie zur Analyse multidimensionaler Daten oder mathematisch-statis-tische Verfahren zur Vorhersage von Trends und Zusammenhängen (Data Mining). In ihrem Standardwerk zu Data-Warehouse-Systemen schreiben Bauer und Günzel: „Was sich im Laufe der MIS-Bemühungen als Utopie abzeichnete […] erhält durch den Fortschritt in der Informationstechnologie im Gewand des Data Warehousing eine Renaissance.“2

Schließlich hat H. Dresner von der Gartner Group für diese Kategorie von Konzepten und Technologien den Oberbegriff Business Intelligence (BI) populär gemacht, der sich seit den 1990er-Jahren weltweit durchgesetzt hat. Allerdings wird der Begriff Business Intelligence nicht einheitlich verwendet: Die Bandbreite geht von einer auf die Werkzeuge zur Analyse von Daten begrenzten Sicht bis hin zu umfassenden, IT-basierten Gesamtkonzepten zur be-trieblichen Entscheidungsunterstützung.

Heute gehört BI zum Standardrepertoire eines jeden Großunternehmens, und auch ein großer Teil der mittelständischen Unternehmen setzt Business-Intelligence-Systeme zur Entschei-dungsunterstützung ein.

1 Vgl. BARC 2010. 2 Vgl. Bauer/Günzel 2009, S. 12.

Page 7: OPEN SOURCE BUSINESS INTELLIGENCE · 2010-09-22 · Anbieter wie Jaspersoft, Pentaho oder auch das deutsche Unternehmen Jedox sehen sich immer mehr in der Lage, den klassischen BI-Anbietern,

13Warum Open Source Business Intelligence?

Open Source Business Intelligence1.1.2 Aufgrund verschiedener Faktoren, wie etwa der Kosten einer BI-Lösung, sind in den ver-gangenen Jahren zunehmend sogenannte Open-Source-Business-Intelligence-Lösungen in den Fokus geraten. Anbieter wie Jaspersoft, Pentaho oder auch das deutsche Unternehmen Jedox sehen sich immer mehr in der Lage, den klassischen BI-Anbietern, die mit proprietärer Software arbeiten, Paroli bieten zu können. Die Gartner Group hat erst im Oktober 2009 die Wachstumspotenziale von OSBI äußerst positiv eingeschätzt. So geht Gartner davon aus, dass sich die Zahl der OSBI-Installationen bis 2012 weltweit verfünffachen wird.3 Immer mehr Unternehmen scheinen Interesse an OSBI-Werkzeugen zu haben, denn anders sind die ho-hen Download-Zahlen auf sourceforge.net, der weltweit größten Plattform für Open-Source-Software, für dort angebotene Business-Intelligence-Lösungen oder auch auf den Plattformen einzelner Anbieter (wie etwa jasperforge.org) kaum zu erklären. Allein Jaspersoft gab im Juni 2010 eine Gesamtzahl von über 10 Millionen Downloads seiner OSBI-Produkte an.

Wenn man sich dem Thema OSBI nähert, um zu analysieren, was diese Produkte heute schon zu leisten in der Lage sind, muss man allerdings feststellen, dass bereits die Definition von OSBI nicht ganz einfach ist. Dies hat verschiedene Gründe. Zum einen stehen hinter den meisten Open-Source-Angeboten, die im Segment Business Intelligence zu finden sind, kommerzielle Anbieter, die profitorientiert arbeiten und von denen ihre Kapitalgeber eine entsprechende Rendite erwarten. Daher werden von diesen Anbietern neben den kosten-freien Werkzeugen in der Regel auch kommerzielle Produkte angeboten, deren Code dann teilweise nicht mehr frei verfügbar ist. Zum anderen sehen einige Analysten die Community-Versionen der OSBI-Anbieter lediglich als Marketinginstrument und weniger als produktiv nutzbare Software. Dies basiert vor allem auf der aktuellen Leistungsfähigkeit dieser Versio-nen. So stellt beispielsweise das BARC fest: „Open Source ist somit nicht als Unterschied zu herkömmlichen BI-Anbietern zu sehen, sondern als andere Marktzugangsstrategie.“4

Zum anderen versteht man unter OSBI natürlich die Software-Angebote, die sich zum The-menkomplex Business Intelligence in der Open-Source-Community finden lassen. Erste Pro-jekte gehen hier bereits auf die 1990er-Jahre zurück. Als Beispiele hierfür seien die Projekte Weka5 oder Mondrian6 genannt.

Für die Beiträge dieses Buches wurde eine klare Definition des Begriffs Open Source Business Intelligence (OSBI) zugrunde gelegt. OSBI steht für Software-Lösungen für den Bereich Busi-ness Intelligence, die der Definition von Open-Source-Software gemäß den in Kapitel 1.3 dargestellten Lizenzmodellen genügen.

Kommerzielle Erweiterungen, die auf diesen quelloffenen Lösungen aufsetzen oder diese er-gänzen, selbst jedoch nicht quelloffen sind, müssen im Umfeld von OSBI unbedingt beachtet werden, sind aber nicht vorrangiges Thema dieses Buches. In den Beiträgen zu einzelnen OSBI-Lösungen in Kapitel 3 wird daher bei Bedarf auf diese kommerziellen Erweiterungen jeweils hingewiesen.

3 Vgl. Bitterer 2009.4 Vgl. Bange u. a. 2009, S. 12.5 Vgl. Hall u. a. 2009.6 Vgl. Mondrian 2010.

Page 8: OPEN SOURCE BUSINESS INTELLIGENCE · 2010-09-22 · Anbieter wie Jaspersoft, Pentaho oder auch das deutsche Unternehmen Jedox sehen sich immer mehr in der Lage, den klassischen BI-Anbietern,

14 Einführung

Die Abgrenzung zwischen OSBI und dem, was Madsen als Commercial Open Source Soft-ware (COSS)7 bezeichnet, ist in Abbildung 1 dargestellt. Grundsätzlich wird hier zwischen Open-Source-Software (OSS) und proprietärer Software unterschieden. Der Markt für Business-Intelligence-Anwendungen wird dabei traditionell in erster Linie durch proprietäre Software bedient. Das Angebot eines OSBI-Anbieters umfasst typischerweise einen signifi-kanten Anteil an OSS. Dieses Angebot wird jedoch durch ergänzende Werkzeuge erweitert, die weitere Funktionalitäten liefern, mehr Komfort bieten oder die Performance verbessern. Diese Zusätze fallen in den Bereich der proprietären Software und sind vom Anwender käuf-lich zu erwerben.

▲ Abb. 1: Positionierung von OSBI im IT-Markt

Gemäß der oben genannten Abgrenzung umfasst OSBI damit streng genommen nur die Community-Versionen der verschiedenen Anbieter. Das typische Gesamtportfolio an Soft-ware-Lösungen eines OSBI-Anbieters überschreitet jedoch zum Teil die Grenze zwischen OSS und proprietärer Software. So kann der OSBI-Anbieter beispielsweise in seiner quell-offenen Community-Version das allgemeine ETL-Werkzeug seiner Suite bereitstellen, ergän-zende Komponenten für die Anbindung eines SAP-Systems als Datenquelle aber nur gegen Zusatzzahlungen lizenzieren. Daneben gilt es noch die darüber hinausgehenden Dienstleis-tungsangebote der Anbieter zu berücksichtigen. Diese umfassen etwa ein Dual Licensing mit entsprechendem professionellem Support, Beratung bei der Einführung der BI-Lösung oder auch entsprechende Schulungen.

Ziel dieses Buches ist es, den Themenkomplex OSBI ganzheitlich zu betrachten und neben einzelnen OSBI-Anwendungen auch grundlegende Konzepte zu vermitteln und des Weiteren zu diskutieren, welche Trends es im Bereich OSBI gibt, was an Marktentwicklungen zu er-warten ist und wo die Stärken und Schwächen von OSBI zu sehen sind. Neben der Vor-stellung der Möglichkeiten, die sich durch OSBI-Lösungen ergeben, und der Chancen, die

7 Vgl. Madsen 2009.

Open-Source- BI-Software

Typisches Portfolio einer Community-Version

Proprietäre BI-Software

Typisches Portfolio eines OSBI-Anbieters

OSBI-Lösung 1

OSBI-Lösung 2

Open-Source-Software Proprietäre/kommerzielle Software

BI-Lösung 2

BI-Lösung 1

Page 9: OPEN SOURCE BUSINESS INTELLIGENCE · 2010-09-22 · Anbieter wie Jaspersoft, Pentaho oder auch das deutsche Unternehmen Jedox sehen sich immer mehr in der Lage, den klassischen BI-Anbietern,

15Warum Open Source Business Intelligence?

damit für die weitere Verbreitung von BI vor allem in kleineren und mittleren Unternehmen verbunden sind, sollen aber auch die Risiken nicht unerwähnt bleiben, die solche quell-offenen BI-Lösungen mit sich bringen.

Zum Aufbau des Buches1.1.3 Der Aufbau des Buches orientiert sich an ebendiesen verschiedenen Aspekten des Themas. In Kapitel 1 werden zunächst die allgemeinen grundlegenden Konzepte zu OSBI vorgestellt: zum einen Business Intelligence mit seinen unterschiedlichen Ansätzen und Techniken, zum anderen der Open-Source-Gedanke, der bei OSBI natürlich eine zentrale Rolle spielt. Die Einführung soll auch denjenigen Lesern, die sich im Bereich Business Intelligence bisher noch nicht auskennen oder die sich bis dato noch nicht mit Open-Source-Produkten und ihrem Einsatz in Unternehmen auseinandergesetzt haben, die Möglichkeit bieten, diese zen-tralen Konzepte in komprimierter Form kennenzulernen.

In Kapitel 2 wird erläutert, welche Besonderheiten OSBI in strategischer, technologischer, orga nisatorischer und betriebswirtschaftlicher Hinsicht aufweist. Dabei werden entspre-chende Architekturen ebenso vorgestellt wie geeignete Vorgehensmodelle. Der Kostenaspekt ist nach wie vor eines der Hauptargumente für den Einsatz eines OSBI-Werkzeugs. Daher werden im Beitrag „TCO – Kosten für Skalierbarkeit und Performance bei OSBI“ die Total Cost of Ownership (TCO) analysiert. Hier wird untersucht, inwieweit bei einem vollstän-digen OSBI-Stack tatsächlich mit Kosteneinsparungen gegenüber klassischen BI-Anbietern wie Oracle, SAP oder Microsoft gerechnet werden kann.

Unterschiedliche OSBI-Lösungen werden exemplarisch in Kapitel 3 vorgestellt. Um zu zei-gen, wie Unternehmen diese OSBI-Lösungen nutzen, gibt es hier zudem einige Anwender-berichte. Dabei wurde darauf geachtet, dass die vorgestellten Beispiele möglichst die Com-munity-Version des jeweiligen Tools nutzen. Aufgrund der Lizenzstruktur war dies jedoch nicht immer möglich. Nach einer Übersicht zu OSBI-Lösungen für die unterschiedlichen Schichten einer BI-Architektur wird mit dem Talend Open Studio zunächst ein Werkzeug für den ETL-Prozess vorgestellt, das sich derzeit großer Beliebtheit in der Community erfreut. Anschließend stehen OSBI-Suiten im Vordergrund, also solche Angebote, die in der Lage sind, den gesamten BI-Prozess abzudecken. Hier wurden aufgrund ihrer Verbreitung die Sui-ten der Firmen Jasper, Pentaho und Jedox herangezogen. Alle drei werden in Deutschland zunehmend von BI-Einsteigern verwendet. Nach einem strukturellen Vergleich, der neben den Einzelkomponenten der Suiten auch die Informationsangebote und die Support-Pakete der Anbieter vorstellt, rücken in den Folgekapiteln die funktionalen Aspekte in den Vor-dergrund. Anschließend wird mit dem RapidMiner ein sehr mächtiges Werkzeug im Be-reich Data Mining untersucht. Abgeschlossen wird das Kapitel von einer Analyse, wie sich verschiedene Anwendungsszenarien aus der Praxis mit Hilfe von OSBI-Werkzeugen lösen lassen. Ausgehend von einer bereits bestehenden BI-Landschaft werden verschiedene proto-typische Anwendungsfälle, wie etwa das Auslesen von Daten aus einem SAP-System, vorge-stellt und gezeigt, wie über OSBI funktionale Defizite einer bestehenden Lösung abgebaut werden können oder auch bestehende Eigenentwicklungen abgelöst werden können.

Bezüglich der Problematik, dass man bei der Untersuchung konkreter Software-Lösungen immer der Realität in Form von neuen Releases hinterherläuft, macht auch diese Publikation keine Ausnahme. So liegt Pentaho Data Integration mittlerweile bereits in der Version 4.0

Page 10: OPEN SOURCE BUSINESS INTELLIGENCE · 2010-09-22 · Anbieter wie Jaspersoft, Pentaho oder auch das deutsche Unternehmen Jedox sehen sich immer mehr in der Lage, den klassischen BI-Anbietern,

16 Einführung

vor und auch für die OSBI-Suite Palo wird für Herbst 2010 ein neues Release erwartet. Die grundsätzlichen OSBI betreffenden Aussagen dürften jedoch nach wie vor ihre Gültigkeit behalten, auch wenn einzelne Funktionalitäten mittlerweile hinzugekommen sind, das Hand-ling an der einen oder anderen Stelle verbessert wurde oder einige der genannten Schwach-stellen mittlerweile abgestellt wurden.

Nachdem in Kapitel 3 OSBI-Lösungen und ihre Nutzung in den Unternehmen im Vorder-grund standen, werden in Kapitel 4 „Der Markt und seine Trends“ verschiedene weiterfüh-rende Aspekte des derzeitigen OSBI-Hypes betrachtet. Dabei stehen die Frage nach der Reife der Produkte ebenso zur Diskussion wie auch die unterschiedlichen Geschäftsmodelle der OSBI-Anbieter. Darüber hinaus wird versucht der Frage nachzugehen, wer heute eigentlich bereits OSBI produktiv einsetzt. Aufgrund der freien Verfügbarkeit der Produkte, zumin-dest der Community-Versionen, ist dies weniger leicht zu beantworten, als es zunächst den Anschein hat. Abschließend wird im Beitrag „OSBI trifft Forschung: GPUs als parallele Co-prozessoren für OLAP-Aggregationen“ gezeigt, dass OSBI-Anbieter nicht nur vorhandene Technologien kopieren und nutzen, sondern auch innovative neue Lösungen hervorbringen können. Die Nutzung leistungsfähiger Grafikkarten zur Lösung bestehender Performance-Probleme im Bereich BI ist hierfür ein prägnantes Beispiel.

Ziele und Zielgruppen des Buches1.1.4 Diese Publikation möchte sich mit ihrem Ansatz abgrenzen von reinen Produktstudien oder -vergleichen. Daher sollen in diesem Buch auch nicht die Anbieter von OSBI zu Wort kommen, sondern vor allem Analysten und Wissenschaftler, die sich zumeist schon über Jahre hinweg mit OSBI beschäftigen. Das ist auch der Grund dafür, dass dieses Buch mit seinen 18 Einzel-beiträgen von insgesamt 20 Autorinnen und Autoren geschrieben und erarbeitet wurde. Die jeweils von den Autorinnen und Autoren vertretenen Positionen repräsentieren dabei nicht unbedingt die Meinung der Herausgeber oder der anderen am Buch beteiligten Mitarbeiter. Dies ist insofern wichtig, als das Thema von verschiedenen Seiten her analysiert und unter-schiedlichen Aspekten, Meinungen und Einschätzungen Raum gegeben werden sollte.

Damit erhalten wir einerseits ein facettenreiches Gesamtbild zum Themenkomplex OSBI. Jeder Beitrag kann dabei eigenständig gelesen werden, ohne dass der Leser gezwungener-maßen alle Beiträge davor kennen muss, auch wenn es innerhalb des Buches natürlich eine „innere Logik“, wie sie oben beschrieben wurde, gibt. Jemand, der sich vornehmlich für Open Source und Data Mining interessiert, kann also durchaus sofort in Kapitel 3.7 „Data Mining mit dem RapidMiner“ einsteigen.

Auf der anderen Seite wird es aufgrund der Eigenständigkeit der Beiträge immer wieder kleinere Redundanzen geben, wenn man das Buch sequenziell liest. Bei der gewählten Kon-zeption des Buches ließ sich dies nicht verhindern. Der Leser möge also darüber hinwegse-hen, wenn er in mehreren Beiträgen etwa darauf hingewiesen wird, dass der Kostenaspekt für den Erfolg von OSBI enorm wichtig ist oder aber dass die OSBI-Anwendungen typischer-weise als Community- und als Enterprise-Versionen angeboten werden.

Das primäre Zielpublikum für dieses Buch sind Mitarbeiter in der zunehmenden Anzahl von Unternehmen, die derzeit planen, ein Business-Intelligence-System einzuführen, und die Möglichkeit prüfen, hierbei auf OSBI-Werkzeuge (vollständig oder teilweise) zurückzugrei-

Page 11: OPEN SOURCE BUSINESS INTELLIGENCE · 2010-09-22 · Anbieter wie Jaspersoft, Pentaho oder auch das deutsche Unternehmen Jedox sehen sich immer mehr in der Lage, den klassischen BI-Anbietern,

17Warum Open Source Business Intelligence?

fen. Angesprochen sind hier sowohl Mitarbeiter aus dem Controlling, die für das Berichts-wesen fachlich verantwortlich zeichnen, als auch Mitarbeiter der IT-Fachabteilungen, die für die Informationsversorgung eines Unternehmens technisch verantwortlich sind. Die Unter-nehmensgröße kann dabei das gesamte Spektrum mittelständischer Unternehmen umfassen oder aber lediglich Teilbereiche von Konzernen. Darüber hinaus wird ebenso die wachsende Gruppe von Beratern, die auf diesem Gebiet aktiv sind, angesprochen, aber auch Lehrende, die OSBI an der Hochschule einsetzen möchten. Der oben angesprochene ganzheitliche Ansatz lässt es zu, diese große und sehr heterogene Zielgruppe zu erreichen.

Nach wie vor gehen beim Thema Open Source Business Intelligence (OSBI) derzeit die Mei-nungen weit auseinander. Dieses Buch soll dazu beitragen, durch den gelieferten Gesamt-überblick die Informationslage zu OSBI zu verbessern und dabei sowohl die Unsicherheiten hinsichtlich der Open-Source-Angebote abzubauen als auch die zum Teil möglicherweise übertriebene Erwartungshaltung hinsichtlich OSBI-Lösungen zu bremsen.

Michael Madsen bemerkte 2009 zum Thema OSBI: „Open Source is maturing.“8 Dieses Buch soll zeigen, dass OSBI tatsächlich reifer wird, auch wenn der eine oder andere Schritt bis zum Erwachsensein möglicherweise noch fehlt. Ohne Zweifel aber ist mit OSBI auch in den kom-menden Jahren zu rechnen und daher ist jeder, der sich für Business Intelligence interessiert, gut beraten, sich auch mit Open Source Business Intelligence auseinanderzusetzen.

8 Vgl. Madsen 2009.

Page 12: OPEN SOURCE BUSINESS INTELLIGENCE · 2010-09-22 · Anbieter wie Jaspersoft, Pentaho oder auch das deutsche Unternehmen Jedox sehen sich immer mehr in der Lage, den klassischen BI-Anbietern,

114 OSBI-Lösungen in der Praxis

Open-Source-BI-Tools3.1

Peter Gluchowski, Melanie Herbig, Mario Ettelt

Die verfügbaren Open-Source-Produkte für das Business Intelligence in Unternehmen sind längst den Kinderschuhen entwachsen. Zumeist von kommerziellen Software-Häusern federführend entwickelt und durch eine aktive Community unterstützt, weisen die verbrei-teten Lösungen heute in allen Bereichen ein beachtliches Leistungsvermögen auf. Vor allem die Reaktionen etablierter BI-Software-Anbieter, die von erheblichen Preissenkungen bis zur kostenlosen Überlassung einzelner Lizenzen reichen, belegen eindrucksvoll, dass Open-Source-BI in jüngster Zeit nicht nur wahrgenommen, sondern als ernsthafte Konkurrenz eingestuft wird.243

▲ Abb. 33: Wesentliche Komponenten einer BI-Architektur

243 Vgl. Gluchowski/Schieder 2009.

Endbenutzer-Werkzeuge

Data Warehouse

OLAP-FrontendData MiningReporting

Data Mart

Data Mart

OLAP-Server

Zentrale Datenbasis

Ext. Daten Operative Vorsysteme

ETL-System

Page 13: OPEN SOURCE BUSINESS INTELLIGENCE · 2010-09-22 · Anbieter wie Jaspersoft, Pentaho oder auch das deutsche Unternehmen Jedox sehen sich immer mehr in der Lage, den klassischen BI-Anbietern,

115Open-Source-BI-Tools

Die folgenden Ausführungen setzen sich das Ziel, einen Überblick über die derzeit am Markt relevanten Produkte und Anbieter im Open-Source-BI-Segment zu geben. Die Strukturie-rung des Gesamtbereichs soll dabei anhand einer idealtypischen BI-Architektur erfolgen und orientiert sich am logischen Datenfluss.

Der erste Abschnitt widmet sich demgemäß den verfügbaren Open-Source-Produkten zum Extrahieren, Transformieren und Laden von Daten (ETL-Tools). Daran anschließend müs-sen die zu verarbeitenden Inhalte vor der weiteren Nutzung strukturiert in einer zentralen Datenbasis abgelegt werden. Als Architekturkomponente lassen sich bei größeren Datenbe-ständen hierfür bevorzugt relationale Datenbanksysteme einsetzen, die auch als quelloffene Systeme erhältlich sind.

Für die direkte Nutzung der Daten durch den Endanwender weisen drei Kategorien von Software-Werkzeugen eine besonders hohe Verbreitung auf, die hier entsprechend angeführt werden. Zunächst sind dies die Tools, mit denen ein formatiertes Berichtswesen (Reporting) aufgebaut werden kann. Die zweite Kategorie umfasst alle Systemlösungen, die eine multi-dimensionale Sichtweise auf die Daten mit freier Navigation im Datenraum unterstützen. Diese Produkte werden hier unter dem Terminus On-Line Analytical Processing (OLAP) diskutiert. Schließlich erweisen sich die Systeme zur Mustererkennung, auch als Data- Mining-Tools bezeichnet, als besonders an spruchsvoll und setzen beim Anwender umfang-reiche Kenntnisse voraus.

Einige Open-Source-Anbieter decken mit ihren Produkten das gesamte Spektrum der er-forderlichen Funktionalität ab. Diese integrierten Werkzeugsammlungen werden hier unter dem Oberbegriff BI-Suiten kurz aufgegriffen und erörtert.

ETL3.1.1 – Extract, Transform, LoadDie steigende Anzahl von Daten sowie die Vielzahl verschiedener und verteilter Informa-tionssysteme in Unternehmen bestimmen den Grad der Komplexität von Systemland-schaften in hohem Maße. Diese Komplexität und speziell die Tatsache der häufig dezentralen Daten haltung erschweren eine konsistente, zielorientierte und ganzheitliche Sicht auf die Daten. Um dennoch systemübergreifend korrekte Informationen generieren und speichern zu können, müssen die aus verschiedenen Quellsystemen stammenden Daten so umgewan-delt werden, dass für das Data Warehouse stimmige Abfragen möglich sind. Dieser ETL-Prozess (Extraktion, Transformation und Laden der Daten) ist nicht nur sehr aufwendig, sondern bestimmt auch maßgeblich die Qualität des Data Warehouse.

Ohne spezielle Software-Unterstützung erweist es sich bei großen Datenmengen als nahezu undurchführbar, die benötigten Daten anwendungs- und termingerecht zu extrahieren, die er-forderlichen Bereinigungen vorzunehmen und die Daten anschließend in der entsprechenden Form zu speichern beziehungsweise zur Verfügung zu stellen. Hilfe bei diesen anspruchs-vollen Aufgaben bieten moderne ETL-Werkzeuge. Aus dem Open-Source-Sektor stammen zahlreiche, teilweise sehr leistungsstarke ETL-Tools, die den Vergleich mit kommerziellen Produkten (wie z. B. Oracle Warehouse Builder, SAS Enterprise Data Integration Server, IBM Cognos DecisionStream oder MS SQL Server Integration Services) nicht scheuen müs-sen. Zu den wichtigsten zählen unter anderem Apartar (Apatar), KETL (Kinetic Networks), Jitterbit (Jitterbit), ETL-Server (Jedox), Enhydra Octopus (ObjectWeb), CloverETL (Open-

Page 14: OPEN SOURCE BUSINESS INTELLIGENCE · 2010-09-22 · Anbieter wie Jaspersoft, Pentaho oder auch das deutsche Unternehmen Jedox sehen sich immer mehr in der Lage, den klassischen BI-Anbietern,

116 OSBI-Lösungen in der Praxis

Sys), JasperETL (Jaspersoft), Data Integration (Pentaho) und Open Studio (Talend), wobei es vor allem in Hinblick auf Bedienung und Funktionsumfang zu erheblichen Unterschieden kommt. Während einige Tools gänzlich ohne GUI (Graphical User Interface) gesteuert werden – die ETL-Prozessdefinition erfolgt beispielsweise als Java- oder XML-Code (z. B. KETL, Ob-jectWEB) –, bieten andere derartige Komponenten nur als kommerzielles Zusatzprodukt an (z. B. CloverETL). Zu den leistungsfähigsten, ausgereiftesten und bekanntesten GUI- gesteuerten ETL-Werkzeugen gehören Pentaho Data Integration (ehemals Kettle) und Talend Open Studio (siehe Tabelle 2).

Auf dem deutschen Markt sind Pentaho und Talend hinsichtlich der Downloads ihrer Pro-dukte als Hauptakteure im Bereich Open-Source-ETL anzusehen.244 Das ebenfalls funktions-starke JasperETL aus dem Hause Jaspersoft soll an dieser Stelle nicht näher beleuchtet werden, da diese Komponente, als Teil der Jasper BI-Suite, auf der Technologie von Talend basiert.

Entwickler / Anbieter Aktuelle Version Weitere Informationen

Pentaho Corp. Pentaho Data Integration (ehemals Kettle)

3.2.0 kettle.pentaho.org

Talend Talend Open Studio (TOS)

3.2.3 www.talend.comwww.talendforge.org

▲ Tab. 2: Führende Open-Source-ETL-Tools

Das Datenintegrations-Werkzeug Open Studio der Firma Talend, kurz TOS, ist ein grafisches Entwicklungs-Tool mit einem umfangreichen Spektrum an ETL-Funktionen. Mit der 2006 erschienenen ersten Version war Talend Vorreiter im Bereich Open-Source-Integrations-Soft-ware.245 Als Erweiterung des TOS existiert eine als Subskription (kostenpflichtiges Abonne-ment-Modell) erhältliche Talend Integration Suite (TIS), die neben der Verankerung eines technischen Supports vor allem Funktionen für einen unternehmensweiten Einsatz (z. B. zentrales Repository, benutzer- und rollenbasierte Zugriffsverwaltung, Data Quality Option) bereitstellt. Unabhängig von diesen Zusatzkomponenten bietet Talend einen kostenpflich-tigen, professionellen Support, verschiedene Trainings- und Schulungseinheiten sowie den Erfahrungs- und Know-how-Austausch als spezielles Expertise-Angebot. Die ausgeprägte Community ermöglicht aber auch ohne finanziellen Aufwand eine schnelle Einführung und eine gute Hilfestellung bei fachlichen oder technischen Problemen. Auf der Community-Plattform talendforge.org sind unter anderem Forum, Wiki, Tutorials und Beschreibungen zu einzelnen Funktionen zu finden.

Kettle, entwickelt von Matt Casters, wird seit der Übernahme 2006 durch Pentaho offi ziell unter dem Namen Pentaho Data Integration (PDI) geführt. Kettle ist ein Akronym für „Kettle Extraction, Transformation, Transportation and Loading Environment“. Auch hierfür stehen neben Dokumentationen, Foren und Wikis verschiedene kostenpflichtige Support-Pakete

244 Vgl. AccelIT 2009.245 Vgl. www.talend.com.

Page 15: OPEN SOURCE BUSINESS INTELLIGENCE · 2010-09-22 · Anbieter wie Jaspersoft, Pentaho oder auch das deutsche Unternehmen Jedox sehen sich immer mehr in der Lage, den klassischen BI-Anbietern,

117Open-Source-BI-Tools

zur Verfügung. Pentaho bietet neben der Open-Source-Variante seiner BI-Suite auch eine kommerzielle Alternative zu diesem Produkt, die Pentaho BI-Suite Enterprise Edition.

Relationale Open-Source-Datenbanksysteme 3.1.2 Als Herzstück von Business-Intelligence- bzw. Data-Warehouse-Architekturen fungieren nach wie vor die zentralen Datenbanksysteme. Bei größeren, vielleicht unternehmensweiten Lösungen werden häufig relationale Datenbanksysteme genutzt, um das oftmals umfang-reiche Datenvolumen in Tabellenform abzulegen und nutzen zu können.

Heute sind diverse quelloffene Angebote verfügbar, die sich durch hohe Leistungsfähigkeit und Stabilität auszeichnen. Aus der Fülle der verfügbaren Produkte in diesem Umfeld sollen hier fünf Exemplare (Firebird, Ingres, MaxDB, MySQL und Postgres) detaillierter vorgestellt werden, die sich durch große Verbreitung und/oder Bekanntheit besonders auszeichnen (vgl. Tabelle 3). Daneben kann insbesondere noch auf die Lösungen SQLite246, HyperSQL247 und Derby248 verwiesen werden, für deren Vorstellung hier leider kein Raum bleibt.249

Entwickler/ Anbieter Aktuelle Version Weitere Informationen

Firebird Foundation Firebird 2.1.3 www.firebirdsql.org

Ingres Corp. Ingres 9.3 www.ingres.comwww.giua.de

SAP AG MaxDB 7.6(7.7)

maxdb.sap.comwww.sapdb.org

Oracle Corp. MySQL 5.1(5.5)

www.mysql.deforge.mysql.com

PostgreSQL Community

PostgreSQL 8.4 www.postgresql.orgwww.postgres.de

▲ Tab. 3: Führende relationale Open-Source-Datenbanksysteme

Das Open-Source-Datenbanksystem Firebird ist unter der IDPL-Lizenz (abgeleitet aus der Mozilla Public License) frei nutzbar. Die historischen Wurzeln des Systems finden sich im kommerziellen Datenbanksystem InterBase (CodeGear, ehemals Borland), aus dem es im Jahre 2000 abgespalten wurde. Firebird unterstützt diverse Betriebssysteme, so verschiedene Unix-Derivate (unter anderem AIS, Solaris, HP-UX und Linux) sowie Windows. Kosten-los verfügbar sind zahlreiche Treiber und Bibliotheken (z. B. für Delphi, Free Pascal, Perl, Python, ODBC, .NET, PHP, C++ und Java), die eine Ansteuerung des Datenbank-Servers aus einem eigenen Anwendungsprogramm heraus ermöglichen. Firebird bietet alle grund-

246 Vgl. www.SQLite.org.247 Vgl. www.hsqldb.org.248 Vgl. http://db.apache.org/derby.249 Weitere quelloffene Datenbanksysteme werden in Höpfner/Levin 2007 und Roden/Lauer 2010 beschrieben.

Page 16: OPEN SOURCE BUSINESS INTELLIGENCE · 2010-09-22 · Anbieter wie Jaspersoft, Pentaho oder auch das deutsche Unternehmen Jedox sehen sich immer mehr in der Lage, den klassischen BI-Anbietern,

118 OSBI-Lösungen in der Praxis

legenden Funktionen, die für den Aufbau und die Nutzung einer relationalen Datenbank erforderlich sind. Dazu gehören sowohl unterschiedliche SQL-Dialekte, die pro angelegter Datenbank definiert werden können, als auch ein Transaktionsmanagement sowie Mecha-nismen zur Gewährleistung referenzieller Integrität. Darüber hinaus sind Trigger und Stored Procedures verfügbar. Zudem lassen sich User-Defined Functions hinterlegen.

Das relationale Datenbankmanagementsystem MaxDB (bis 2004 mit der Bezeichnung SAP DB) gehört zum Produkt-Portfolio des Walldorfer Software-Anbieters SAP und eignet sich durchaus als Speicherkomponente für unternehmensweite Anwendungen mit hohem Daten-volumen (bis in den Terabyte-Bereich) und zahlreichen Anwendern. Bis einschließlich Ver-sion 7.6 ist MaxDB im Rahmen einer kostenlosen Community-Lizenz quelloffen nutzbar. Für den Betrieb nachfolgender Versionen in SAP-Anwendungsumgebungen sind die Lizenz- und Vertragsregularien der SAP AG zu beachten. MaxDB zeichnet sich ebenfalls durch die Unter-stützung der verbreiteten Unix- und Windows-Betriebssysteme sowie durch diverse Schnitt-stellen wie beispielsweise ODBC und JDBC, aber auch zu Perl- und Python-Modulen aus.

Die nunmehr seit über 30 Jahren andauernde historische Entwicklung des Datenbanksystems kann als sehr wechselhaft bezeichnet werden. Im Jahre 1977 zunächst als Forschungsprojekt an der TU Berlin unter Rudolf Munz begonnen (Projektbezeichnung: „Distributed Databases on Mini-Computers“), übernahm Nixdorf Computer in den 1980er-Jahren die Weiterent-wicklung und den Vertrieb.250 Im Jahre 1992 erwarb die Software AG die Rechte am System und vermarktete es mit großem Bekanntheitsgrad als Adabas D, das auch für die Datenhal-tung im SAP-Bereich (SAP R/3) eingesetzt werden konnte. Ab 1997 bot SAP eine eigene Entwicklungslinie einschließlich Support und Wartung unter der Bezeichnung SAP DB an. Neben den üblichen Datenbankfunktionalitäten, bei denen der unterbrechungsfreie Betrieb mit 24 Stunden mal 7 Tage Verfügbarkeit heraussticht, ist als Besonderheit hier ein SAP BW (Business Information Warehouse) Feature Pack besonders erwähnenswert, das verschiedene Optionen zur Beschleunigung von Datenbankabfragen bei multidimensionalen Datenstruk-turen bietet, wie Table Clustering, Table Compression und Join Optimization.251

Das quelloffene relationale Datenbanksystem Ingres (Interactive graphics retrieval system) wurde initial in den 1970er-Jahren von dem legendären amerikanischen Datenbankpionier Michael Stonebraker und seiner Forschergruppe an der University of Berkeley, Kalifornien, entwickelt. Nach diversen Besitzern (unter anderem Computer Associates, die bisweilen für den unzureichenden Markterfolg des Datenbankprodukts verantwortlich gemacht wer-den) wird Ingres seit 2006 von der Ingres Corporation als quelloffenes System angeboten. Derzeit zeichnet sich Ingres durch verstärkte Präsenz auf Tagungen und Kongressen auch auf dem deutschen Markt aus und versucht, verlorene Anteile am Geschäft mit Datenbanken zurückzugewinnen. In Kooperation mit Jaspersoft vermarktet Ingres eine kombinierte Out-of-the-Box-Lösung aus unterschiedlichen Open-Source-Komponenten unter der Bezeich-nung Ingres Icebreaker BI Appliance, mit der vor allem der Aufwand bei Installation und Update deutlich reduziert werden soll.252

250 Vgl. Horstmann 2006, S. 189.251 Vgl. SAP 2007.252 Vgl. Bloemen/Grosser/Hauskrecht 2009, S. 25.

Page 17: OPEN SOURCE BUSINESS INTELLIGENCE · 2010-09-22 · Anbieter wie Jaspersoft, Pentaho oder auch das deutsche Unternehmen Jedox sehen sich immer mehr in der Lage, den klassischen BI-Anbietern,

119Open-Source-BI-Tools

Als bekanntestes und sicherlich am meisten verbreitetes der hier vorgestellten Open-Source-Datenbanksysteme gilt MySQL. Ursprünglich von dem schwedischen Software-Unternehmen MySQL AB in einer kommerziellen und einer freien Version federführend entwickelt, gingen die Eigentumsrechte mit dem Kauf von MySQL AB im Februar 2008 auf das Unternehmen Sun Microsystems über, bevor dieses wiederum im Januar 2010 vollständig von Oracle über-nommen wurde. Derzeit ist MySQL weiterhin einerseits als kostenlose Open-Source-Version (GPL-Lizenz) und andererseits als kommerzielle Enterprise-Variante erhältlich. Verfügbar ist MySQL sowohl für unterschiedliche Unix-Varianten sowie Mac OS X als auch für Windows, OS/2 und i5/OS (ehemals OS/400). Weite Verbreitung erfuhr MySQL vor allem durch den Einsatz als Datenbanksystem in Web-Umgebungen, in denen es dann oftmals in Verbindung mit dem Apache Webserver und PHP zur Anwendung gelangt. Als Besonderheit von MySQL kann die Unterstützung unterschiedlicher Speichersubsysteme (Engines) gewertet werden, wobei die einzelnen Engines jeweils spezifische Stärken aufweisen und daher in unterschied-lichen Anwendungsszenarien zum Einsatz gelangen. Die einzelnen Subsysteme leisten auto-nom eine Transaktions- und Indexverwaltung.

Als am meisten verbreitete Speichersysteme in diesem Kontext gelten MyISAM (index-sequenzielle Speicherung ohne Transaktionsverwaltung) und InnoDB (transaktionssichere Schreib- und Lesezugriffe in Tabellen mit Unterstützung von Fremdschlüsselbeziehungen). Daneben existieren aber auch Angebote wie Memory (Speicherung der Daten zur Lauf-zeit im Arbeitsspeicher) oder CSV (kommaseparierte Ablage der Daten). Zur Nutzung von MySQL als Administrator oder Anwender existieren unterschiedliche Werkzeuge, die entwe-der als Kommandozeilen-Befehlssammlung oder – anwenderfreundlicher – mit grafischer Oberfläche (wie MySQL Administrator und MySQL Query Browser) zur Verfügung stehen. MySQL bietet zahlreiche Funktionalitäten, die auch bei der Erstellung von Data Warehouses von Interesse sind. Version 5 enthält Datensichten (Views), Trigger, Stored Procedures und User-Defined Functions. Vor allem die Option zur Partitionierung von Tabellen erweist sich in umfangreichen Datenbeständen als essenziell zur Gewährleistung eines guten Antwort-zeitverhaltens. Daneben ist auch die Möglichkeit zum Betrieb von MySQL in einem Com-putercluster wünschenswert und teilweise sogar erforderlich. Zur Nutzung von MySQL in sehr großen Data-Warehouse-Umgebungen kann auf das Speichersubsystem aus dem Hause Infobright mit der Bezeichnung BrightHouse (ebenfalls als freie Community Edition und kostenpflichtige Enterprise Edition erhältlich) zurückgegriffen werden. BrightHouse zeichnet sich vor allem durch seine Fähigkeit zur Komprimierung von Rohdaten um den Faktor 10 aus, insbesondere durch eine spaltenbasierte Form der Datenablage auf den Speichermedi-en.253 Darüber hinaus werden Datenbankstatistiken zur Verbesserung von Kompression und Performance analytisch ausgewertet.

Das objektrelationale PostgreSQL-Datenbanksystem, das ursprünglich als Nachfolgeprojekt zu Ingres unter der Bezeichnung Postgres in den 1980er-Jahren ebenfalls von Michael Stone-braker an der University of Berkeley initiiert wurde, gilt heute als das vielleicht fortschritt-lichste seiner Klasse. Seit 1997 wird die Software als Open-Source-System (BSD-Lizenz) wei-terentwickelt. Postgres zeichnet sich durch besonders reichhaltige Funktionalitäten aus, die sich an allgemeinen Normen und Standards orientieren (z. B. ANSI-SQL). Hervorzuheben sind das ausgereifte Transaktionskonzept sowie die vorhandenen Mechanismen zur Gewähr-

253 Vgl. Bloemen/Grosser/Hauskrecht 2009, S. 28.

Page 18: OPEN SOURCE BUSINESS INTELLIGENCE · 2010-09-22 · Anbieter wie Jaspersoft, Pentaho oder auch das deutsche Unternehmen Jedox sehen sich immer mehr in der Lage, den klassischen BI-Anbietern,

120 OSBI-Lösungen in der Praxis

leistung referenzieller Integrität. Unterstützt werden darüber hinaus auch sehr komplexe Ab-fragen, die beispielsweise geschachtelte Unterabfragen (Subselects) enthalten können. Zum Standardumfang von Postgres gehören weiterhin Datensichten (Views), auf die auch schrei-bend zugegriffen werden kann (Updatable Views). Trigger und Stored Procedures sind ebenso enthalten wie Schnittstellen zu diversen Programmiersprachen (z. B. Perl, PHP, Python, C++ und Java) und Zugriffsmöglichkeiten via ODBC und .NET. Betrieben werden kann Post-gres unter verschiedenen Unix-Derivaten, aber auch unter Windows-Betriebssystemen. Eine große Anzahl optionaler Zusatzmodule lassen sich nutzen, um den Funktionsumfang für spezielle Anwendungsbereiche zu vergrößern. So stehen Erweiterungsmodule für die Ver-waltung geografischer Informationen, für die Volltextsuche in Datenbankobjekten sowie für Clustering, Replikation und Parallelisierung zur Verfügung. Eine speziell auf die Belange von Data-Warehousing- und Business-Intelligence-Anforderungen ausgerichtete Variante von PostgreSQL findet sich mit Bizgres, die vom Unternehmen Greenplum federführend ent-wickelt und ebenfalls unter der BSD-Lizenz vertrieben wurde.254 Bitmap-Indizierung sowie verbesserte Sortier- und Lade-Laufzeiten versprechen hier Performance-Gewinn im Betrieb. Allerdings scheint die Zukunft der Lösung ungewiss, da sich keine aktuellen Informationen zum Projekt mehr finden lassen und auch die zugehörige Website (www.bizgres.org/) nicht mehr betrieben wird.

Reporting3.1.3 Als fester Bestandteil der Zugriffsschicht eines BI-Systems erweist sich das Reporting. Es zielt darauf ab, die verschiedensten unternehmensinternen und -externen Interessensgruppen mit den benötigten Informationen zu versorgen. Dabei stehen die Aktualität sowie die geeig-nete Form der Berichtsinhalte im Vordergrund. Zusätzlich ist eine Zugriffssteuerung von hoher Bedeutung, da im Rahmen eines unternehmensweiten Berichtswesens sensible Daten und Zusammenhänge ausgewertet und in Form von Berichten verteilt werden. Moderne Reporting-Werkzeuge dienen somit der Definition, Gestaltung, Erzeugung und Verteilung formatierter Auswertungen. Eine zentrale Anforderung ist die Kompatibilität und Integra-tionsfähigkeit der Werkzeuge in bestehende IT-Landschaften. Somit erweist sich die Art und Anzahl der verfügbaren Schnittstellen zu Vorsystemen als essenziell.

Für diese Komponente einer BI-Architektur existiert eine breite Palette an Open-Source-Pro-dukten, die teilweise seit nunmehr zehn Jahren kontinuierlich weiterentwickelt wurden und damit den Vergleich zu kommerziellen Alternativen keinesfalls scheuen müssen. Pentaho Reporting sowie Jasper Reporting entstammen den wohl bekanntesten und am stärksten verbreiteten OSBI-Suiten Pentaho und Jasper. Neben diesen beiden Werkzeugen präsentiert sich Eclipse BIRT als ein Berichtsdesign-Tool, das auf dem bekannten Eclipse-Framework aufbaut und Teil einer kommerziell verfügbaren BI-Suite ist (vgl. Tabelle 4). Zu den weiteren Open-Source-Ver tretern zählen beispielsweise OpenReports, eine Web-Reporting-Lösung, die Funktionalitäten zur Webbrowser-basierten, parametergetriebenen und dynamischen Berichtserstellung aufweist, oder auch Produkte wie Data Vision, Agata Reports und JFree-Reports.

254 Vgl. Bloemen/Grosser/Hauskrecht 2009, S. 27, und Horstmann 2006, S. 190.

Page 19: OPEN SOURCE BUSINESS INTELLIGENCE · 2010-09-22 · Anbieter wie Jaspersoft, Pentaho oder auch das deutsche Unternehmen Jedox sehen sich immer mehr in der Lage, den klassischen BI-Anbietern,

121Open-Source-BI-Tools

Entwickler / Anbieter Aktuelle Version Weitere Informationen

BIRT Project Manage-ment Committee / Actuate

Eclipse BIRT 2.5.2 www.eclipse.org/birtwww.actuate.com

Jaspersoft iReport(Jasper Server)(JasperReports)

3.1.7(3.7.0)(3.7.1)

jasperforge.orgwww.jaspersoft.com

Pentaho Corp. Pentaho Report Designer(Pentaho Reporting / BI-Suite)

3.5.0

3.5.0

www.pentaho.comcommunity.pentaho.com

▲ Tab. 4: Führende Open-Source-Reporting-Werkzeuge

Pentaho Reporting ist Teil der frei verfügbaren BI-Suite von Pentaho, der Pentaho BI-Platt-form, und umfasst den Berichtsdesigner, die zur Anzeige benötigten Ressourcen des BI-Ser-ver, eine eingebettete Reporting-Lösung im Server sowie diverse zusätzliche Tools zur Report-erzeugung und -gestaltung wie beispielsweise das Eclipse-basierte Design Studio oder der Report Design Wizard. Bei Jasper Reporting, dem wohl stärksten Open-Source-Konkurrenten von Pentaho Reporting, handelt es sich ebenfalls um die Berichtskomponente einer BI-Suite. Sie besteht aus dem Berichtsdesigner iReport, einer Reporting-Bibliothek (JasperReports) sowie den JasperServer-Komponenten zur Erstellung, Verbreitung und Anzeige von Be-richten. Im Gegensatz zu diesen Tools stellt Eclipse BIRT ein auf der bekannten Eclipse-Umgebung aufsetzendes Reporting-System dar, das in eigene Java- bzw. J2EE-Anwendungen integrierbar ist. Als federführendes Unternehmen bei der Entwicklung des Projekts nutzt Actuate die Komponente in eigenen kommerziellen BI-Tools (Actuate BIRT und Actuate iServer etc.).

Um sich mit den einzelnen Komponenten und deren umfangreichen Möglichkeiten vertraut zu machen und effektiv arbeiten zu können, sind Dokumentationen und anderweitige Hil-festellungen von hoher Bedeutung. In diesem Zusammenhang spielen Support-Leistungen für technische und fachliche Probleme gerade im Hinblick auf den Einsatz in Unternehmen eine wichtige Rolle. Wie in Open-Source-Kreisen üblich, stehen professionelle Support-Leistungen meist nur für die kommerziellen Ableger zur Verfügung. Das Leistungsspektrum für die Pentaho Enterprise Edition umfasst beispielsweise die Unterstützung bei Report- Design und -Deployment, bei der Konfiguration des Werkzeugs sowie Updates und Ad-hoc-Support für geschäftskritische Probleme. Der Support für BIRT ist in Service Plans organi-siert. Je nach Kategorie und Preisklasse stehen für den Anwender telefonischer Support in verschiedenen Sprachen oder auch der Zugang zu moderierten Foren und Software-Updates bereit. Diesem Vorgehen schließt sich auch Jaspersoft an. Der Support für die Professional-Version ist dem der beiden anderen Werkzeuge vergleichbar. Dennoch ist für die Hilfestel-lung für Open-Source-Anwender vorgesorgt. Für jedes der vorgestellten Werkzeuge existiert eine umfangreiche und sehr aktive Community, die sowohl an der Weiterentwicklung der

Page 20: OPEN SOURCE BUSINESS INTELLIGENCE · 2010-09-22 · Anbieter wie Jaspersoft, Pentaho oder auch das deutsche Unternehmen Jedox sehen sich immer mehr in der Lage, den klassischen BI-Anbietern,

122 OSBI-Lösungen in der Praxis

Tools arbeitet als auch weitreichende fachliche und technische Fragen diskutiert und beant-wortet. Für BIRT gibt es hierzu das Community-Portal „BIRT Exchange“, das unter ande-rem diverse Foren, Wikis, Download-Bereiche sowie einige Demos und Dokumentationen vorhält. Ähnlich verhält es sich bei Pentaho. Hier liefern in erster Linie das Forum und das Wiki, jeweils aufgegliedert nach den einzelnen BI-Suite-Komponenten, den technischen und fachlichen Support. Die Community besteht sowohl aus Neulingen im BI-Umfeld als auch aus erfahrenen und technisch versierten Nutzern. Die Antwortzeiten sind relativ kurz und die Beiträge aktuell. Im Open-Source-Portal „JasperForge“ finden sich ähnlich wie für Pen-taho die Projekt-Websites der einzelnen Komponenten zu Jasper, die ebenfalls mit Foren und Wikis zu Support-Zwecken aufwarten.

Zur Lösung mancher Probleme ist jedoch im Normalfall ein Blick in die Dokumentation aus-reichend. Insbesondere zu Beginn der Arbeit im Rahmen der Installation oder bei der ersten Verwendung der Werkzeuge ist eine dokumentierte Anleitung sehr hilfreich. Sämtliche Doku-mentationen für Pentaho liegen auf den Websites der Komponenten und damit auch für Pen-taho Reporting zum kostenfreien Download bereit. Die Angebote reichen dabei von reinen Dokumentationen über Tutorials bis hin zu Demos. Im Download-Bereich sind zudem auch häufig PDF-Versionen der Handbücher enthalten. Die Tool-interne Hilfe bei BIRT bietet eine komplette Dokumentation des Tools sowie ein aus einer Reihe von Lektionen bestehendes Tutorial, das eine eingebettete Demo-Datenbank nutzt. Der Inhalt der Hilfe ist sogar in Buch-form erhältlich. Unter dem Titel „BIRT: A Field Guide To Reporting“ werden Fachanwender adressiert, um bei der Entwicklung der Berichte und der Nutzung verschiedener Präsenta-tionsmöglichkeiten Unterstützung zu leisten. Weiterhin beschreibt das Buch „Integrating And Extending BIRT“ die Architektur von BIRT und dem Reporting-Framework, um Entwicklern Hilfestellung bei der Integration und Verwendung von BIRT in eigenen Anwendungen zu geben. Analog zu BIRT und Pentaho bietet auch die Jasper-Community Demos, „Getting-Started-Guides“ und ähnliche Hilfestellungen und Dokumentationen an. Das aktuelle Hand-buch („Ultimate Guide“) ist im Gegensatz zu älteren Versionen jedoch kostenpflichtig.

On-Line Analytical Processing (OLAP3.1.4 )Der umfassende Einsatz von Business Intelligence in Unternehmen führt zur Nutzung ei-ner Vielzahl heterogener Anwendungssysteme bzw. Software-Werkzeuge aus verschiedenen Kategorien. Ein zentrales Segment bilden hierbei die Software-Tools des On-Line Analytical Processing (OLAP), das die Anordnung betriebswirtschaftlich relevanter Daten in multi-dimensionalen Strukturen in den Vordergrund rückt. So erlauben OLAP-Werkzeuge den Zugriff, die Analyse und die Darstellung der Daten aus verschiedenen Perspektiven und korres pondieren dabei mit der geschäftsorientierten Betrachtungsweise der Entscheidungs-träger auf den Datenbestand.255 Zu den Kernfunktionen von OLAP-Anwendungen zählen insbesondere die multidimensionale („Slicing & Dicing“) und die (dis-)aggregierende Daten-analyse („Drill-down & Roll-up“).256

Als Hauptunterscheidungsmerkmal zwischen verschiedenen OLAP-Systemen erweisen sich die verwendeten Datenhaltungskonzepte. Das Relationale OLAP (ROLAP) nutzt zur Datenhaltung unter Zuhilfenahme spezieller Datenmodelle (Star- oder Galaxy-Schemata)

255 Vgl. Gluchowski/Chamoni 2010.256 Vgl. Gluchowski/Gabriel/Dittmar 2008, S. 171.

Page 21: OPEN SOURCE BUSINESS INTELLIGENCE · 2010-09-22 · Anbieter wie Jaspersoft, Pentaho oder auch das deutsche Unternehmen Jedox sehen sich immer mehr in der Lage, den klassischen BI-Anbietern,

123Open-Source-BI-Tools

relationale Datenbanksysteme. Im Vergleich dazu sind die Datenstrukturen beim Multidi-mensionalen OLAP (MOLAP) auch physisch multidimensional angelegt. Der Vorteil dieser Vorgehensweise im Vergleich zum ROLAP liegt in der schnellen Antwortzeit, vor allem auch durch die rasche Bildung dynamischer Aggregationen auf höheren Abstraktionslevels zur Laufzeit („on the fly“). Dafür eignet sich ROLAP besser zur Verwaltung und Nutzbarma-chung sehr umfangreicher Datenbestände. Der Ansatz des Hybriden OLAP (HOLAP) zielt darauf ab, als Mischform die Vorteile der beiden Alternativen zu nutzen sowie deren Nach-teile zu mildern.

Für diese spezielle Kategorie von Business-Intelligence-Werkzeugen steigen die Quantität, die Qualität und auch die Verbreitung von Open-Source-Alternativen im Vergleich mit kom-merziellen Angeboten stetig an. Hierzu zählen insbesondere Produkte wie Palo, Mondrian, JPivot, Cubulus, OpenOLAP for MySQL, OpenOLAP for PostgreSQL oder Pentaho Analysis (Mondrian) beziehungsweise JasperAnalysis (vgl. Tabelle 5). Die beiden Erstgenannten sind die wohl bekanntesten und am stärksten verbreiteten Vertreter ihrer Art – zumindest im deutschsprachigen Raum.

Der vorliegende Überblick umfasst sowohl Lösungen zur Datenhaltung, die auf ROLAP- und MOLAP-Architekturen basieren, als auch Frontend-Werkzeuge zur Anwendung der be-schriebenen OLAP-Funktionalitäten und zur adäquaten Präsentation der Ergebnisse.

Entwickler / Anbieter Aktuelle Version Weitere Informationen

Jedox AG Palo Suite Palo for Excel

3.03.0

www.jedox.com

u. a. Julian Hyde / Pentaho Corp.

Mondrian (Pentaho Analysis Services)

3.1.6 www.sourceforge.net/ projects/mondrian/mondrian. pentaho.org

u. a. Andreas Voss JPivot 1.8.0 jpivot.sourceforge.net

▲ Tab. 5: Verbreitete OS-OLAP-Tools

Bei Palo handelt es sich um einen In-Memory-MOLAP-Server, der über ein Client-Frontend (Excel-Add-in) gesteuert und genutzt wird. Zusätzlich sind weitere Bausteine wie ein ETL-Server und eine Web-Umgebung verfügbar, die gemeinsam mit den Datenbankkomponenten die Palo Suite bilden. Im Gegensatz dazu handelt es sich bei Mondrian um einen ROLAP-Server, der auf relationale Datenbanksysteme zur Datenhaltung zurückgreift und oftmals ge-meinsam mit JPivot für die Präsentation der Ergebnisse und Analysen zum Einsatz kommt. Zudem verwenden bekannte Open-Source-BI-Suiten wie Pentaho oder Jasper dieses Bundle für die Umsetzung von OLAP-Funktionalitäten.

Ebenso wie viele andere Vertreter der Open-Source-Software verhelfen auch diese beiden Werkzeuge durch ihre Verfügbarkeit und relativ unproblematische Installation zum schnel-len Arbeiten. Dennoch benötigen Anwender hin und wieder Hinweise und Hilfestellungen zur Bedienung sowie fachliche und technische Hilfe. Anders als bei der kommerziellen Konkurrenz sind umfangreiche Dokumentationen nicht unbedingt verfügbar. Das wohl am

Page 22: OPEN SOURCE BUSINESS INTELLIGENCE · 2010-09-22 · Anbieter wie Jaspersoft, Pentaho oder auch das deutsche Unternehmen Jedox sehen sich immer mehr in der Lage, den klassischen BI-Anbietern,

124 OSBI-Lösungen in der Praxis

häufigsten genutzte und erfolgversprechendste Mittel zur Selbsthilfe sind die Communities, die Diskussionsforen und Wikis zur technischen und fachlichen Hilfestellung unterhalten. Die Communities beider Werkzeuge erweisen sich als äußerst aktiv und aktuell, sodass der Anwender nicht lange auf gehaltvolle Antworten warten muss. Gegen entsprechende finanzielle Gegenleistung bieten die federführenden Entwickler der Produkte (Jedox AG und Pentaho Corp.) zusätzliche Schulungsprogramme, Webinare und telefonischen Support an.

Data Mining3.1.5 Für Unternehmen verschiedenster Branchen hat das Data Mining in den letzten Jahren ei-nen immer höheren Stellenwert erhalten. Themenkomplexe wie Kreditvergabe und Betrugs-erkennung im Banken- und Finanzwesen profitieren bereits seit vielen Jahren von Erkennt-nissen aus der Anwendung der dazugehörigen Methoden. Aber auch für aktuelle Themen wie das Customer Relationship Management (CRM) sind derartige Analyseverfahren kaum mehr wegzudenken. Informationen über den Kunden oder verkaufsförderliche Informa-tionen für den Kunden spielen vor allem für Unternehmen auf anonymen Märkten eine große Rolle. Kaum ein Online-Verkaufshaus kann heute ohne Data Mining (z. B. Assoziations- und Sequenzanalysen) das Verkaufsverhalten seiner Kunden einschätzen bzw. voraussehen und kundenspezifische Marketingkonzepte entwickeln.257

Der verbreiteten Nutzung von Data-Mining-Technologien ist es zuzurechnen, dass nicht nur zahlreiche große Software-Hersteller anspruchsvolle kommerzielle Data-Mining-Software-Pakete anbieten, sondern auch im wachsenden Open-Source-Bereich eine Vielzahl ausgereif-ter Lösungen entstanden ist. Letztere ermöglichen vor allem kleinen bis mittelständischen Unternehmen, die Vorzüge des Data Mining kennenzulernen und zu nutzen, ohne mit hohen Lizenzgebühren belastet zu werden. So ist es kaum verwunderlich, dass die Data-Mining-

▲ Abb. 34: Einsatz von Open-Source-Data-Mining-Tools258

257 Vgl. KDnuggets 2009a.258 Vgl. KDnuggets 2009b.

RapidMiner

R

0 % 10 % 20 % 30 % 40 %

Weka (jetzt Pentaho)

Knime

Sonst. OS

Orange

SPSS Modeler (kommerziell)

SAS EM (kommerziell)

Page 23: OPEN SOURCE BUSINESS INTELLIGENCE · 2010-09-22 · Anbieter wie Jaspersoft, Pentaho oder auch das deutsche Unternehmen Jedox sehen sich immer mehr in der Lage, den klassischen BI-Anbietern,

125Open-Source-BI-Tools

Produkte der Marktführer SPSS (IBM SPSS Modeler, ehemals SPSS Clementine) und SAS (Enterprise Miner) wachsende Konkurrenz aus dem Open-Source-Sektor erfahren. Das Open-Source-Tool RapidMiner (ehemals Yale – „Yet Another Learning Environment“) der Firma Rapid-I erreicht bei Umfragen ähnlich hohe Popularität wie die Marktführer (siehe Abbildung 34).

Als wohl bekanntestes Open-Source-Data-Mining-Tool gilt Weka („Waikato Environment for Knowledge Analysis“) (vgl. Tabelle 6). Ursprünglich zur Analyse landwirtschaftlicher Daten entwickelt, dient dieses Tool neueren Entwicklungen aufgrund der Quelloffenheit, der positiven Anwendererfahrungen und der umfangreichen Data-Mining-Verfahren oftmals als Basis- oder Zusatzkomponente, so auch dem noch recht jungen Werkzeug Knime, das ähnlich wie Weka an einer Universität entwickelt wurde. Neben einer Vielzahl standardmäßig enthaltener Funktionen ist Knime darüber hinaus auch um die der Skriptsprache R erweiter-bar. R wurde Mitte der 1990er-Jahre an der Universität Auckland/Neuseeland entwickelt und bietet eine Umgebung für statistische Berechnungen und grafische Visualisierung. Die Skript-steuerung bedarf jedoch einiger Einarbeitungszeit und führt gerade bei Anfängern häufig zu Schwierigkeiten. Als interessanter Ansatz erweist sich das aus Slowenien stammende Tool Orange. Es basiert auf der Programmiersprache C++ und verfügt ähnlich wie RapidMiner, Weka und Knime über eine grafische Oberfläche (GUI-Objekte: Orange-Widgets) und eine Scripting-Komponente (Python-Scripts) zur individuellen Erzeugung und Darstellung des Data-Mining-Prozesses.

Entwickler / Anbieter Aktuelle Version Weitere Informationen

Rapid-I RapidMiner 5.0.3 www.rapidminer.com

Universität Weikato / Pentaho

Weka 3.6.23.7.1 (Devel-oper)

www.cs.waikato.ac.nz/ ~ml/wekaweka.pentaho.org

Universität Konstanz / KNIME.com GmbH

Knime 2.1.1 www.knime.org

▲ Tab. 6: Data-Mining-Tools mit hohem Bekanntheitsgrad

In Anbetracht der Komplexität dieses Themenbereichs ist vor allem für Data-Mining-Neu-linge die intuitive und überschaubare Oberfläche einzusetzender Werkzeuge von hoher Be-deutung. Moderne Data-Mining-Tools bieten daher oftmals sowohl Scripting-Editoren, die versierten Anwendern die nötige Freiheit gewähren, als auch grafische und Wizard-gestützte Editoren, welche die Übersichtlichkeit garantieren und den Einstieg erleichtern. Zu den popu lärsten Open-Source-Data-Mining-Werkzeugen dieser Art gehören RapidMiner, Weka und Knime.

Page 24: OPEN SOURCE BUSINESS INTELLIGENCE · 2010-09-22 · Anbieter wie Jaspersoft, Pentaho oder auch das deutsche Unternehmen Jedox sehen sich immer mehr in der Lage, den klassischen BI-Anbietern,

126 OSBI-Lösungen in der Praxis

All in One – BI-Suiten3.1.6 Getrieben von der breiten Nachfrage nach Open-Source-BI-Produkten haben einige Anbie-ter ihr Angebot erweitert und bieten ihren (potenziellen) Kunden sogenannte BI-Suiten an. Mit diesen können nahezu alle BI-relevanten Aufgaben (z. B. ETL, Reporting, OLAP, Data Mining) abgedeckt werden. Die Bereitstellung des umfangreichen und leistungsfähigen Open-Source-Angebots erfolgt jedoch nicht ganz uneigennützig. Vielmehr versprechen sich die beteiligten Unternehmen Einnahmen aus Service- und Support-Verträgen sowie eine steigende Nachfrage nach kommerziellen Erweiterungen bzw. Produktversionen.

Zu den bekanntesten und ausgereiftesten BI-Suiten zählen vor allem die der Firmen Jasper-soft und Pentaho. Anders als bei rein Community-getriebenen oder forschungsspezifischen Entwicklungen, die eher einzelne, spezielle Kernthemen behandeln, verfolgen Jaspersoft und Pentaho hiermit das Ziel der breiten Marktabdeckung. Dabei machen sie sich die Vorteile von Open Source zunutze und setzen auf etablierte Produkte, die weiterentwickelt oder gar übernommen werden.

Pentaho bietet unter dem Namen „Pentaho Open Source Business Intelligence“ zahlreiche, größtenteils eigenständige BI-Komponenten als Community-Versionen an (Abbildung 35). Das Zentrum der BI-Suite stellt der Pentaho BI-Server dar, mit dessen Hilfe nicht nur Re-ports erzeugt und verteilt werden können, sondern sich auch ein Nutzer- und Rollenmanage-ment umsetzen lässt.

▲ Abb. 35: Wesentliche Komponenten der Pentaho BI-Suite

Page 25: OPEN SOURCE BUSINESS INTELLIGENCE · 2010-09-22 · Anbieter wie Jaspersoft, Pentaho oder auch das deutsche Unternehmen Jedox sehen sich immer mehr in der Lage, den klassischen BI-Anbietern,

127Open-Source-BI-Tools

In der kommerziellen Enterprise Edition erhält der Kunde zusätzlich einen professionellen Support, eine Software-Verwaltung durch Pentaho-Produktentwickler, grundsätzlich nur zertifizierte Software mit der Garantie der Weiterentwicklung, professionelle Produktdoku-mentationen und Schulungen sowie einige erweiternde Funktionalitäten (z. B. Performance Monitoring, Pentaho Analyzer, Lifecycle-Management, Remote ETL-Management). Den Nutzern der Community Edition stehen lediglich die klassischen Informationsplattformen der Open-Source-Gemeinde zur Verfügung (z. B. Foren, Wiki, Dokumentationen, tech-Tipps, FAQ). Das rege Interesse an Pentaho bringt aber auch auf diesen Plattformen den gewünschten Informationseffekt, sodass vorhandene Einführungen, Dokumentationen und Hilfestellungen für die ersten Schritte vollkommen ausreichend sind.259

Die BI-Suite von Jaspersoft (siehe Abbildung 36), deren Komponenten wie die von Pentaho alle eigenständig nutzbar sind, ist ebenfalls in verschiedenen Editionen verfügbar. Zusätzlich zu den Community-Projekten (JasperETL, JasperServer, iReport und JasperReports) werden in der Professional Edition und der Enterprise Edition vor allem ein professioneller Support, diverse zusätzliche Tools (z. B. für Dashboard-Design, Ad-hoc-Abfragen-Design, Domänen-Design, Enterprise Edition: OLAP-Schema-Work bench) und Features (z. B. erweiterte Platt-formunterstützung, Flash-Diagramme, Ad-hoc-Berichte/-Abfragen, Dashboards, Enterprise-Edition: SaaS-Mandantenfähigkeit) angeboten.

▲ Abb. 36: Wesentliche Komponenten der Jaspersoft BI-Suite

Neben dem kostenpflichtigen Professional-Support, der unter anderem erhöhte Support-Verfügbarkeit sowie Zugriff auf Dokumentationen und Wissensressourcen verspricht und ausschließlich für Nutzer der Professional Edition zur Verfügung steht, existiert für Nutzer, die nur gelegentlich Unterstützung benötigen, das Angebot von Incident-Support-Verträgen. Letztere sind auch für die Community-Projekte verfügbar.260

259 Vgl. www.pentaho.com.260 Vgl. www.jaspersoft.com.

Page 26: OPEN SOURCE BUSINESS INTELLIGENCE · 2010-09-22 · Anbieter wie Jaspersoft, Pentaho oder auch das deutsche Unternehmen Jedox sehen sich immer mehr in der Lage, den klassischen BI-Anbietern,

128 OSBI-Lösungen in der Praxis

Mit dem Angebot von Web-basierten Trainings, Präsenzkursen, Tutorials und Ultimate-Guides liefert Jaspersoft ein umfangreiches Angebot an Informations- und Schulungsmöglichkeiten. Das Community-Portal bietet zudem in sehr gut strukturierter Form weitere Informations-möglichkeiten in Foren, Wikis, Tutorials, Dokumentationen etc.261

OSBI-Angebote heute3.1.7 Für die wesentlichen Bereiche einer BI-Gesamtarchitektur existieren heute Open-Source-BI-Werkzeuge, auf denen sich eine komplette und unternehmensspezifische BI-Lösung aufbauen lässt. Alle beleuchteten quelloffenen BI-Tools weisen eine beachtliche Leistungsfähigkeit auf und stehen ihren kommerziellen Pendants zumindest bei den Grundfunktionalitäten kaum nach.

Im Sektor Datenintegration bzw. ETL ist vor allem der Anbieter Talend mit seinen Produkten anzuführen, die auch in der Jaspersoft BI-Suite als Jasper ETL zur Anwendung gelangen. Daneben findet sich mit Pentaho Data Integration, dem ehemaligen Kettle, ein funktional sehr reifes Produkt als Alternative. Als quelloffene relationale Datenbankkomponente bietet sich eine Vielzahl unterschiedlicher Systeme an, wie beispielsweise Firebird, Ingres, MaxDB, MySQL und PostgreSQL.

Als noch zahlreicher und vielfältiger erweist sich die Auswahl beim Reporting, OLAP und Data Mining. Für das Berichtswesen stehen mit iReport von Jaspersoft, Pentaho Reporting und BIRT von Actuate drei sehr leistungsfähige Produkte zur Auswahl, die einander in der Funktionalität weitgehend vergleichbar sind. Beim OLAP kann hinsichtlich der physischen Datenhaltung grundsätzlich zwischen relationalen und multidimensionalen Ansätzen unter-schieden werden. Während sich Mondrian in Verbindung mit JPivot als führendes ROLAP-Open-Source-System verstehen lässt, adressiert Palo die MOLAP-Variante. Schließlich muss als sehr erfreulich gewertet werden, dass für das Data Mining neben dem „Urgestein“ Weka, das sich auch als Pentaho Data Mining wiederfindet, mit Rapid-I und Knime gleich zwei deutsche Anbieter mit starken Produkten um die Gunst der Anwender buhlen.

261 Vgl. http://jasperforge.org.