DRYING UP THE DATA SWAMP - Uni Stuttgart · •SchwerpunkteBig Data und Cloud Architekturen...

26
DRYING UP THE DATA SWAMP Vernetzung von Daten mittels iQser GIN Server

Transcript of DRYING UP THE DATA SWAMP - Uni Stuttgart · •SchwerpunkteBig Data und Cloud Architekturen...

Page 1: DRYING UP THE DATA SWAMP - Uni Stuttgart · •SchwerpunkteBig Data und Cloud Architekturen •Erfahrungenin der Produktentwicklung •BeraterfürEntwicklungeinerBig Data Middleware

DRYINGUPTHEDATASWAMPVernetzungvonDatenmittelsiQser GINServer

Page 2: DRYING UP THE DATA SWAMP - Uni Stuttgart · •SchwerpunkteBig Data und Cloud Architekturen •Erfahrungenin der Produktentwicklung •BeraterfürEntwicklungeinerBig Data Middleware

FlorianPfleiderer

Dryingupthedataswamp 2

• SolutionEngineerbei dibuco• Schwerpunkte BigDataundCloudArchitekturen• Erfahrungen inderProduktentwicklung

• Berater für Entwicklung einer BigDataMiddleware• Produkt GINServer(=GlobalInformationNetwork)

Page 3: DRYING UP THE DATA SWAMP - Uni Stuttgart · •SchwerpunkteBig Data und Cloud Architekturen •Erfahrungenin der Produktentwicklung •BeraterfürEntwicklungeinerBig Data Middleware

Agenda

Dryingupthedataswamp 3

1 Warumeigentlich„DataSwamp“?

2 GINServerals Lösung

3 Herausforderung Big DataEntwicklung

4 LessonsLearned

Page 4: DRYING UP THE DATA SWAMP - Uni Stuttgart · •SchwerpunkteBig Data und Cloud Architekturen •Erfahrungenin der Produktentwicklung •BeraterfürEntwicklungeinerBig Data Middleware

Warumeigentlich„DataSwamp“?DieIdeedesDataLakestelltUnternehmeninderPraxisvorgroßeHerausforderungen.OftmalsverkommternachundnachzumDataSwamp.

Page 5: DRYING UP THE DATA SWAMP - Uni Stuttgart · •SchwerpunkteBig Data und Cloud Architekturen •Erfahrungenin der Produktentwicklung •BeraterfürEntwicklungeinerBig Data Middleware

DegenerationdesDataLake• HeterogeneDatenauszahllosenQuellenkönnennichtverstandenwerden• Datenqualitätistnichtbekannt• OhnegemeinsamesSchemaistesoftschwierig,Anfragenzustellen• GängigeTechnologienbietennichtimmerguteLösungen• FirmenglaubenzuUnrecht,siehättenihreDatenunterKontrolle

Dryingupthedataswamp 5

Page 6: DRYING UP THE DATA SWAMP - Uni Stuttgart · •SchwerpunkteBig Data und Cloud Architekturen •Erfahrungenin der Produktentwicklung •BeraterfürEntwicklungeinerBig Data Middleware

Daten,Daten,Daten...

Dryingupthedataswamp 6

Page 7: DRYING UP THE DATA SWAMP - Uni Stuttgart · •SchwerpunkteBig Data und Cloud Architekturen •Erfahrungenin der Produktentwicklung •BeraterfürEntwicklungeinerBig Data Middleware

GINServeralsLösung

Page 8: DRYING UP THE DATA SWAMP - Uni Stuttgart · •SchwerpunkteBig Data und Cloud Architekturen •Erfahrungenin der Produktentwicklung •BeraterfürEntwicklungeinerBig Data Middleware

Daten,Daten,Daten...Verknüpfungen?

Dryingupthedataswamp 8

Page 9: DRYING UP THE DATA SWAMP - Uni Stuttgart · •SchwerpunkteBig Data und Cloud Architekturen •Erfahrungenin der Produktentwicklung •BeraterfürEntwicklungeinerBig Data Middleware

GINServer• RepräsentationderQuelldatenals„Content“imGINServer• DatenwerdenanderQuelleinpassendesFormatgebracht• SimplesFormat:Herkunft,(Meta-)Attribute,Volltext

• Verknüpfungen(Statements)zwischenContentssind• gerichtet• begründet• gewichtet

Dryingupthedataswamp 9

Page 10: DRYING UP THE DATA SWAMP - Uni Stuttgart · •SchwerpunkteBig Data und Cloud Architekturen •Erfahrungenin der Produktentwicklung •BeraterfürEntwicklungeinerBig Data Middleware

GINServer• VerknüpfungunterschiedlicherDatenaufBasisvon• TextMiningVerfahren• StatistischenAnalysen• NLP• ...

• ExtraktionderThemenvonDokumenten

• ErstellungundHarmonisierungeinesMetamodells

Dryingupthedataswamp 10

Page 11: DRYING UP THE DATA SWAMP - Uni Stuttgart · •SchwerpunkteBig Data und Cloud Architekturen •Erfahrungenin der Produktentwicklung •BeraterfürEntwicklungeinerBig Data Middleware

GINServer

Dryingupthedataswamp 11

Diesel

Feinstaub

Motor

Contract- date- title

Content-Graph KonzeptgraphUIMGraph

Customer- customerID- name

Page 12: DRYING UP THE DATA SWAMP - Uni Stuttgart · •SchwerpunkteBig Data und Cloud Architekturen •Erfahrungenin der Produktentwicklung •BeraterfürEntwicklungeinerBig Data Middleware

GINServer

Value

Information

Data

• VonDatenzuInformationen• automatischeVerknüpfungdurchAlgorithmeninGINServer• vollautomatischeUnterstützung

• GewinnvonValue(=Wissen?)ausInformation• Queries undkontextbezogeneSuchenindenverknüpftenDaten

Dryingupthedataswamp 12

Page 13: DRYING UP THE DATA SWAMP - Uni Stuttgart · •SchwerpunkteBig Data und Cloud Architekturen •Erfahrungenin der Produktentwicklung •BeraterfürEntwicklungeinerBig Data Middleware

Drying up the data swamp

13

Page 14: DRYING UP THE DATA SWAMP - Uni Stuttgart · •SchwerpunkteBig Data und Cloud Architekturen •Erfahrungenin der Produktentwicklung •BeraterfürEntwicklungeinerBig Data Middleware

HerausforderungenBigData– BigComplexity

Page 15: DRYING UP THE DATA SWAMP - Uni Stuttgart · •SchwerpunkteBig Data und Cloud Architekturen •Erfahrungenin der Produktentwicklung •BeraterfürEntwicklungeinerBig Data Middleware

EntwicklungderArchitektur• Vor„BigData“• MonolithischeArchitektur,relationaleDatenbank• keineSkalierbarkeit• UnzähligeJoins

• DererstegroßeSchritt• Microservice-Architektur• Batch-Processing(hadoop)• GraphDatenbank(TitanDB)• =>SehrvielgrößereDatenmengenbeherrschbar

Dryingupthedataswamp 15

Page 16: DRYING UP THE DATA SWAMP - Uni Stuttgart · •SchwerpunkteBig Data und Cloud Architekturen •Erfahrungenin der Produktentwicklung •BeraterfürEntwicklungeinerBig Data Middleware

EntwicklungderArchitektur:ErkannteProbleme• StreamingProblemstellung– BatchLösung🌩

• OptimierungenüberwiegendamBatchImport,VernachlässigungdesrestlichenSystems• BatchesalsLösungfürjedesProblem• LangeWartezeitenbisDatenänderungenimSystemsind

• AusführungsdauervonBatcheswirdzunehmendlänger• TeilweiseSystemstillstandnotwendigfürBatchläufe

• Hadoop alsTechnologieerfordertspezielleKenntnissevonDev undOps

Dryingupthedataswamp 16

Page 17: DRYING UP THE DATA SWAMP - Uni Stuttgart · •SchwerpunkteBig Data und Cloud Architekturen •Erfahrungenin der Produktentwicklung •BeraterfürEntwicklungeinerBig Data Middleware

EntwicklungderArchitektur:ErkannteProbleme

• ImVorausberechneteStatementswerdenalleabgespeichert• EnormeAnzahlanVerknüpfungenverbrauchtvielFestplattenspeicher• Datenbankabfragenwerdenzunehmendlangsamer• SuperknotenkönnendasSystemlahmlegen

Dryingupthedataswamp 17

Page 18: DRYING UP THE DATA SWAMP - Uni Stuttgart · •SchwerpunkteBig Data und Cloud Architekturen •Erfahrungenin der Produktentwicklung •BeraterfürEntwicklungeinerBig Data Middleware

EntwicklungderArchitektur:ErkannteProbleme

• GroßeSünde:GemeinsamePersistenzderServices• erzeugtdortimmenseLast• unsereigenerkleinerDataSwamp• Serviceskönnensichnichtunabhängigentwickeln

• KomplexitätfürDeployment undKonfigurationwächstexponentiell• KomplexitätverhindertabeinemgewissenPunktweitereSkalierung• WartungfürdasDeployment wirdimmerteurer

Dryingupthedataswamp 18

Page 19: DRYING UP THE DATA SWAMP - Uni Stuttgart · •SchwerpunkteBig Data und Cloud Architekturen •Erfahrungenin der Produktentwicklung •BeraterfürEntwicklungeinerBig Data Middleware

Lessons Learned

Page 20: DRYING UP THE DATA SWAMP - Uni Stuttgart · •SchwerpunkteBig Data und Cloud Architekturen •Erfahrungenin der Produktentwicklung •BeraterfürEntwicklungeinerBig Data Middleware

EntwicklungderArchitektur:Lessons learned

Dryingupthedataswamp 20

Verarbeitung im Batch Verarbeitung imStream

Verknüpfungen speichern Verknüpfungen berechnen

Gemeinsame Persistenz Unabhängige Services

Betrieb aufdem HostSystem Betrieb imContainer

Page 21: DRYING UP THE DATA SWAMP - Uni Stuttgart · •SchwerpunkteBig Data und Cloud Architekturen •Erfahrungenin der Produktentwicklung •BeraterfürEntwicklungeinerBig Data Middleware

EntwicklungderArchitektur– StatusQuo• EineStreaming-LösungfüreinStreaming-Problem💡

• (Vor-)verarbeitung derDatenimStream• UmsetzungdesDatenimportsmitApacheStorm• KontinuierlicheVerarbeitungmachtErgebnisseschnellerabfragbar

• DasSystemkanndurchgehendlaufen• BeiBedarfkönnenzuStoßzeitenleichtweitereRessourcenhinzugenommenwerden

• StormalsTechnologieauchananderenStellenalsnurbeimImport

Dryingupthedataswamp 21

Page 22: DRYING UP THE DATA SWAMP - Uni Stuttgart · •SchwerpunkteBig Data und Cloud Architekturen •Erfahrungenin der Produktentwicklung •BeraterfürEntwicklungeinerBig Data Middleware

EntwicklungderArchitektur– StatusQuo• Ad-hocBerechnungderVerknüpfungen• Speicherplatzproblem:gelöst• NurnochSpeicherungvonstatistischenInformationen• BerechnungsdauerfürVerknüpfungengeringeralsDB-Abfragezeiten

• KeineAngstvorRedundanz!

Dryingupthedataswamp 22

Page 23: DRYING UP THE DATA SWAMP - Uni Stuttgart · •SchwerpunkteBig Data und Cloud Architekturen •Erfahrungenin der Produktentwicklung •BeraterfürEntwicklungeinerBig Data Middleware

EntwicklungderArchitektur– StatusQuo• WeitererAusbauderMicroservice Archtitektur• ermöglichtbessereSkalierung• unabhängigeWeiterentwicklungderServiceswirdmöglich• LastaufdiePersistenz(en!)verteiltsichsehrvielbesser

• Containerisierung• Deployment umeinvielfacheseinfacherundbeherrschbarer• ZentralesManagementmachtKonfigurationwesentlichsimpler• GroßeHilfefürSkalierbarkeit

Dryingupthedataswamp 23

Page 24: DRYING UP THE DATA SWAMP - Uni Stuttgart · •SchwerpunkteBig Data und Cloud Architekturen •Erfahrungenin der Produktentwicklung •BeraterfürEntwicklungeinerBig Data Middleware

EntwicklungderArchitektur– Fazit• TechnologienmüssenpassendzudenProblemenausgewähltwerden• VieleProblemesindStreamingProbleme

• VieleneueTechnologienimMarkt,dievieleserleichtern

• Aber:DieseLösungenkommenmiteigenenFallstricken

Dryingupthedataswamp 24

Page 25: DRYING UP THE DATA SWAMP - Uni Stuttgart · •SchwerpunkteBig Data und Cloud Architekturen •Erfahrungenin der Produktentwicklung •BeraterfürEntwicklungeinerBig Data Middleware

VIELEN DANKFÜR IHREAUFMERKSAMKEIT

Franz-SchubertStraße [email protected]

Page 26: DRYING UP THE DATA SWAMP - Uni Stuttgart · •SchwerpunkteBig Data und Cloud Architekturen •Erfahrungenin der Produktentwicklung •BeraterfürEntwicklungeinerBig Data Middleware

Quellen• MicrosoftOfficeProdukt-Logos:WikimediaCommons (Rezonansowy,©Microsoft)• AdobePDFLogo:AdobeWebsite(©Adobe)• Hadoop Logo:@hadoop onTwitter(https://twitter.com/hadoop)• StormLogo:@ApacheStorm onTwitter(https://twitter.com/ApacheStorm)• TitanDataModel:TitanDokumentation(http://s3.thinkaurelius.com/docs/titan/current/data-model.html)

Dryingupthedataswamp 26