Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie...

30
Van veel data, snelle computers en complexe modellen tot lerende machines

Transcript of Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie...

Page 1: Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie Welling HR FINAL.pdfne learning methoden te implementeren in het bedrijfsleven. Onze

Van veel data, snelle computers encomplexe modellen tot lerende

machines

Page 2: Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie Welling HR FINAL.pdfne learning methoden te implementeren in het bedrijfsleven. Onze

Van veel data, snelle computers encomplexe modellen tot lerende

machines

Rede

uitgesproken bij de aanvaardingvan het ambt van hoogleraar Machine Learning

aan de Faculteit der Natuurwetenschappen, Wiskunde en Informaticavan de Universiteit van Amsterdam

op woensdag januari

door

Max Welling

Page 3: Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie Welling HR FINAL.pdfne learning methoden te implementeren in het bedrijfsleven. Onze

Dit is oratie , verschenen in de oratiereeks van de Universiteit van Amsterdam.

Opmaak: JAPES, AmsterdamFoto auteur: Jeroen Oerlemans

© Universiteit van Amsterdam,

Alle rechten voorbehouden. Niets uit deze uitgave mag worden verveelvoudigd, opgeslagen ineen geautomatiseerd gegevensbestand, of openbaar gemaakt, in enige vorm of op enige wijze,hetzij elektronisch, mechanisch, door fotokopieën, opnamen of enige andere manier, zondervoorafgaande schriftelijke toestemming van de uitgever.

Voorzover het maken van kopieën uit deze uitgave is toegestaan op grond van artikel B Au-teurswet j° het Besluit van juni , St.b. , zoals gewijzigd bij het Besluit van augus-tus , St.b. en artikel Auteurswet , dient men de daarvoor wettelijk verschuldigdevergoedingen te voldoen aan de Stichting Reprorecht (Postbus , AW Amstelveen). Voorhet overnemen van gedeelte(n) uit deze uitgave in bloemlezingen, readers en andere compilatie-werken (artikel Auteurswet ) dient men zich tot de uitgever te wenden.

Page 4: Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie Welling HR FINAL.pdfne learning methoden te implementeren in het bedrijfsleven. Onze

Mevrouw de rector magnificus,Mevrouw de decaan,Geachte leden van het curatorium,Beste collega’s van het Instituut voor Informatica,Beste familie en vrienden,Zeer gewaardeerde toehoorders,

De dataficatie van onze samenleving

“Big Data”; de term kan u niet ontgaan zijn. Big data is de nieuwe goudmijn.“Data mijnen” is de activiteit die zijn waarde ontsluit. Zoals olie de industriëlerevolutie aandreef, zo is big data de nieuwe grondstof waarop de moderneeconomie draait. Jim Gray noemde data-gedreven wetenschappelijk onder-zoek het “vierde paradigma” (na experiment, theorie en computer-gedrevensimulatie). De “datascope” is de nieuwe telescoop en microscoop waarmee weverder en dieper kunnen kijken (zie figuur ). Niet in de fysieke wereld, maarmeer zoals in “The Matrix” in een digitale projectie van onze wereld, een we-reld van nullen en enen. Het is duidelijk, de verwachtingen zijn hooggespan-nen. Is big data een big hype of stevenen we echt af op een maatschappij diegedomineerd wordt door data? En wat betekent die dataficatie van onze sa-menleving nu eigenlijk voor ons?

Page 5: Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie Welling HR FINAL.pdfne learning methoden te implementeren in het bedrijfsleven. Onze

Eerst een paar feiten op een rijtje. De totale hoeveelheid data in de wereldwordt op dit moment geschat op ongeveer zettabyte. Dat is ,,,,,,, = x bytes. Als we er even van uitgaan dat de hardeschijf in uw computer gigabytes (= ! terabyte = ! x bytes) kan be-vatten dan zijn dat dus miljard harde schijven. Zeg even dat een harde schijf cm dik is, dan zou de totale stapel harde schijven die alle data van de wereldbevat even hoog zijn als de afstand tussen de aarde en de maan.

Figuur

De “Square Kilometer Array” (SKA) radio telescoop is misschien wel het we-tenschappelijke experiment dat de grootste hoeveelheid data gaat opleveren in: ongeveer exabyte ( bytes) per dag, ofwel een zettabyte per jaar(zie figuur ).

Die data-tsunami komt er dus aan. Net zoals de snelheid waarmee compu-ters kunnen rekenen iedere twee jaar verdubbelt (Moore’s wet), zo verdubbeltook de hoeveel data in iets minder dan twee jaar. De data-berg is zo groot dathet onmogelijk is om deze door mensen te laten inspecteren. We moeten ditdus aan slimme algoritmen overlaten. Maar hoe ontwerp je een slim algo-ritme? Dit is het domein van “machine learning” (vrij vertaald: kunstmatigleren), het onderwerp van mijn leerstoel.

Naast sociologische oorzaken zijn er drie technologische redenen te beden-ken waarom big data nu zo in de aandacht staat:. De data explosie

VVAANN VVEEEELL DDAATTAA,, SSNNEELLLLEE CCOOMMPPUUTTEERRSS EENN CCOOMMPPLLEEXXEE MMOODDEELLLLEENN

Page 6: Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie Welling HR FINAL.pdfne learning methoden te implementeren in het bedrijfsleven. Onze

. De enorme computerkracht. Sterk verbeterde algoritmen om deze data te analyseren.

Het samenkomen van deze drie factoren gaat het eindelijk mogelijk makenom de hooggespannen verwachtingen over kunstmatige intelligentie uit dejaren waar te maken. Misschien niet precies zoals we ons hadden voorge-steld met op mensen lijkende robots, maar op een manier die misschien nogwel veel verstrekkender is. Met digitale artsen die beter patiënten kunnen be-handelen dan menselijke artsen. Met digitale advocaten die beter in staat zijnom u in een strafzaak te verdediging dan menselijk advocaten, met zelfrij-dende auto’s die geen ongelukken meer maken, met een digitale politie dieheel efficiënt misdaad kan opsporen of kan voorkomen en ga zo maar door.Om een analogie van Vance Packard te gebruiken: een mes in de handen vaneen chirurg redt levens, maar datzelfde mes in de handen van een misdadigerneemt levens. Het zou dan ook naïef zijn om de gevaren van de dataficatievan onze samenleving te ontkennen: privacyschendingen, misbruik van per-soonsgegevens, discriminatie, het trekken van verkeerde conclusies, de ont-menselijking van de zorg, de verdringing van arbeidsplaatsen door automati-sche systemen en ga zo maar door.

Big data staat dus voor geweldige mogelijkheden maar tegelijkertijd ookvoor niet te onderschatten gevaren. Deze ontwikkelingen tegen houden is eenfutiele strijd, analoog aan het tegenhouden van elektriciteit in de e eeuw.Maar er voor zorgen dat de gevaren zoveel mogelijk worden onderkend enondervangen is wel degelijk mogelijk en verdient onze volle aandacht.

Wat is mogelijk met big data?

Om het concept big data wat minder abstract te maken laat ik eerst wat voor-beelden de revue passeren. Het eerste voorbeeld komt direct uit de praktijk.In ben ik met twee masterstudenten en een studiegenoot een nieuw be-drijfje begonnen, “Scyfer”, dat als doel heeft moderne state-of-the-art machi-ne learning methoden te implementeren in het bedrijfsleven. Onze eersteklant was een grote Nederlandse bank die zijn klanten betere aanbiedingenwilde doen. Deze bank heeft miljoenen klanten en verwerkt miljoenen trans-acties per dag. Wanneer klanten op hun account inloggen krijgen ze een aan-bieding te zien, een nieuwe hypotheek bijvoorbeeld. Er zijn een paar honderdvan dat soort producten. Niet iedereen is geïnteresseerd in dezelfde produc-ten. Piet, die jaar oud is, hoeft waarschijnlijk geen nieuwe hypotheek opzijn huis, maar misschien wel hulp bij het beheren van zijn bankrekeningen.

MMAAXX WWEELLLL IINNGG

Page 7: Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie Welling HR FINAL.pdfne learning methoden te implementeren in het bedrijfsleven. Onze

De bank weet veel over iedere klant: leeftijd, geslacht, samenstelling gezin,inkomen, woonplaats, hoeveel en hoe grote transacties hij/zij in het verledenheeft gedaan enzovoort. Ook kent de bank eigenschappen van de mogelijkeproducten: prijs, type rekening, looptijd, enzovoort. Bovendien volgt de bankhoe een klant door de verschillende internetpagina’s heen navigeert, en metname hoe hij/zij heeft gereageerd op eerdere aanbiedingen. Al deze informatiekan gebruikt worden om preciezere persoonsgerichte aanbiedingen te doen.Bijvoorbeeld, als Kees, een getrouwde man van , positief heeft gereageerdop een aanbieding van de bank om hem te helpen zijn geld te beleggen, danheeft deze zelfde aanbieding ook een grote kans van slagen bij Piet van . Usnapt nu misschien ook waarom supermarkten maar al te graag willen dat udie bonuskaart gebruikt.

Nog een voorbeeld. Stel dat we alle medische gegevens van iedereen cen-traal beschikbaar hebben voor analyse. Dat wil zeggen, alle bezoekjes naar dedokter, de symptomen, de diagnose, de behandelingen en medicijnen, heteindresultaat van de behandeling, maar ook persoonlijke gegevens zoals ge-wicht, bloeddruk, suikergehalte, huidskleur, aantal kanker gevallen in de di-recte familie, en in het meest extreme geval ook de genetische informatie. Metal deze gegevens zouden we voor iedereen persoonlijk heel precies diagnoseskunnen stellen en medicijnen of therapieën aanbevelen. Anders dan nu hetgeval is kunnen we dan de werking van medicijnen zeer nauwkeurig bepalen:onder welke omstandigheden werkt welke cocktail van medicijnen het bestevoor welke aandoening? Het is in deze zin dat we kunnen spreken van een“datascope” (figuur ) als metafoor van de microscoop, die veel dieper kandoordringen in het woud van complexe relaties tussen persoonsgebondenmedische eigenschappen, ziektes, medicijnen en/of therapieën en andere ex-terne factoren zoals geografische locatie.

Figuur

VVAANN VVEEEELL DDAATTAA,, SSNNEELLLLEE CCOOMMPPUUTTEERRSS EENN CCOOMMPPLLEEXXEE MMOODDEELLLLEENN

Page 8: Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie Welling HR FINAL.pdfne learning methoden te implementeren in het bedrijfsleven. Onze

Ten slotte een voorbeeld over veiligheid. In Los Angeles doet de politie aan“predictive policing”, ofwel het voorspellen waar de volgende golf aan crimi-naliteit zal plaatsvinden en deze voorkomen door er meer politieagenten telaten surveilleren. Dit blijkt mogelijk omdat er structuur zit in de manierwaarop golven criminaliteit zich door een stad heen bewegen, niet veel andersdan de geografische verdeling van naschokken die volgen op een aardbeving.In Los Angeles heeft dit geleid tot een vermindering van % aan inbraken inhet gebied waar deze techniek is toegepast. Recentelijk heeft ook de Neder-landse politie inbraakinformatie vrijgegeven via internet.

Deze voorbeelden illustreren dat big data de potentie heeft om een eerlij-kere, gemakkelijkere, veiligere en gezondere samenleving te creëren. Maarzo’n krachtige technologie kan niet zonder gevaren zijn. Hierover meer in hetvolgende hoofdstuk.

Wat is gevaarlijk aan big data?

Bij het lezen van de voorbeelden uit het vorige hoofdstuk bekroop u mis-schien al een “unheimisch” gevoel. Op welke manieren kan de datascope te-gen ons gebruikt worden? Gaat de dataficatie van onze samenleving niet veelte ver? Leidt big data niet tot George Orwell’s “big brother”?

Laten we een aantal doemscenario’s doornemen. Stel een verzekerings-maatschappij weet de toekomstige centrale patiënten databank te hacken enkrijgt toegang tot alle medische gegevens van alle Nederlanders. Daaruit kanzij een kans berekenen dat iemand binnen jaar ernstig ziek wordt. Het zoudan heel verleidelijk zijn om deze mensen een verzekering te weigeren.

Of neem het voorbeeld van “predictive policing”. Stel dat de politie, ge-bruik makende van sociale achtergrond, genetische informatie, crimineel ver-leden enz. op persoonlijk niveau kan voorspellen wat de kans is dat iemand inde toekomst een misdaad begaat. Mag de politie met die informatie iemandarresteren voordat hij/zij die misdaad begaat? Dit scenario is mooi verbeeld inde film Minority Report waar een politieafdeling wordt beschreven die zichbezig houdt met “pre-crimes”: misdaden die met grote zekerheid in de toe-komst worden gepleegd. Ik denk dat de meesten onder ons het onwenselijkvinden om verdachten van toekomstige misdaden maar vast te arresteren.

We zien dus dat privacyschendingen en het misbruik van gevoelige infor-matie op de loer liggen. Ik zie ook nog twee minder genoemde gevaren. Heteerste gevaar is dat we verkeerde conclusies gaan trekken uit data die gemak-kelijk op internet te oogsten zijn. Stel we willen weten hoeveel mensen zichzorgen maken over privacy schendingen van de binnenlandse veiligheids-

MMAAXX WWEELLLL IINNGG

Page 9: Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie Welling HR FINAL.pdfne learning methoden te implementeren in het bedrijfsleven. Onze

dienst. Als we op internet zoeken vinden we heel veel bezorgde tweets, blogs,chats, enzovoort. De mensen die zich geen zorgen maken laten zich over hetalgemeen niet horen. Dit noemen we “selectie bias”, omdat de steekproef diewe nemen niet representatief is voor de hele bevolking. In dit geval vergarenwe vooral informatie van mensen die zich druk maken over het probleem enzich ook van dit soort moderne media bedienen. We moeten dus met hettrekken van conclusies heel erg oppassen om niet ten prooi te vallen aan dezeselectie bias.

Ten slotte zie ik een reëel gevaar dat de kunstmatige intelligentie op denduur heel veel banen overbodig gaat maken. Zelfrijdende auto’s zouden zo-maar alle vrachtwagenchauffeurs hun baan kunnen ontnemen. Het stan-daardantwoord is altijd dat er weer nieuwe banen bijkomen, maar ik ben erniet zeker van dat dit in de toekomst zo zal blijven. Misschien moeten we errekening mee houden dat we allemaal wat meer vrije tijd gaan krijgen, en ergoed over nadenken hoe we onze samenleving daar naar gaan inrichten.

Ik wil ook nog één misverstand noemen voordat ik dit hoofdstuk afsluit.Vaak hoor je dat met big data men alleen nog oog zou hebben voor voorspel-lingen (wat) en niet meer voor de onderliggende oorzaken (waarom). Ditwordt ook wel het correlatie (wat) versus causatie (waarom) probleem ge-noemd. Zoeken naar correlaties in plaats van oorzaken kan misschien eenverleiding zijn, maar heeft niets met big data te maken. Meer data leidt altijdtot betere inzichten mits men de juiste vragen stelt. Met dezelfde data kanmen proberen te voorspellen welke bevolkingsgroepen een grotere kans heb-ben om in de misdaad terecht te komen, maar kan men ook proberen te ach-terhalen waarom deze bevolkingsgroepen in de misdaad terechtkomen (bij-voorbeeld door een grotere werkeloosheid). De gulden regel is: meer data isaltijd beter dan minder data mits je de goede vragen stelt en de goede algorit-men gebruikt.

Concluderend: de datascope is een krachtig instrument waarmee we dieperinzicht kunnen krijgen in allerlei complexe problemen en relaties. Zoals altijdkunnen krachtige technologieën ook misbruikt worden. We moeten daarvooroppassen en onze maatschappij via wetgeving zo inrichten dat die negatieveaspecten worden beteugeld en ondervangen. We mogen simpelweg niet toe-staan dat verzekeringsmaatschappijen discrimineren op medische profielen.We hoeven ook niet toe te laten dat de politie preventief gaat arresteren.Door de snelle ontwikkelingen lopen we hier wellicht wat achter op de feiten,dus dit verdient onze volle aandacht.

VVAANN VVEEEELL DDAATTAA,, SSNNEELLLLEE CCOOMMPPUUTTEERRSS EENN CCOOMMPPLLEEXXEE MMOODDEELLLLEENN

Page 10: Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie Welling HR FINAL.pdfne learning methoden te implementeren in het bedrijfsleven. Onze

De derde groeiwet

De wet van Moore (Moore, ) stelt dat ruwweg iedere twee jaar de reken-kracht van computers verdubbelt, voornamelijk als gevolg van de miniaturise-ring van transitoren, zie figuur . Deze wet blijkt al sinds op te gaan. Wezullen dit de eerste groeiwet (van Moore) noemen.

Figuur

Bron: Intel

De explosie van data blijkt ook aan eenzelfde wetmatigheid onderhevig. Ookhier geldt dat ruwweg iedere twee jaar de hoeveelheid data verdubbelt. Wezullen dit de tweede (big data) groeiwet noemen.

Ik stel hier dat er waarschijnlijk nog een derde groeiwet actief is. Dezederde wet beschrijft de exponentiële groei van de capaciteit van de modellendie onderzoekers gebruiken. Simpele modellen hebben maar een klein aantalvrijheidsgraden (ook wel parameters genoemd) terwijl complexe modellenheel veel vrijheidsgraden hebben. De taak van de onderzoeker is om de vrij-heidsgraden zo te kiezen dat het resulterende model de geobserveerde data zogoed mogelijk beschrijft. Dit gebeurt automatisch via zogenaamde “leeralgo-ritmen” die in het vakgebied machine-learning worden ontwikkeld.

MMAAXX WWEELLLL IINNGG

Page 11: Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie Welling HR FINAL.pdfne learning methoden te implementeren in het bedrijfsleven. Onze

Tijdens mijn bezoek aan Google en Yahoo in vernam ik dat men daar numodellen traint met meer dan miljard parameters! Dit was ondenkbaartoen ik in tot het veld toetrad. Ik wil mezelf niet branden aan een pre-cieze voorspelling van het aantal jaar dat nodig is voor een verdubbeling vande modelcapaciteit (het aantal vrije parameters), maar het zou me niks verba-zen als dat ook rond de twee jaar is. Ter illustratie, in had het state-of-the-art neurale netwerk “NetTalk” , parameters. Dat ijkpunt gecombi-neerd met de omvang van de hedendaagse modellen van miljard parame-ters leidt tot een verdubbeling iedere één en een kwart jaar (maar dit getalmoet met een flinke korrel zout worden genomen). In figuur heb ik deexponentiële groei van het aantal parameters van neurale netwerken (ziehoofdstuk ) geplot. Dit is een zogenaamde log-log plot, wat betekent dat eenrechte lijn met exponentiële groei overeenkomt.

Figuur

Het menselijk brein heeft ongeveer triljoen synapsen. Synapsen regulerenhet gemak waarmee één neuron zijn informatie doorgeeft aan zijn buurman.Synapsen zijn net als vrije parameters in een model aangezien het brein desterkte van deze synapsen aanpast aan de nieuwe informatie die via de zintui-gen binnenstroomt. Als we uitgaan van een verdubbeling iedere twee jaar dan

VVAANN VVEEEELL DDAATTAA,, SSNNEELLLLEE CCOOMMPPUUTTEERRSS EENN CCOOMMPPLLEEXXEE MMOODDEELLLLEENN

Page 12: Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie Welling HR FINAL.pdfne learning methoden te implementeren in het bedrijfsleven. Onze

zal het nog jaar duren voordat onze modellen hetzelfde aantal vrije para-meters hebben als ons brein, zie figuur . Neuronen zijn hele langzame reke-naars: zij hebben tenminste één milliseconde nodig om een signaal door tegeven. Als we ooit een kunstmatig brein bouwen met evenveel transistors enconnecties als in het menselijk brein, dan zal deze misschien evenveel infor-matie kunnen bevatten als ons brein maar wel vele ordes van grootte snellerkunnen rekenen. Maar goed, aan dat laatste feit waren we eigenlijk al gewend.

De derde groeiwet is in principe consistent met de eerste wet van Moore.We hebben immers exponentieel groeiende rekenkracht nodig om een expo-nentieel groeiend aantal parameters te leren. Maar de derde groeiwet lijkt nietconsistent met de tweede groeiwet. De reden van deze paradox is dat de hoe-veelheid nuttige informatie in data veel kleiner is dan de hoeveelheid data zelf.

Figuur

We kunnen ons ruwe data voorstellen als gouderts, zie figuur . De nuttigeinformatie is dan het goud zelf dat uit de erts moet worden gewonnen met de

MMAAXX WWEELLLL IINNGG

Page 13: Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie Welling HR FINAL.pdfne learning methoden te implementeren in het bedrijfsleven. Onze

gereedschappen van de machine learning. Het overgebleven gruis komt over-een met nutteloze informatie, ofwel ruis. De term datamining kan dus vrijletterlijk worden geïnterpreteerd als het bevrijden van nuttige informatie uitdata.

Nuttige informatie

Claude Shannon introduceerde in een rigoureuze definitie van het con-cept informatie (Shannon, ). Men wint één bit aan informatie als menantwoord krijgt op één ja/nee vraag waarvan men daarvóór geen benul hadvan het antwoord. Bijvoorbeeld, Lieke gooit een munt op en laat niet zien ofdie kop of munt was gevallen. Nadat Lieke mij vertelt hoe het muntje wasgevallen heb ik precies bit aan informatie ingewonnen.

Neem nu een plaatje met pixels die de waarde of kunnen aannemen.Als alle pixels onafhankelijk van elkaar met een kans van een half de waarde of aannemen zeggen we dat het plaatje bits aan informatie bevat (ziefiguur -C). Figuur -A daarentegen bestaat helemaal uit pixels die allemaalde waarde aannemen. Dit plaatje representeert veel minder dan bits.

Figuur

A B C

We kunnen deze intuïtie preciezer maken door ons voor te stellen dat Serahet plaatje naar Eline moet sturen. Hoeveel bits heeft Sera nodig om alle in-formatie over te sturen? In het eerste geval heeft ze weinig keus: ze moet vooralle pixels zeggen of ze de waarde of hadden, bits dus. Maar in hettweede geval kan ze alle informatie in één zin stoppen: “alle bits hebben waar-de ”. Nu moet Sera natuurlijk wel deze zin opsturen en ook dat is informatie,maar de hoeveelheid bits is onafhankelijk van de grootte van het plaatje. Dezin “alle bits hebben waarde ” noemen we het model. Dus in het eerste gevalis er geen model dat ons kan helpen om het plaatje efficiënter te coderen,

VVAANN VVEEEELL DDAATTAA,, SSNNEELLLLEE CCOOMMPPUUTTEERRSS EENN CCOOMMPPLLEEXXEE MMOODDEELLLLEENN

Page 14: Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie Welling HR FINAL.pdfne learning methoden te implementeren in het bedrijfsleven. Onze

terwijl in het tweede geval alle informatie met een heel simpel model kanworden beschreven.

“Echte data” heeft een complexiteit die ergens tussen deze twee extremen inligt, zoals in figuur -B. Gedeeltelijk kunnen we de informatie comprimerendoor een model te gebruiken, maar er blijven ook een hoop bits nodig om deafwijkingen van dit model te beschrijven (pixel is i.p.v. de die het modelvoorspelde). De informatie die niet met een model te vangen is noemen we deruis. Deze informatie is niet nuttig in de zin dat we er niets mee kunnenvoorspellen. De informatie die we met een model kunnen beschrijven is welnuttig want daar kunnen we wel voorspellingen mee doen. Het is de taak vande modellenbouwer om de nuttige informatie te scheiden van de ruis, en dezeop te slaan in de parameters van het model, zie figuur .

Figuur

De hoeveelheid nuttige informatie groeit veel langzamer dan de totale hoe-veelheid informatie in data. We observeren dus een “afnemende meerwaarde”aan informatie als we observaties toevoegen: het miljoenste data-punt voegtveel minder voorspellende waarde toe dan het e data-punt. De metafoor

MMAAXX WWEELLLL IINNGG

Page 15: Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie Welling HR FINAL.pdfne learning methoden te implementeren in het bedrijfsleven. Onze

van de goudmijn helpt ons dit weer te begrijpen: hoe langer we in dezelfdegoudmijn graven naar goud hoe moeilijker het wordt het goud te delven. Im-mers, de grote brokken zijn er in het begin al uitgevist, en de mijn raakt opden duur uitgeput.

We hebben de paradox nu dus scherp voor ogen. Ondanks het feit dat dehoeveelheid ruwe data exponentieel groeit (de tweede groeiwet), groeit dehoeveel nuttige informatie in die data veel langzamer. Waarom groeit decomplexiteit (het aantal vrije parameters) van modellen dan toch exponenti-eel (de gepostuleerde derde groeiwet)? De huidige modellen lijken dus eenenorme overcapaciteit te hebben om de hoeveelheid nuttige informatie in dedata op te slaan. Modellen met zo’n overcapaciteit lopen het gevaar om te“overfitten”. Ze gaan proberen deze overcapaciteit te vullen met ruis (de in-formatie zonder voorspellende waarde). En helaas kunnen modellen die over-fitten minder goed voorspellen. Ik heb deze conclusie in figuur samengevat.

Figuur

In de metafoor van de goudmijn komt dit neer op de volgende situatie. Omhet goud op te slaan heb ik een enorme silo aangeschaft. Maar deze silo is veelte groot, namelijk groot genoeg om niet alleen het goud maar ook alle goud-erts in op te slaan. De machines die de silo vullen hebben de neiging de silohelemaal vol te storten, wat betekent dat er naast het pure goud ook een hoopgruis in de silo terechtkomt. Een grote silo is niet alleen duur, door de aanwe-zigheid van het gruis is het ook moeilijk om bij het goud te komen.

VVAANN VVEEEELL DDAATTAA,, SSNNEELLLLEE CCOOMMPPUUTTEERRSS EENN CCOOMMPPLLEEXXEE MMOODDEELLLLEENN

Page 16: Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie Welling HR FINAL.pdfne learning methoden te implementeren in het bedrijfsleven. Onze

Overfitting

Het begrip “overfitten” is het centrale concept in machine learning. Men kanhet zich voorstellen als een geheugen dat te goed werkt. Stel je voor dat je plaatjes van verschillende stoelen te zien krijgt. Iemand met een perfectgeheugen onthoudt alle details van alle stoelen. Als we hem een plaatje vaneen stoel laten zien die hij al eens eerder heeft gezien dan roept hij tevreden:dat is een stoel! Maar laat je hem een plaatje zien van een stoel die iets andersis dan één van die voorbeelden, dan raakt hij in de war. Iemand met eenslechter geheugen probeert eigenschappen te vinden die alle stoelen gemeenhebben: een leuning, een zitvlak, poten etc. Bij het zien van de nieuwe stoelherkent hij deze eigenschappen en concludeert dus dat dit ook een stoel moetzijn. Een goed model moet dus alleen de essentiële eigenschappen onthouden,en de rest vergeten. (Dat het generaliseren van kennis te maken heeft met slimvergeten is goed nieuws voor een hoop vergeetachtigen zoals ikzelf.) Op een-zelfde manier kan een computer ook heel makkelijk onthouden wat je er in-stopt. Maar dit is heel wat anders dan een computer die goed kan generalise-ren naar nieuwe input en goed kan voorspellingen kan doen.

Goede modellen zoeken naar nuttige informatie: abstracte concepten omde data te beschrijven. Het concept stoel is natuurlijk zo’n abstractie. We zijncontinue bezig met nieuwe concepten te formuleren om de wereld om onsheen beter te begrijpen. Een concept is niets meer dan het extraheren van denuttige informatie en het vergeten van ruis. Leren is dus equivalent aan ab-straheren en conceptualiseren, aan het wegfilteren van de ruis en aan hetcomprimeren van de data zodat alleen nuttige informatie achterblijft.

Om te kunnen leren moeten we aannames maken. In het voorbeeld hier-boven waren onze aannames dat leuningen en zitvlakken belangrijke eigen-schappen zijn die een stoel definiëren. Deze aannames noemen we “induc-tieve bias”. Je leest nog wel eens dat iemand een nieuw leeralgoritme heeftverzonnen dat aannamevrij is. Neem van mij aan dat dit onzin is. Er zijn altijdverborgen aannames. Zonder aannames kan je niet generaliseren.

De lakmoestest voor een goed model is zijn voorspelkracht. Alleen goedemodellen kunnen voorspellingen doen op nieuwe, nooit eerder geziene data.Maar test een model nooit op de data die het al eerder heeft gezien, want hetonthouden van data is geen kunst. Voorspellen is ook wat ons brein doet. Alsde voorspellingen goed zijn merk je niks, maar als ze eens een keer falen danmerk je wel degelijk dat je onbewust een voorspelling deed. Een goed voor-beeld is die keer dat je het melkpak uit de koelkast pakte en je arm ineensomhoogschoot. Je voorspelling omtrent de hoeveel melk in dat melkpak zater naast en je spieren hadden zich te hard aangespannen.

MMAAXX WWEELLLL IINNGG

Page 17: Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie Welling HR FINAL.pdfne learning methoden te implementeren in het bedrijfsleven. Onze

Maar waarom leidt overfitten eigenlijk tot verminderde voorspelkracht?We illustreren dit eerst met figuur . We willen een curve door de puntentrekken om hun relatie zo goed mogelijk te beschrijven. Als we een rechte lijntrekken ( vrije parameters) dan is de bias groot en de fit dus slecht. Als weeen heel flexibele curve gebruiken met heel veel vrije parameters dan gaat decurve precies door alle punten maar de fit is intuïtief toch ook erg slecht om-dat we niet verwachten dat de niet geobserveerde punten op deze curve zullenliggen. Het optimum zit ergens in het midden.

Figuur

Om de relatie tussen overfitten, inductieve bias en voorspelkracht verder teverduidelijken neem ik even aan dat de dataset met N datapunten die wij totonze beschikking hebben er maar één uit vele mogelijke datasets met N data-punten is. We stellen ons het model dat we leren voor als een pijl die we ineen roos willen schieten, zie de figuur . Schieten we in de roos dan is hetmodel perfect, schieten we er flink naast dan is het een slecht model met wei-nig voorspelkracht. Als we een heel simpel model gebruiken (met heel weinigvrije parameters) dan maken we impliciet sterke aannames (een sterke induc-tieve bias). Deze bias kan natuurlijk precies goed zijn, maar in het algemeen isde wereld veel ingewikkelder dan we met een simpel model kunnen bevatten.We zullen dus in alle waarschijnlijkheid flink naast de roos schieten en slechtevoorspellingen doen. We noemen dit “underfitten”. Als we ons nu voorstellendat we ook de beschikking hadden over nog andere datasets met N data-punten, en we trainen ons simpele model ook met deze andere datasetsdan krijgen we verschillende voorspellingen. De pijlen komen dus op ver-schillende plekken terecht. Maar omdat het model zo simpel is, verandert erook niet veel aan de voorspellingen, en de pijlen landen ongeveer in hetzelfdegebied. Dit correspondeert met de rode kruisjes op het linkerbord in figuur. We zeggen dat de variantie klein is.

VVAANN VVEEEELL DDAATTAA,, SSNNEELLLLEE CCOOMMPPUUTTEERRSS EENN CCOOMMPPLLEEXXEE MMOODDEELLLLEENN

Page 18: Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie Welling HR FINAL.pdfne learning methoden te implementeren in het bedrijfsleven. Onze

Figuur

Nu het omgekeerde geval: een model met heel veel vrije parameters. De in-ductieve bias is nu klein want we kunnen hele complexe functies beschrijven.Maar als we kijken naar de variatie die ontstaat als we het model trainen op de verschillende datasets van ieder N datapunten, dan zien we een enormverschil: de variantie is groot. Dit correspondeert met de rode kruisjes op hetrechterbord in figuur . Dit komt omdat het algoritme nu zelfs de kleinstedetails van de dataset probeert te fitten. Het fit dus de ook de ruis die geenenkele voorspelkracht heeft. Het model lijdt aan overfitting. Overfitting is dusequivalent aan een grote variantie in de voorspellingen.

De conclusie is dus dat zowel underfitten en overfitten leiden tot slechtevoorspellingen. Zoals zo vaak in het leven, moeten we op zoek naar de guldenmiddenweg. De filosofie dat we het simpelste model moeten kiezen dat dedata nog goed beschrijft heet ook wel Occam’s scheermes. Maar de realiteit isiets ingewikkelder want het is niet duidelijk hoe goed nog goed genoeg is;complexere modellen fitten immers de trainingsdata beter. Maar er zijn ge-lukkig goede methoden ontwikkeld om toch de juiste balans te vinden.

Terug naar de paradox. De derde groeiwet laat zien dat onderzoekers juistwel hele complexe modellen gebruiken. Hoe vermijden ze dan toch overfit-ten? Een hele elegante methode, die gebaseerd is op de “wijsheid van de me-nigte” zal ik nu uitleggen.

MMAAXX WWEELLLL IINNGG

Page 19: Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie Welling HR FINAL.pdfne learning methoden te implementeren in het bedrijfsleven. Onze

Wijsheid van de menigte

Probeer het volgende experiment eens thuis. Stel u wilt de hoogte van de Eif-feltoren weten. Vraag dan aan mensen (of een ander oneven aantal men-sen) om deze waarde te schatten, ongeacht of ze er veel of weinig vanaf den-ken te weten. Ze mogen niet met elkaar overleggen. Sorteer alle schattingenvan klein naar groot en gebruik de e schatting (de middelste schatting) als jeantwoord. Wat blijkt? Bijna altijd levert deze procedure een heel precies ant-woord op, bijna net zo precies als de beste schatting uit het rijtje (maar je weetnatuurlijk niet van te voren wat de beste schatting is). In de volksmond heetdit “de wijsheid van menigte”. Wat nog beter blijkt te werken is als je demenigte laat gokken met geld. Mensen die heel zeker zijn van hun antwoordzijn bereid veel geld in te zetten en hun stem weegt dan ook zwaarder mee inhet gewogen gemiddelde. Je kan hier aan meedoen op websites die “predic-tion markets” worden genoemd. De filosofie is niet heel anders dan die van deaandelenmarkt waar mensen aandelen kopen en verkopen en zo heel preciesgezamenlijk de werkelijke waarde van een bedrijf bepalen.

In het vakgebied machine learning bestaat een analoge methode om beterevoorspellingen te bewerkstelligen. We laten nu niet mensen maar algoritmenvoorspellingen doen en nemen net zoals hierboven is beschreven de middelstewaarde of het gemiddelde van alle voorspellingen. Vaak zien we dat hoe meerverschillende algoritmen meedoen, des te beter deze gecombineerde voorspel-ling wordt. Dit fenomeen werd heel duidelijk toen het Amerikaanse bedrijfNetflix een competitie uitschreef waar de winnaar maar liefst miljoen dollarkon winnen. De participanten moesten het “recommender” systeem van Net-flix dat films aan klanten aanbeveelt met tenminste % verbeteren. Het bleekeen enorm succes. Meer dan twintigduizend teams streden drie jaar lang en

VVAANN VVEEEELL DDAATTAA,, SSNNEELLLLEE CCOOMMPPUUTTEERRSS EENN CCOOMMPPLLEEXXEE MMOODDEELLLLEENN

Page 20: Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie Welling HR FINAL.pdfne learning methoden te implementeren in het bedrijfsleven. Onze

verbeterde uiteindelijk Netflix’s eigen systeem met meer dan %. Wat bleek?Het winnende team had meer dan verschillende modellen getraind enhun voorspellingen op een slimme manier gecombineerd. De wijsheid van demenigte had gezegevierd. Deze methode noemen we “ensemble learning” inmachine learning (Breiman, ).

Het is niet heel moeilijk om te begrijpen waarom deze methode zo succes-vol is. We gaan hiervoor weer even terug naar het verhaal over bias en vari-antie. Als we een heleboel modellen trainen die allemaal heel flexibel zijn danhebben die modellen een kleine bias maar een grote variantie. Maar als dezemodellen onafhankelijke voorspellingen doen, dan is er voor de fout die mo-del A maakt ook een model B dat precies de omgekeerde fout maakt, en defouten vallen tegen elkaar weg als we de voorspellingen middelen. Middelenvermindert dus de variantie en helpt tegen overfitten. Dit fenomeen is duide-lijk te zien in figuur . De twee blauwe kruisjes stellen het gemiddelde voorvan alle rode kruisjes. In het rechterplaatje waar de modellen overfitten zienwe duidelijk dat het gemiddelde blauwe kruisje veel dichter bij de roos zit dande rode kruisjes.

We hebben nu een sterk argument in handen om de paradox van de derdewet op te lossen. We kunnen best heel grote flexibele modellen trainen, als wedaarna maar door het middelen van de voorspellingen het overfitten tegen-gaan. Dit is een vorm van regularisatie, wat neer komt op het verkleinen vande capaciteit van een model, zodat de ruis er niet in past. Het alsof je eendubbele bodem in je silo legt: van buiten ziet de silo er nog steeds even grootuit, maar er past toch niet meer zoveel in.

Er zijn ook andere methoden om een model te regulariseren. Bijvoorbeeld,we kunnen proberen ervoor te zorgen dat voor iedere voorspelling maar eenklein deel van het model mag worden geactiveerd (dit heet “sparsity”), of wekunnen eisen dat een model nog steeds goed werkt als we de data een kleinbeetje veranderen (dit heet “robustness”). De conclusie is dus dat we wel de-gelijk hele complexe modellen met heel veel vrije parameters kunnen trainenals we er maar op de één of andere manier voor zorgen dat die overcapaciteitwordt weggeregulariseerd.

We hebben vrij abstract over modellen gesproken tot dusver. Maar wat isnou een goed voorbeeld van een model dat we willekeurig complex kunnenmaken? In het volgende hoofdstuk zal ik het neurale netwerk verder uitlich-ten. Dit model heeft een interessante geschiedenis omdat het aan de wiegstond van het vakgebied kunstmatige intelligentie, vervolgens twee keer indiskrediet is geraakt en nu opnieuw reïncarneert onder de naam “deep lear-ning”.

MMAAXX WWEELLLL IINNGG

Page 21: Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie Welling HR FINAL.pdfne learning methoden te implementeren in het bedrijfsleven. Onze

Deep learning, de derde generatie kunstmatigeneurale netwerken

Kunstmatige neurale netwerken zijn zo oud als het vak kunstmatige intelli-gentie zelf. McCulloch and Pitts (McCulloch & Pitts, ) bedachten als eer-sten in een model dat in grote lijnen nog steeds overeenkomt met wat wevandaag de dag verstaan onder de term neuraal netwerk. Het model is eenversimpeling van de echte neuronen en synapsen die ons brein bevolken. Vol-gens deze abstractie is een neuron een schakelaar die “aan” gaat als er genoegsignaal binnenkomt van andere, naburige neuronen. Als een neuron aangaat,zal het ook weer een signaal doorsturen naar zijn buren, enzovoort. Neuronenzijn verbonden met elkaar via synapsen. Als de synaptische verbinding sterkis zal het signaal tussen twee neuronen versterkt worden. Door nu de sterktevan deze synapsen aan te passen zodat het netwerk als geheel betere voorspel-lingen gaat doen kunnen we het netwerk trainen met data.

Rond raakten de neurale netwerken voor het eerst in diskrediet door-dat misschien wel de meest beroemde onderzoeker in de kunstmatige intelli-gentie uit die tijd, Marvin Minsky (samen met Seymore Papert) een boekschreef (Minsky & Papert, ) dat neurale netwerken zwaar bekritiseerde.Volgens hen waren neurale netwerken niet flexibel genoeg om moeilijke pro-blemen op te lossen. Maar hun kritiek betrof alleen neurale netwerken mettwee lagen neuronen.

In echter ontstond er een hernieuwde interesse in neurale netwerkendoordat Rumelhart, Hinton & Williams (Rumelhart, Hinton, & Williams,) en onafhankelijk LeCun (LeCun, ) een algoritme heruitvonden datal eerder in door Werbos (Werbos, ) was gepubliceerd. Met dit algo-ritme, “backpropagation”, konden onderzoekers nu voor het eerst neuralenetwerken met drie lagen neuronen trainen. Soms noemen mensen deze her-opstanding de “ReNNaissance” (waar NN voor neurale netwerken staat).

Helaas ging het weer mis rond toen Vladimir Vapnik de “support vec-tor machines” uitvond. Dit model kon ook ingewikkelde niet lineaire relatiesmodelleren, maar met als groot voordeel dat het leeralgoritme maar één (endus reproduceerbaar) antwoord kon opleveren. Neurale netwerken conver-geerden vaak naar heel verschillende modellen afhankelijk van hoe je het leer-algoritme startte. (Dit noemen we lokale minima). Het probleem daarvan isniet zozeer dat deze verschillende modellen slecht zijn, maar meer dat je nietstheoretisch kan bewijzen over hoe het netwerk zich gedraagt in nieuwe situ-aties. Dat kon wel met de support vector machines en dus verdwenen de neu-rale netwerken opnieuw in de la.

VVAANN VVEEEELL DDAATTAA,, SSNNEELLLLEE CCOOMMPPUUTTEERRSS EENN CCOOMMPPLLEEXXEE MMOODDEELLLLEENN

Page 22: Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie Welling HR FINAL.pdfne learning methoden te implementeren in het bedrijfsleven. Onze

Maar recent zijn ze aan hun tweede comeback begonnen in een nieuw“deep learning” jasje. Waar de eerste generatie neurale netwerken maar tweelagen neuronen hadden, kwam de tweede generatie niet verder dan drie lagenneuronen. Het probleem was dat het backpropagation algoritme dat de vrijeparameters aanpast om het model te verbeteren niet door meer dan twee la-gen kon penetreren: alle aanpassingen werden minuscuul klein. Maar rond kwam Geoffrey Hinton met nieuwe ideeën om netwerken met vele lagente kunnen trainen (Hinton, Osindero, & Teh, ) (zie figuur ). Voordathij het neurale netwerk met backpropagation trainde stapelde hij eerst eenaantal netwerken met twee lagen boven op elkaar. Hij trainde die lagen losvan elkaar waarbij de output van één laag de input van de laag erbovenvormde. Bovendien gebruikte hij in deze fase nog niet het backpropagationalgoritme maar een algoritme dat gebruik kan maken van ongelabelde data(bijvoorbeeld een foto van een stoel zonder dat erbij wordt verteld dat heteen stoel betreft) dat in veel grotere hoeveelheden voorhanden is. Een anderebelangrijke ontwikkeling is dat onderzoekers gebruik gingen maken vanGPUs (graphics cards) die oorspronkelijk waren ontwikkeld voor game-com-puters, en zo veel meer computerkracht tot hun beschikking hadden. Deeerste groeiwet (van Moore) schoot dus te hulp om de neurale netwerkenweer nieuw leven in te blazen.

Figuur

Bron: Google

MMAAXX WWEELLLL IINNGG

Page 23: Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie Welling HR FINAL.pdfne learning methoden te implementeren in het bedrijfsleven. Onze

Het probleem van de lokale minima werd niet opgelost en het is nog steedsheel moeilijk om performance garanties af te leiden, maar de nieuwe techno-logie bleek zo goed te werken dat “diepe neurale netwerken” vele competitiesbegonnen te winnen. Na jaren van marginale verbeteringen (een paar procentper jaar) in automatische spraakherkenning waren het de diepe neurale net-werken die ineens voor % verbetering zorgden. Maar de successen gingenverder dan alleen spraakherkenning. Deep learning is ook het beste algoritmegebleken in beeldherkenning (welke objecten zijn aanwezig in deze foto?) enprotein prediction (welke eigenschappen heeft een eiwit?).

Deze wapenfeiten hebben ervoor gezorgd dat bedrijven zoals Microsoft,Google, Apple, Yahoo! en IBM zich op deze technologie hebben gestort. DeChinese tegenhanger van Google, Baidu, heeft recentelijk zelfs een heel insti-tuut opgericht in Silicon Valley dat zich louter met deep learning bezighoudt.En zeer recentelijk, in December tijdens een machine learning conferen-tie (NIPS) die ik mede heb georganiseerd, kondigde Mark Zuckerberg vanFacebook aan dat hij de “deep learning guru” Yann LeCun had ingehuurdom zijn nieuwe AI-lab te gaan leiden.

Deep learning is misschien wel het mooiste voorbeeld van een methodewaar de drie groeiwetten samenwerken. De huidige modellen hebben tiental-len miljarden vrije parameters en worden op miljoenen Youtube videoclipsgetraind, gebruik makende van duizenden computers. Zoals ik al eerder hebuitgelegd lijken dat veel te veel parameters voor de hoeveelheid nuttige infor-matie die we verwachten te vinden in de data. Maar de trainingsalgoritmenworden moedwillig gefrustreerd in het leren van de parameterwaarden viaregularisatie om op die manier de capaciteit van het model te beperken enoverfitten te voorkomen. Op dit moment representeren de diepe neurale net-werken de absolute state-of-the-art in mijn vakgebied.

Citizen science

Machine learning is niet alleen iets voor de experts. Er is een toenemendetrend te ontwaren waarin “de gewone burger” participeert in de activiteitenvan het vak, bewust of onbewust. In dit hoofdstuk zal ik daar wat meer oververtellen.

In beschreef Luis von Ahn (Von Ahn & Dabbish, ) dat in dat jaar“gamers” over de hele wereld negen miljard uur het spelletje Solitaire haddengespeeld. Ter vergelijking: het bouwen van de Empire State Building kostte miljoen manuren (. uur Solitaire online), en het bouwen van het Panamakanaal miljoen manuren (minder dan een dag Solitaire online). Wat een

VVAANN VVEEEELL DDAATTAA,, SSNNEELLLLEE CCOOMMPPUUTTEERRSS EENN CCOOMMPPLLEEXXEE MMOODDEELLLLEENN

Page 24: Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie Welling HR FINAL.pdfne learning methoden te implementeren in het bedrijfsleven. Onze

verkwisting!? Von Ahn bedacht dat we de wetenschap een enorme dienstzouden kunnen bewijzen als we ook maar een klein deel van die inspanningzouden kunnen kanaliseren. En dus bedacht hij een “label game” om de ob-jecten in foto’s te identificeren. Eén van de eerste label games was ESP waartwee anoniemen participanten hetzelfde plaatje voorgeschoteld kregen en al-lebei objecten die in dat plaatje aanwezig waren moesten benoemen. (Er wasook een blacklist van objecten die al door eerdere deelnemers warenbenoemd). Als ze hetzelfde object gelijktijdig benoemden kregen ze punten.Het vernuft van dit spelletjes was dat de deelnemers vaker hetzelfde objectbenoemden dan ze zelf verwachtten en dus dachten dat ze een soort buiten-zintuigelijke band met elkaar hadden! In de tussentijd waren ze natuurlijk ge-woon bezig (gratis) de objecten van een foto te benoemen en zo de weten-schap een dienst te bewijzen. Een ander creatief voorbeeld in deze sfeerontwikkeld door dezelfde persoon zijn “reCaptcha’s” waar je een stukje tekstmoet intikken voordat je een website op mag. Ook hier digitaliseer je eenstukje gescande tekst zonder dat je er erg in hebt.

Het idee om mensen op heel grote schaal in te zetten voor maar een heelklein beetje financiële compensatie heeft ook zijn intrede gedaan in de ge-daante van “crowdsourced marketplaces”, een andere vorm van citizenscience. Het bekendste voorbeeld is Amazon’s “Mechanical Turk”. Als je eensimpele maar tijdrovende taak hebt dan kan je deze online als een vragenlijstpresenteren aan enorme hoeveelheden “Turkers” in de hele wereld. Het ant-woord op elke vraag is een paar cent waard, maar voor sommigen in minderwelvarende landen kan dat toch oplopen tot een aardige zakcent. Het gaat ookvrijwel altijd om taken waar mensen heel goed in zijn maar computers (nog)niet. In zekere zin gebruiken computers dus de denkkracht van het menselijkbrein om zelf slimmer te worden. Interessant genoeg zien we dus een soortomdraaiing van de rollen van mens en computer: in plaats van mensen die derekenkracht van computers gebruiken, gebruiken computers hier de denk-kracht van menselijke breinen… Computers en mensen raken steeds meervervlochten met elkaar. Ze vullen elkaar aan in de taken waarin ze goed zijn:mensen met hun intuïtie, creativiteit en begrip van de wereld, computers methun extreme rekensnelheid.

Crowdsourcing heeft zich ook op een ander niveau gemanifesteerd. ToenNetflix zijn eerste competitie uitschreef (zie hoofdstuk ) bedacht de web-service “Kaggle” dat dit wel eens een goed model zou kunnen zijn om dedata-science problemen die bij bedrijven spelen via online competities aan tepakken. Tegen soms enorme geldbedragen (oplopend tot wel miljoen dol-lar!) proberen duizenden teams de beste voorspellingen te realiseren. Dit ideebleek succesvol: vele honderden competities zijn ondertussen tot een goed

MMAAXX WWEELLLL IINNGG

Page 25: Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie Welling HR FINAL.pdfne learning methoden te implementeren in het bedrijfsleven. Onze

einde gebracht. Niet alleen “experts” in gevestigde instituten kunnen deelne-men, ook de enthousiasteling in een schuur in ergens in Siberië kan zo’ncompetitie winnen.

Maar citizen science zal veel verder gaan dan de voorbeelden die ik hier-boven heb beschreven. Big data vormt de nieuwe economische pijler waaraaneenieder met energie en talent kan meedoen. Steden zoals Chicago en NewYork evenals de Amerikaanse overheid zetten een groot deel van hun dataonline in de hoop dat anderen hier toepassingen omheen zullen bouwen. Eenbedrijf als Ford wil bijvoorbeeld sensordata uit auto’s online zetten om zoenthousiastelingen uit te dagen nieuwe toepassingen te ontwikkelen die ophun beurt Ford’s auto’s weer aantrekkelijker maken.

Deze ontwikkelingen vormen een unieke kans voor wetenschappers om uithun ivoren torens te klimmen en de interactie aan te gaan met burger enbedrijf. Door het ontwikkelen en vrij beschikbaar stellen van gebruikersvrien-delijke en nuttige software kan de brug tussen wetenschapper en burger mis-schien wel beter dan ooit tevoren worden geslagen. Een recente revolutie inhet onderwijs vormt misschien nog wel de belangrijkste pijler onder dezebrug en sluit naadloos aan bij de ontwikkelingen die ik in dit hoofdstuk hebbeschreven. De MOOC, ofwel “massive open online course” staat voor gratisonderwijs voor de massa’s. Hierover meer in het volgende hoofdstuk.

Onderwijs

In schreef het McKinsey Global Institute het volgende in haar rapport“Big data: The next frontier for innovation competition, and productivity”(Manyika, et al., ):

A significant constraint on realizing value from big data will be a shortageof talent, particularly of people with deep expertise in statistics and machi-ne learning.

In kopte de Harvard Business Review met de volgende titel (Davenport& Patil, ): Data Scientist: The Sexiest Job of the st Century. De conclusiemag duidelijk zijn: we gaan een toename zien in het aantal banen en hopelijkhet aantal studenten in dit vakgebied. Universiteiten staan voor de belangrijketaak om genoeg data-wetenschappers op te leiden en zo het gat te dichten datdreigt te ontstaan tussen vraag een aanbod op deze arbeidsmarkt. Ik denk datde UvA uniek is gepositioneerd om hier een vooraanstaande rol te spelen.Ten eerste zal de eventuele fusie tussen UvA en VU nieuwe mogelijkheden

VVAANN VVEEEELL DDAATTAA,, SSNNEELLLLEE CCOOMMPPUUTTEERRSS EENN CCOOMMPPLLEEXXEE MMOODDEELLLLEENN

Page 26: Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie Welling HR FINAL.pdfne learning methoden te implementeren in het bedrijfsleven. Onze

scheppen op het gebied van onderwijs en onderzoek. Ik hoop dat in de dis-cussie over het onderwijs aan de nieuwe “Amsterdam Faculty of Science” hetvak data science een belangrijke rol krijgt toebedeeld. We doen onszelf tekortals we deze kans niet aangrijpen om “data science central” van Nederland teworden. Het gloednieuwe “Data Science Research Center”, dat een gezamen-lijk initiatief van de UvA en VU is kan hier een belangrijke rol in gaan ver-vullen.

Maar we moeten verder kijken dan de studenten die zich aanmelden bij depoorten van de universiteit. We moeten ook de enthousiaste burger en be-drijfsvoerder bedienen en hen zo betrekken bij de mogelijkheden die de bigdata revolutie te bieden heeft. Ik zie dan ook een heel belangrijke rol wegge-legd voor MOOCs om dit doel te bereiken. Een MOOC (“massive open on-line course”) is een cursus die gratis online wordt aangeboden en die somsdoor wel , studenten tegelijk wordt gevolgd. Studenten helpen elkaarvia online chatrooms met opgaven, hun examens worden automatisch nage-keken en de aandachtspunten kunnen voor iedere student individueel wordengeïdentificeerd via zogenaamde “recommender systemen” (zie hoofdstuk ).Ook het onderwijs wordt zo data science. Het is dan ook niet voor niets dat detwee grootste MOOC instituten (Udacity en Coursera) spin-offs zijn van ma-chine learning medewerkers op Stanford University.

Wat de uiteindelijke impact van MOOCs zal zijn moet nog blijken, maardeze ontwikkeling dwingt ons ook om onze eigen rol als docenten nog eensflink onder de loep te nemen. Worden wij dadelijk ook door onze eigenMOOCs verdrongen, net zoals Wikipedia in het verleden de klassieke ency-clopedie grotendeels verving? Wat wordt de rol van de docent, de expert en

MMAAXX WWEELLLL IINNGG

Page 27: Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie Welling HR FINAL.pdfne learning methoden te implementeren in het bedrijfsleven. Onze

het kennis instituut? Allemaal dringende vragen die ons de komende tijd on-vermijdelijk gaan bezighouden.

Machine learning, een gouden toekomst

Ik heb dit moment aangegrepen om mijn vakgebied beter voor het voetlichtbrengen. Gevoed door exponentiële groei van rekenkracht en data is de com-plexiteit van modellen zelf ook explosief gegroeid. Zozeer zelfs dat de overca-paciteit van hedendaagse modellen, ondanks de enorme datasets, alleen maarlijkt toe te nemen. Deze paradox levert interessante inzichten op, namelijk dateen combinatie van complexe modellen en regularisatie in de context van bigdata heel succesvol blijkt in de praktijk. Tegen deze achtergrond doe ik mijnonderzoek dat zich richt op het ontwikkelen van complexe, statistisch goedgefundeerde modellen en de bijbehorende big data leeralgoritmen.

Figuur

Machine learning is de laatste jaren heel snel in populariteit gegroeid. Figuur laat zien dat het aantal bezoekers van de grootste machine learning confe-

VVAANN VVEEEELL DDAATTAA,, SSNNEELLLLEE CCOOMMPPUUTTEERRSS EENN CCOOMMPPLLEEXXEE MMOODDEELLLLEENN

Page 28: Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie Welling HR FINAL.pdfne learning methoden te implementeren in het bedrijfsleven. Onze

rentie, NIPS, ook aan een exponentiële groeiwet onderhevig is! Ik vermoeddat de onderliggende oorzaak gezocht moet worden in het feit dat we steedsvaker toepassingen van de kunstmatige intelligentie zien in het dagelijkse le-ven. Apple’s Siri op onze iPhone begrijpt wat we zeggen, Amazon begrijpt watvoor boeken we willen lezen, navigatie systemen leiden ons feilloos naar onzebestemming enzovoort. Over nog veel geavanceerdere technologie kan men allezen op het internet: Star Trek’s “universal translator” wordt werkelijkheid ineen nieuw systeem van Microsoft dat gesproken zinnen kan begrijpen, verta-len en dan weer in een andere taal uitspreken; IBM’s Watson verslaat de bestemenselijke tegenstander in het spel “Jeopardy” waar taal op een heel hoogniveau begrepen moet worden, zelfsturende auto’s rijden al rond in Californiëen Nevada enzovoort. Deze zichtbare vooruitgang inspireert een grote groepjong talent met een rijke fantasie voor wat er allemaal nog meer mogelijk is.

Een van die talenten is ontegenzeggelijk de CEO van Facebook, MarkZuckerberg. Tijdens zijn bezoek aan de grootste conferentie in machine lear-ning (NIPS) droeg hij zijn visie uit over het ontwikkelen van een persoonlijke“theory of mind” voor elke Facebookgebruiker. Gezien de enorme hoeveel-heden data en rekenkracht die Facebook tot zijn beschikking heeft, is dit opde lange termijn misschien niet eens zo’n heel onrealistische idee. Maar willenwe dit wel? Dankzij Edward Snowden weten we nu dat dit soort informatiegemakkelijk in handen van overheden kan vallen. Naast grote beloften zijn erdus ook grote gevaren. Hoe kunnen wij onze privacy waarborgen in een tijddat computermodellen onze innerlijke drijfveren misschien wel beter door-gronden dan wijzelf? Hoe kunnen wij voorkomen dat een zeer gedetailleerdeprognose van onze gezondheid onze verzekeringspolis gaat beïnvloeden? Hoekunnen we voorkomen dat we preventief worden gearresteerd als we een ge-netische aanleg voor terroristische activiteiten blijken te hebben?

Dit zijn aspecten van machine learning en big data waar we de komendetijd ons hoofd over moeten breken. We moeten een balans vinden tussen watkan en wat wenselijk is. Ik heb er een groot vertrouwen in dat dat lukt. Ikvoorzie een gouden toekomst voor mijn vakgebied.

Dankwoord

Voordat ik mijn verhaal afsluit wil ik graag een aantal mensen bedanken.Allereerst wil ik het College van Bestuur van de Universiteit van Amster-

dam, en het bestuur van de Faculteit der Natuurwetenschappen, Wiskunde enInformatica en in het bijzonder de decaan van de faculteit bedanken voor hetin mij gestelde vertrouwen.

MMAAXX WWEELLLL IINNGG

Page 29: Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie Welling HR FINAL.pdfne learning methoden te implementeren in het bedrijfsleven. Onze

Verder wil ik het Instituut voor Informatica en in het bijzonder de direc-teur Jan Bergstra bedanken voor het creëren van deze leerstoel.

Daarnaast wil ik de leden van mijn groep “Intelligent Autonomous Sys-tems” (IAS), en met name de secretaresse Petra Best bedanken voor de warmeontvangst bij mijn aantrede. De organisatie en structuur van deze groep is watveranderd het afgelopen jaar en dat vergde enige aanpassing van iedereen.Hartelijk dank voor jullie geduld in deze.

In het bijzonder wil ik mijn huidige AIO’s Durk en Taco en mijn postdocTed bedanken voor de vele interessante discussies. Ik was heel druk het afge-lopen jaar, maar ik hoop dat er meer tijd komt voor onderzoek in het ko-mende jaar. Ik wil hierbij ook mijn AIOs in Amerika niet vergeten: Ian, Yu-tian, Anoop, Sungjin, Levi en Andrew: thanks for many wonderful andexciting years together.

Ik ben diep geroerd door het feit dat mijn beide ouders van respectievelijk en jaar oud hier vandaag aanwezig zijn. Pa en ma, jullie hebben voor mijeen stabiele en warme omgeving weten te creëren waarin mijn wetenschappe-lijke ambities goed konden gedijen. Hiervoor mijn welgemeende dank.

En dan mijn lieve gezin, Marga, Eline en Sera. Het is elke dag weer een feestom te mogen thuiskomen in de warmte van jullie aanwezigheid. De verhui-zing naar Nederland vanuit Amerika was geen sinecure, maar ik denk dat weer samen iets heel moois van gaan maken.

Ook aan mijn broer Hans heb ik veel te danken. Onze lange gesprekkenover alles wat ons bezig houdt, inclusief de details van mijn onderzoek, heb ikaltijd gekoesterd.

Verder ben ik dank verschuldigd aan de medeoprichters van mijn startupScyfer: Jörgen, Taco en Tijmen. We gaan er een prachtig bedrijf van maken.

Dan wil ik mijn jeugdvriend Robert nog noemen. We kennen elkaar ruim jaar en nog steeds lachen we heel wat af. Ook mijn trouwe vriend Michelen de leden van de “Visclub” wil ik graag bedanken voor hun vriendschap.

Ik bedank de volgende mensen voor hun nuttige feedback met betrekkingtot deze oratie: mijn vader, mijn moeder, Jörgen, Noud, en vooral Anja, dieondanks haar ziekbed de moeite heeft genomen deze tekst van commentaar tevoorzien. Ten slotte dank ik al mijn vrienden en familie voor hun steun.

Ik heb gezegd.

VVAANN VVEEEELL DDAATTAA,, SSNNEELLLLEE CCOOMMPPUUTTEERRSS EENN CCOOMMPPLLEEXXEE MMOODDEELLLLEENN

Page 30: Van veel data, snelle computers en complexe modellen tot ...welling/publications/papers/weboratie Welling HR FINAL.pdfne learning methoden te implementeren in het bedrijfsleven. Onze

Works cited

Breiman, L. (). Bagging Predictors. Machine Learning, (), -.Davenport, T., & Patil, D. (). Data Scientist: The Sexiest Job of the st Century.

Harvard Business Review, pp. -.Hinton, G.E., Osindero, S., & Teh, Y.W. (). A fast learning algorithm for deep

belief nets. Neural Computation, (), -.LeCun, Y. (). Connectionist Learning Models. Universitè de P. et M. Curie.Manyika, J., Chui, M., Bughin, J., Brown, B., Dobbs, R., Roxburgh, C., et al. (). Big

Data: The next frontier for innovation, competition, and productivity. McKinseyGlobal Institute.

McCulloch, W., & Pitts, W. (). A logical calculus of the ideas immanent in nervousactivity. Bulletin of Mathematical Biophysics, , -.

Minsky, M., & Papert, S. (). Perceptrons: An Introduction to Computational Geo-metry. Cambridge, MA: MIT Press.

Moore, G.E. (). Cramming more components onto integrated circuits. Electronics,-.

Rumelhart, D.E., Hinton, G.E., & Williams, R.J. (). Learning representations byback-propagating errors. Nature, , -.

Shannon, G.E. (). A Mathematical Theory of Communication. Bell System Techni-cal Journal, , -, -.

Von Ahn, L., & Dabbish, L. (). Labeling images with a computer game. Procee-dings of the conference on Human factors in computing systems, (pp. -).

Werbos, P.J. (). New Tools for Prediction and Analysis in the Behavioral Sciences.Harvard University.

MMAAXX WWEELLLL IINNGG