IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til...

57
IN1140: Introduksjon til språkteknologi Forelesning #3 Lilja Øvrelid Universitetet i Oslo 06 september 2018

Transcript of IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til...

Page 1: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

INF1140: Introduksjon til språkteknologi

IN1140: Introduksjon til språkteknologi

Forelesning #3

Lilja Øvrelid

Universitetet i Oslo

06 september 2018

Page 2: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Tema for i dag

I Språklige dataI Språk og hjerneI Korpusdata

I Ord:I MorfologiI MorfemetI Orddannelse

2

Page 3: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Tema for i dag

I Språklige dataI Språk og hjerneI Korpusdata

I Ord:I MorfologiI MorfemetI Orddannelse

2

Page 4: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Språklige data

3

Page 5: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Språkteknologiske metoder

I 2000-tallet →: empirisk revolusjonI Maskinlæring

I Datamaskiner kan lære fra data: fange opp mønstre og generalisere tilnye eksempler

4

Page 6: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Språklige data

I Språkteknologi i 2017 er en data-drevet disiplin.I Trenger språklige data

I IntrospeksjonI Faktisk språkbruk – korpusdata

I Språkteknologi: programmer som generaliserer over språklige mønstreI Korpusdata helt sentralt

I Menneskelig språkprossessering: hvordan modelleres språk i hjernen?

5

Page 7: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Språk og hjerne

I Neurolingvistikk – lingvistisk fagområde som studerer de mekanismer iden menneskelige hjerne som kontrollerer språk (-forståelse, -produksjonog - tilegnelse)

I Prøver å lokalisere språk i hjernen, for å kunne forsto hvordan språketblir prosessert og hvordan det er organisert.

6

Page 8: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Hvor er språk lokalisert?

I Data fra atypisk språkI Afasi

I språkvansker etter hjerneskadeI forskjellige typer avhengig av hvor skaden har oppstått

7

Page 9: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Hvor er språk lokalisert?

Brocas afasiUgrammatisk språk, problemer med forståelse av syntaktisk kompleksekonstruksjonerI Yes... ah... Monday... er... Dad and Peter H... (his own name), andDad.... er... hospital... and ah... Wednesday... Wednesday, nineo’clock... and oh... Thursday... ten o’clock, ah doctors... two... an’doctors... and er... teeth... yah

8

Page 10: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Hvor er språk lokalisert?

Wernickes afasiSemantisk usammenhengende, men stort sett syntaktisk korrektI I felt worse because I can no longer keep in mind from the mind of theminds to keep me from mind and up to the ear which can be to findamong ourselves.

9

Page 11: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Måling av aktivitet i hjernen

I Antagelse: syntaks (grammatisk struktur) og semantikk (betydning) erplassert på forskjellige steder i hjernen.

I Moderne teknologi (MRI, CT, ERP) kan gi et enda mer nøyaktig bildeI Forandringer i hjerneaktivitet

10

Page 12: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

KorpusdataI Et korpus (tekstkorpus) er en strukturert samling teksterI Elektronisk lagretI Kan brukes til:

I Empiriske data for lingvistiske studier (motsetning til introspeksjon)I Treningsmateriale for språkteknologisk maskinlæring

11

Page 13: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Korpusdata

I Korpus laget for å representere et visst språk eller språklig variantI Språklige data – to muligheter:

1. Arkivere alle setninger i et språk: UMULIG2. Plukke ut et mindre utvalg (“sample”) av språket: MULIG

I 2 er mulig men ikke trivieltI Et korpus bør konstrueres slik at det er representativt

12

Page 14: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Et tenkt korpus for norsk

I Vi må inkludere forskjellige typer tekster:I Skrift og tale? [registere]I Fra forskjellige deler av landet? Et utvalg av dialekter? [regionaledialekter]

I Kun fra 2000-tallet? Hva med 1990? Eller 1950? [tidsperioder]I Språk produsert av både menn og kvinner? Alle aldersgrupper, inkludertbarn? Hva med utdanningsnivå? Sosial status? [demografi]

I Skal vi inkludere nyhetsstoff? Hva med kronikker, romaner og e-post?Tegneserier og tekstmeldinger? [sjanger]

13

Page 15: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Eksisterende korpuser

I (Forsøk på) representative korpuser for engelskI British National Corpus (BNC), 100M ord (register, domene, forskjelligetidsperioder, sjanger, demografi osv)

I American National Corpus, under utviklingI Store korpuser:

I Gigaword (∼1.7 milliarder ord, nyhetstekster)I Common crawl (3 milliarder websider)

14

Page 16: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Eksisterende korpuser

I Korpuser for andre språk enn engelskI Arabisk GigawordI Chinese newsI Norsk Aviskorpus

I norske nyheter 1998-2014I ca. 1.5 millarder ord

I NoWaC (“Norwegian Web as Corpus”)I web-dokumenter fra .no-domenerI ca 700 millioner tokens

I NoTa-korpusetI transkripsjoner av samtaler og intervju fra informanter født og oppvokst i

Oslo-områdetI transkribert tekst og taleI søk her: http://www.tekstlab.uio.no/nota/oslo

15

Page 17: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Eksisterende korpuser

I Parallelle korpuser: oversatte teksterI EUROPARL: EU-parlamentetI OPUS: undertekster fra TV

16

Page 18: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Annotering

I Korpuser inneholder forskjellige typer informasjon og har gjennomgåttforskjellige former for (automatisk/manuell) annotering

I Delt opp i enheter som tilsvarer et ord, tokens: ord, tall, tegnsetting →tokenisering

I Stemming eller lemmatisering: reduksjon til baseform

17

Page 19: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

AnnoteringI Korpuser med manuell annotering

I Mennesker merker opp lingvistisk informasjonI Ordklasse (feks Brown)

I The/at Fulton/np County/np Grand/jj Jury/nn said/vbd Friday/nr an/atinvestigation/nn . . .

I Syntaks (trebanker, feks Penn Treebank)

I Ordsemantikk, sentiment, etc.18

Page 20: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Manuelt annotert korpus for maskinlæring

OrdbetydningSKIM the pages for a clearer insight: ReadingShe SKIMS through the novel which seems to fascinate them: ReadingRemove the vanilla pod, SKIM the jam, and let it cool: RemovingWe SKIMMED across the surface of that sodding lake whilst all around usgathered the dark hosts of hell: Self_motion

Trene en klassifiserer:I Tren på Reading, Removing og Self_motion instanserI Appliser på ny instans: hvilken klasse ligner den mest på?I A red grouse SKIMMED low over the heather: ???

19

Page 21: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Oppsummering: språklige data

I Menneskelig språkprosesseringI afasi-studierI måling av hjerneaktivitet

I KorpusdataI representativitetI størrelseI annoteringI omfattende bruk i språkteknologiske modeller

20

Page 22: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Morfologi

21

Page 23: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Morfologi

I Hvordan ord er bygd oppI Hvordan ord bøyesI Hvordan ord dannesI Hvordan ord deles i ordklasser

22

Page 24: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Ordet

I Relativ grei betydning i dagligtaleI I språkteknologi kan det derimot brukes på flere forskjellige måter

Kari gikk på tur i skogen . Hun elsker turer i skog .

I 13 ord (tokens)I men også 11 ord (typer)I eller 9 ord (leksem = leksikon oppslag)

23

Page 25: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Tokenisering

I Dele opp en tekst i løpende ordI Første skritt i nesten alle språkteknologiske oppgaverI Definisjon:a string of contiguous alphanumeric characters with space on eitherside; may include hyphens and apostrophes, but no other punctutationmarks(Kucera & Francis, 1967)

24

Page 26: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Tokenisering: problemer

I PunktumI del av forkortelser: f.eks.I både forkortelse og setningsslutt (Kjøper gamle møbler, bøker, klær, etc.)

I ApostrofI ’the children’ vs. the children’s toysI I’ll, isn’t, don’t

25

Page 27: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Tokenisering: problemer

I BindestrekI Ett eller flere ord?I Oslo-borgerenI skrive- og leseopplæring

I MellomromI Egennavn: New YorkI Faste fraser: i fjor, blant annetI Tall: 100 000

I Annet:I 10,26 og 10:26I URL’er

26

Page 28: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Ordet

I Kunnskap om ord viktig del av det å beherske et språkI Kobling mellom en lydsekvens og en spesifikk betydningI Vilkårlig kobling:

I samme lyd - forskjellig betydning (to, two)I forskjellig lyd - samme betydning (sofa, couch)

27

Page 29: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Ordet

I Viktig skille i språk:I Innholdsord: substantiver, verb og adjektiv

I Betegner konsepter som objekter, handlinger, egenskaper og ideerI barn, skrive, spennende, anarkismeI Åpen klasse: stadig nye ord, feks hverdagsintegrering, ståhjuling

I Funksjonsord: konjunksjoner, preposisjoner, artikler og pronomenI Betegner grammatiske relasjoner, lite semantisk innholdI den – bestemthet, til – eierskapI Lukket klasse: ikke ofte nye tilskudd, (hen?)

28

Page 30: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Ordet

I GJETTEKONKURRANSE

29

Page 31: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Ordet

I Hvilken skal ut?I gulestI gulI gulereI rød

30

Page 32: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Ordet

I Hvilken skal ut?I gulestI gulI gulereI rød bøyningsformer av gul

31

Page 33: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Ordet

I Hvilken skal ut?I pengerI grammatikkI rødI ere

32

Page 34: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Ordet

I Hvilken skal ut?I pengerI grammatikkI rødI ere det er et suffiks

33

Page 35: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Ordet

I Hvilken skal ut?I ingI hetI elseI an

34

Page 36: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Ordet

I Hvilken skal ut?I ingI hetI elseI an det er et prefiks, de andre er suffikser

35

Page 37: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Morfemet

I Ord har intern struktur som er regelstyrtI U-mulig, u-rolig, u-intelligentI hva betyr u-?I *mulig-u, *rolig-u

I Ord kan bestå av flere meningsbærende enheterI Morfemet – elementær enhet (gr. ’morphe’ – form)I Morf+ologi – vitenskapen om (ord)former

36

Page 38: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Morfemet

Et ord kan bestå av ett eller flere morfemer:I ett morfem: boy, desire, morphI to morfemer: boy+ish, desire+able, morph+ologyI tre morfemer: boy+ish+ness, desire+able+ityI fire morfemer: gentle+man+li+ness, un+desire+able+ityI mer enn fire morfemer: un+gentle+man+li+ness,anti+dis+establish+ment+ari+an+ism

37

Page 39: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Morfemet

I Morfemet er den elementære (minste) lingvistiske enhetenI Kan ikke analyseres videreI Språk består i hovedsak av diskrete enheter som kan kombineres(kreativitet)

I et bloggbart tema

38

Page 40: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Morfemet

I Vår morfologiske kunnskap har to hovedkomponenterI Frie morfemer: ord. boy, desire, gentle, manI Bundne morfemer: affikser.

I prefikser: un-, pre-, bi-I suffikser: -ing, -ish, -ness

I Språk benytter affikser i varierende gradI Noen språk har infikser

I Bontov (Filippinene): fikas ’sterk’, fumikas ’å være sterk’I un-fuckin-believable

I Noen språk har sirkumfikser (affiks som har to deler, en som settes ibegynnelsen av ordet, og en som settes på slutten)

I Tysk: ge+lieb+t ’har elsket’

39

Page 41: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Morfemet

I Morfologisk komplekse ord består av :I Rot + en eller flere affikser (hus+lig)I En rot er et ordelement som ikke kan deles opp i mindre(meningsbærende) deler

40

Page 42: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Orddannelse

I Kunnskap om morfologi innebærer kunnskap om regler for orddannelseI Kombinerer morfemer til komplekse ord (kjærlig+het,(jern+bane)+(arbeid+er))

I Adj + -het → SubstantivI Verb + -er → Substantiv (en som gjør Verb)

41

Page 43: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Avledning

I En avledning er et ord som er dannet fra et annet ord ved hjelp av etavledningsaffiks (prefiks eller suffiks),

I Avledningsbasen kan være et rotord (barn) eller en avledning (barnslig)I Avledningsaffiksene er bundne morfemer med klart semantisk innhold(som innholdsord, men er ikke ord)

AvledningsaffikserI u-- negasjon: umulig, uvel, uroligI for- - foran: forelese, forbokstav, formannI -er - den som utfører handlingen: fisker, baker

42

Page 44: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Avledning

I Avledningsaffikser bidrar med betydningI Når et suffiks blir lagt til endres som regel ordklassenI Det er siste del av ordet som bestemmer ordklasse, derfor endrer ikkeprefikser ordklassen (villig - uvillig, arbeide - bearbeide)

SuffikserI -er: Verb → Substantiv, f.eks. fisker, bakerI -ing: Verb → Substantiv, f.eks. bading, baking, banningI -lig: Substantiv → Adjektiv, f.eks. alvorlig, hyggelig, latterlig, vanligI -n: Adjektiv → Verb, f.eks. gulne, lysne, stivne

43

Page 45: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Bøyning

Bøyningsmorfemer markerer kategorier som tempus, numerus, kasus, etc.

Bøyningskategorier i norskI Genus (kjønn): alle substantiver har fast genus og ord som står tilsubstantivet samsvarsbøyes (en snill katt, et snilt beltedyr)

I Tall: entall og flertall bil-bilerI Bestemthet: uttrykkes i hovedsak ved suffiks (bilen, huset) eller (jf.engelsk bestemt artikkel the)

I Kasus: uttrykker den funksjonen en frase har som setningsledd. Tokasus i norsk: nominativ og akkusativ (skille subjektet fra objektet isetningen). I hovedsak på pronomen hun-henne

I . . .

44

Page 46: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Bøyning

I norsk har vi følgende bøyningskategorier (forts.):I Grad: tre grader uttrykkes ved bøyning, positiv, komparativ, superlativ(fin-finere-finest)

I Tempus: angir tidspunktet for handlingen eller tilstanden somsetningen beskriver. I norsk uttrykkes to tempus ved bøyning: presens(nåtid) og preteritum (fortid) spiser-spiste

45

Page 47: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Bøyning vs. avledning

I Forskjeller på bøyning og avledning:1. Ved bøyning skifter ordet aldri ordklasse, ved avledning skifter ordet som

oftest ordklasseI barn - barnetI barn - barnslig

2. Alle prefikser er avledningsaffikser, suffikser derimot kan brukes både tilbøyning og avledning

3. Bøyning er mer produktiv

46

Page 48: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Bøyning vs. avledning

I Forskjeller på bøyning og avledning (forts.):4. Bøyningssuffikser i norsk har alltid svakt trykk (bilen, spiste), mens

avledningssuffikser kan ha sterkt trykk (sentral) eller bitrykk tenkbar5. Bøyningsendelser ligger alltid i slutten av ordet, men avledningsendelsene

kommer tidligere (når vi har begge deler) galskapen

47

Page 49: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Sammensetninger

I En tredje form for orddannelse, svært vanlig i germanske språk, her:norsk

I Ord som består av deler som hver for seg også er egne ordI To ledd:

Forledd Etterleddhus- taketter- prøvefram- på

I Etterleddet bestemmer vanligvis ordklasse

48

Page 50: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Sammensetninger

I De fleste sammensetninger er determinative: etterleddet girhovedbetydning, mens forleddet avgrenser. bilhjul, hjulbåt

Flere forskjellige relasjoner:I tømmerhytte – hytte av tømmer (materiale)I feriehytte – hytte for ferie (hensikt)I fjellhytte – hytte på fjellet (sted)I sommerhytte – hytte for sommerbruk (tid for bruk)I selvbetjeningshytte – hytte med selvbetjening (måten man brukerhytten på)

49

Page 51: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Morfologisk typologi

I Typologi: delområde av lingvistikkI Klassifiserer språk i henhold til ulike egenskaperI I morfologisk typologi brukes to skalaer:

I graden av syntese (antall morfemer i hvert ord)I graden av fusjon (antall betydninger av hvert morfem)

50

Page 52: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Isolerende språk

Syntese: ett ord = ett morfem

51

Page 53: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Polysyntetiske språkSyntese: høy morfem-til-ord fordeling

52

Page 54: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Agglutinerende språk

Fusjon: ett morfem = én betydning

53

Page 55: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Bøyningsspråk

Fusjon: ett morfem kan ha flere betydninger

54

Page 56: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Oppsummering morfologi

I Handler om ord:I hvordan ord er bygd opp (morfemer)I hvordan nye ord dannes (avledning, sammensetning)I hvordan ord bøyes

I Skiller mellom frie og bundne morfemer (affikser)I Morfologisk komplekse ord består av

I Rot + en eller flere affikser (hus+lig)I Morfologi er noe som skiller verdens språk: syntese og fusjon

55

Page 57: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #3 LiljaØvrelid Universitetet

Oblig 1a

I Teoretisk: morfologiI Praktisk:

I Tekst i PythonI lese og skrive til filI telle forekomster i tekstI tekst som streng og liste

I Tokenisering av tekst (første forsøk)I Enkel tokeniseringI Feilanalyse

I Frist: 19/9 kl 23:59I Devilry

56