MA N C HMA L IST WE N IG E R ME HR • R E DUKT … · 532 0.571 0pMW 464 2011 296 0.784 pMW 267...

7
Visuelle Linguistik, Herrenhäuser Symposium, Hannover, 19.11.2014 Rainer Perkuhn, Cyril Belica, Marc Kupietz, Harald Lüngen (IDS Mannheim) "Visualisierung als aufmerksamleitendes Instrument bei der Analyse von sehr großen Korpora" MANCHMAL IST WENIGER MEHR • REDUKTION VON KOMPLEXITÄT • ABER AUCH: NICHT ZU VIEL SCHNICKSCHNACK VISUALISIERUNG VON WAS VON WEM FÜR WEN WOFÜR ! didaktisch vs. epistemisch motiviert ! Erkenntnisse / Meinungen von Linguisten für andere Linguisten oder interessierte Laien zwecks Wissenstransfer ! Ergebnisse strukturentdeckender Verfahren für Korpusentwickler vs. für Korpusnutzer zwecks Wissensgewinnung DISCLAIMER ! keine Experten für Visualisierung, keine Weiterentwicklungen ! nicht Experte für alle gezeigten Szenarien ! Versuch, Verbindungen zwischen Fragestellungen und Lösungen über Visualisierung aufzuzeigen

Transcript of MA N C HMA L IST WE N IG E R ME HR • R E DUKT … · 532 0.571 0pMW 464 2011 296 0.784 pMW 267...

Visuelle Linguistik, Herrenhäuser Symposium, Hannover, 19.11.2014

Rainer Perkuhn, Cyril Belica, Marc Kupietz, Harald Lüngen (IDS Mannheim)

"Visualisierung als aufmerksamleitendes Instrument bei der Analyse von sehr großen Korpora"

MANCHMAL IST WENIGER MEHR• REDUKTION VON KOMPLEXITÄT• ABER AUCH: NICHT ZU VIEL SCHNICKSCHNACK

VISUALISIERUNG VON WAS VON WEM FÜR WEN WOFÜR

! didaktisch vs. epistemisch motiviert

! Erkenntnisse / Meinungen von Linguisten für andere Linguisten oder interessierte Laien zwecks Wissenstransfer

! Ergebnisse strukturentdeckender Verfahren für Korpusentwickler vs. für Korpusnutzer zwecks Wissensgewinnung

DISCLAIMER

! keine Experten für Visualisierung, keine Weiterentwicklungen

! nicht Experte für alle gezeigten Szenarien

! Versuch, Verbindungen zwischen Fragestellungen und Lösungen über Visualisierung aufzuzeigen

KORPUSEIGENSCHAFTEN

GEOGRAPHISCHE VERTEILUNG DERDEREKO-ZEITUNGSQUELLEN

Millionen Wörter

250

500

750

1000

DEREKO-Bestand 2013

Neuakquisitionen

NMDS-ABBILDUNG DER ÄHNLICHKEITSMATRIX

DEREKO-Bestand 2013

Neuakquisitionen

EIGENSCHAFTEN VON SUCHERGEBNISSEN / TREFFERMENGEN

SUCHE „KOLLATERALSCHADEN“ERGEBNISÜBERBLICK – VISUALISIERUNG

16 Jahrgänge 29360.597 pMW3330

20131240.897 pMW142

20122210.741 pMW244

20114640.571 pMW532

20102670.784 pMW296

20092820.980 pMW343

20082340.697 pMW249

20072220.756 pMW245

20062200.842 pMW229

20051310.670 pMW143

2004940.595 pMW100

20031781.132 pMW197

2002940.673 pMW101

20011510.894 pMW167

2000620.377 pMW90

19991910.809 pMW251

199810.004 pMW1

JahrTexterel. Häuf.Treffer

Kollateralschaden

0

0,2

0,4

0,6

0,8

1

1,2

1998

1999

2000

2001

2002

2003

2004

2005

2006

2007

2008

2009

2010

2011

2012

2013

Jahr

pMW

ZEITVERLÄUFE VON NEULEXEM-KANDIDATENIST „SICKTER“ EIN NEULEXEM?

0

0,5

1

1,5

2

2,5

2004

2005

2006

2007

2008

2009

2010

2011

2012

2013

Sickter

BraunschweigerZeitungdie tageszeitung

Wikipedia.de 2011ArtikelWikipedia.de 2011Diskussionen

ZEITVERLAUFSGRAFIK„KONFLIKT“ - SIMPLIZIUM UND KOMPOSITA

1772

1895

1905

1919

1929

1936

1945

1953

1961

1968

1976

1984

1991

1998

2005

2012

0100200300400500600700800

9001000

pMW

Jahr

Zeitverlauf Konflikt

nur Kopfalle

VERÄNDERUNGEN IN DEN THEMENAUFFÄLLIGKEITEN BEI ERSTGLIEDERN DER KOMPOSITA

19921994

1996

19982000

2002

20042006

20082010

2012

0

2

4

6

8

10

12

14

16

pMW

Jahr

Zeitverlauf Konfliktformen

Gas-Atom-Nationalitäten-Nahost-Tarif-andere

EIGENSCHAFTEN VON KOOKKURRENZEN / KOOKKURRENZPROFILEN

VISUALISIERUNG VON KOOKKURRENZPROFILEN

HundHundHundHund

KOOKKURRENZPROFILEEXPLORATION / VERGLEICH

grinsengrinsengrinsengrinsen

lllläääächelnchelnchelncheln

GEMEINSAME KOOKKURRENZEN VON WEICHSEL-ÄHNLICHEN PROFILEN

östlich (7) Weser (7) Rhein (9)Hochwasser (7) Donau (8) südlich (7)

Spree (3) Nordsee (2) Nebenfluss (7) Ufer (10)Wasserstand (6) nördlich (9) Moldau (2)

Pegel (8) fließt (10) mündet (9)Wasser (10) Flüsse (8)

Mündung (8) Oberlauf (7) Pegelstand (4)

Nebenflüsse (4) Unterlauf (7) Stadt (10) Deiche (4)

Meter (4) Flüssen (7) Deich (1) gelegenen (7) Pegelstände (6) Ostsee (3) Neiße (2) Flutwelle (2) Gebiete (3)

Brücke (10)Kilometer (7) unteren (5)

Pfirsiche (9) Kirschen (9)Zwetschken (7) Pfirsich (9) Birnen (9)

Äpfel (10) Nektarinen (9) Erdbeeren (10)

Himbeeren (9) Pflaumen (9) Kilo (9) Karfiol (1) Ribisel (5) entkernen (4)

Kirsche (9) 40 (5) Äpfeln (10)35 (4) Birne (9) Zwetschke (7)

Süßkirschen (7) Sauerkirschen (9)Apfel (10) Topfen (1) 50 (5) 100 (5) 70 (1)

45 (3) waschen (8) Sorten (8) 38 (2) 60 (2) waren (2)

wurden (1) 48 (3) 12 (3) allem (3) sind (10)

Elbe, Neiße, Donau, Fluss, Fluß, Wolga, Neckar, Spree, Rhein, Euphrat

Marille, Himbeere, Birne, Zwetschge, Kirsche, Johannisbeere, Pfirsich, Pflaume, Aprikose, Brombeere

Wei

chse

l W

eich

sel

Wei

chse

l W

eich

sel "" ""

ää ää hnl

iche

Pro

file

hnlic

he P

rofil

e hn

liche

Pro

file

hnlic

he P

rofil

e ## ##

SOMZU WEICHSEL

© Cyril Belica: Modelling Semantic Proximity - Self-Organizing Map (version: 0.32, init tau: 0.04, dist: u, iter: 10000)

Weichsel

AprikoseApfelErdbeereWeintraubeRhabarberdagMeloneFeige

OderSchneeschmelzeHochwasseralarmHochwassermarkelängsHochwasserlageJahrhunderthochwasser

UnterlaufPegelstandWasserstandPegelOberrheinSchifffahrtSchiffahrtFließgeschwindigkeit

ElbeRheinNeckarMoselSaaleNebenflußNebenflussTheiss

BirneHimbeereMarillePflaumePfirsichKirscheZwetschgeJohannisbeere

SteigeObstgarten

HochwasserHochwassergebietDeichflutenSturmflutFlutwelleFlutRegenfall

OberlaufJangtseStauseeFahrrinneertrinkenSchiffsverkehrStaudammFlussbett

DonauschiffbarIsarWeserMississippiRhonemündenSalzach

zerstört Überschwemmungsgebietschwemmenüberschwemmtüberschwemmenüberflutenüberflutetschwappenspülen

FlussFlußflussabwärtsflußabwärtsMuldeUferBacheentlang

SpreeMekongMündungThemseZusammenflußZusammenflussdurchfließenFlüsschen

DanzigWarschauKrakauStettinWarschauerpolnischSchlesienPommern

RiesengebirgeStettinerTatraOstgrenze

NeißeMoldauLauenburgOderbruchLandesinnereLandstrich

GrenzflußGrenzflussbeiderseitsOstseesumpfigFlußuferFlussufer

WolgaTigrisEuphratDnjeprWasserscheideMeerLoireFlußmündung

PolenGalizienPoleOstpreußenPolOstpreußedeportierenKiew

BukowinaWestgrenzeSibirienUkraineKaliningradKrimBessarabienKaukasus

DnjestrKarpatenUralOstseeküsteHaffTorgauumsiedelnBaikalsee

ostwärtsöstlichnahennahegelegenunweitnördlichsüdlich

LandzungeBuchtWestuferTiefebeneAtlantikNaheOstuferHügellandschaft

CNS WEICHSEL VS. RHEIN

© Cyril Belica: Modelling Semantic Proximity - Contrasting Near-Synonyms (version: 0.21, init tau: 0.4, dist: x, iter: 10000)Weichsel RheinBirneHimbeereMarillePflaumePfirsichAprikoseKirscheZwetschge

Obstgarten ostwärtsöstlichnahennahegelegenBuchtLandesinnereUral

KarpatenTatraHaffWestgrenzeOstgrenzeSibirienRiesengebirgeOstseeküste

DanzigPolenGalizienWarschauPoleKrakauStettinWarschauer

Steige überschwemmtHochwassergebietüberschwemmenFlutwelleüberflutenüberflutetRegenfallschwappen

LauenburgWestuferLandstrichOstuferHügellandschaftOderbruchHügeldurchquert

NeißeDnjestrMoldauWolgaDnjeprTigrisLoireGrenzfluss

Stettiner

SaaleAmazonasWupperWerraAareMaasentspringenGeografie

JangtseHochwasserMekongTheissMississippiRhoneDeichGanges

MuldedurchfließenentlangFlüsschenFlusslaufFlußlaufWasserscheideentwässern

ElbeDonauFlußFlussSpreeschiffbarflußabwärtsflussabwärts

ThemseMeerSandbankMaggioreBodenseeAtlantikOstseeFlussmündung

MoselLahnOberrheinMainNaheSaarRuhrVogelsberg

OberlaufNeckarUnterlaufPegelstandMündungWasserstandNebenflußNebenfluss

HolzbrückeRenaturierungKanalrenaturierenDorfbachAltarmkanalisiertFlußbett

FahrrinneSchleuseertrinkenSchiffsverkehrSchifffahrtWasserstraßeschippernBinnenschiff

HafenbeckenMittelmeerEisschollePontonLandwehrkanalflussaufwärtsMeerengeflußaufwärts

KoblenzMittelrheinBingenRüdesheimRheinhessenBingeLoreleyNiederrhein

RheinbrückerechtsrheinischRheinseiteRheinuferrheinabwärtsLindwurmLimesTagesausflug

WasserqualitätKühlwasserRinnsalUferbereichFischartreißendKloakeWassermenge

GewässerGestadeBaggerseegesprungenschwimmenpaddelnSüduferTeich

ZürichseeUnterseeWasserschutzpolizeiSeeÄrmelkanalAnlegestelleMotorbootVierwaldstättersee

MEHRDIMENSIONALITÄT• ZEIT x THEMA• ZEIT x KOOKKURRENZ

„Heuschrecke“

NEUE TYPISCHE VERWENDUNGEN ADJEKTIVISCHER GEBRAUCH VON „GEFÜHLT“

123456789

10111213141516171819202122

K1 K2 K3 K4 K5 K6 K7

Inflation

Kälte

Rezession

Ungerechtigkeit

Verunsicherung

Bedrohung

Unsicherheit

N.N.>20

EMERGENTE THEMEN / DISKURSE?

96/97 98/99 00/01 02/03 04/05 06/07 08/09 10/11 12/13

1

2

4

8

16

32

64

128

256

512

n.v.

Konfliktausgewählte Partnerwörter

(unauffällig)AtomprogrammGeorgienDarfurKosovoSyrien

Jahr

Kook

kurre

nz-R

ang

Literatur

! Kilgarriff, A. (2001). Comparing corpora. International Journal of Corpus Linguistics, 6(1): 97–133

! Kupietz, Marc/Lüngen, Harald (2014): Recent Developments in DeReKo. In: Calzolari, Nicoletta et al. (eds.): Proceedings of the Ninth International Conference on LanguageResources and Evaluation (LREC'14). Reykjavik: ELRA.

! Belica, Cyril (1996): Analysis of Temporal Changes in Corpora. In: International Journal of Corpus Linguistics Vol. 1(1). Amsterdam/Philadelphia. S. 61-73.

! Lüngen, Harald/Keibel, Holger (2013): Zur Erstellung und Interpretation der Zeitverlaufsgrafiken. In: Steffens, Doris/al-Wadi, Doris: Neuer Wortschatz. Neologismen im Deutschen 2001-2010. Band 2: kiten – Z. S. 561-567 - Mannheim: Institut für Deutsche Sprache, 2013.

! Schächtele, Anna: Sprachlicher Wandel als Kollateralschaden der Unwortwahl?Eine diachrone Begriffsanalyse. In: Sprachreport 2/2014, 16-21.

! Perkuhn, Rainer/Belica, Cyril (i.V.): Konflikt, Sprache, korpuslinguistische Methodik. In: Luth, Janine/Ptashnyk, Stefaniya/Vogel, Friedemann (Hg.): Linguistische Zugänge zu Konflikten in europäischen Sprachräumen. Korpus - Pragmatik - kontrovers. Winter, Heidelberg.

Literatur

! Belica, Cyril (1995). Statistische Kollokationsanalyse und -clustering. Korpuslinguistische Analysemethode. http://corpora.ids-mannheim.de/.

! Lamping, John/Rao, Ramana/Pirolli, Peter (1995): A Focus+Context Technique Basedon Hyperbolic Geometry for Visualizing Large Hierarchies. Proceedings of the ACM SIGCHI Conference on Human Factors in Computing Systems, Denver, May 1995, 401-408.

! Perkuhn, Rainer (2007): "Corpus-driven": Systematische Auswertung automatisch ermittelter sprachlicher Muster. In: Kämper, Heidrun/Eichinger, Ludwig M. (Hrsg.): Sprach-Perspektiven. Germanistische Linguistik und das Institut für Deutsche Sprache. S. 465-491 - Tübingen: Narr, 2007. (Studien zur Deutschen Sprache 40)

! Perkuhn, Rainer (2007): Systematic Exploration of Collocation Profiles. In: Proceedingsof the 4th Corpus Linguistics Conference (CL 2007), Birmingham.

! Perkuhn, Rainer/Keibel, Holger (2009): A brief tutorial on using collocations foruncovering and contrasting meaning potentials of lexical items. In: Minegishi, Makoto/Kawaguchi, Yuji (Eds.): Working Papers in Corpus-based Linguistics and Language Education, No. 3 (pp. 77-91). Tokyo: Tokyo University of Foreign Studies(TUFS).

Literatur

! Kohonen, Teuvo (1990): The Self-Organizing Map. In: New Concepts in Computer Science: Proc. Symp. in Honour of Jean-Claude Simon, p. 181-190. Paris, 1990. AFCET.

! Belica, Cyril (2011): Semantische Nähe als Ähnlichkeit von Kookkurrenzprofilen. In: Andrea Abel, Renata Zanin, Hrsg., Korpora in Lehre und Forschung, S. 155-178. Bozen-Bolzano University Press. Freie Universität Bozen-Bolzano.

! Vachková, Marie/Belica, Cyril (2009): Self-Organizing Lexical Feature Maps. SemioticInterpretation and Possible Application in Lexicography. In: IJGLSA 13, 2 [Interdisciplinary Journal for Germanic Linguistics and Semiotic Analysis, Rauch, Irmengard and Seymour, Richard K., (eds.). - Berkeley: IJGLSA/University of CaliforniaPress], pp. 223-260.

! Perkuhn, Rainer (2012): Diachrone Kookkurrenzanalyse. Technical Report IDS-KL-2012-02. Institut für Deutsche Sprache, Mannheim. Dezember 2012.

VIELEN DANK!www.ids-mannheim.de/kl.html [email protected]