1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD...

46
1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04) Anmerkungen

Transcript of 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD...

Page 1: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

1

CloseGraph: Mining Closed Frequent Graph Patterns

Xifeng Yan & Jiawei HanIn Proceedings of SIGKDD '03. Washington, DC.

Präsentation und

aktuelle (15.1.04) Anmerkungen

Page 2: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

2

Frequent (sub)graph mining: Das Problem

Terminologie: Support eines Musters (hier: Subgraph) = Häufigkeit seines

Auftretens in der Datenmenge D (hier: D = {g1,g2,g3} ) Häufiges Muster = Muster, dessen Support mindestens ist. Muster sind: Mengen, Sequenzen, Bäume, Verbände, GraphenProblem: Ein häufiger Graph mit n Kanten kann bis zu 2n häufige

Subgraphen enthalten.

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 3: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

3

Herausforderung: mehrfache Subgraph-Isomorphismen

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 4: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

4

Doppelarbeit 1: Reihenfolgedes pattern growth

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 5: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

5

Ziel: Pruning des Suchraums

Lösungsansatz DFS subscripting

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 6: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

6

Doppelarbeit 2: Redundanz in Form nicht-maximaler (nicht “geschlossener”) Muster

Immer, wenn (1) in D auftritt,tritt auch (2) auf.

Support von (3) muss gleich sein wie Support von (4). (braucht nicht berechnet zu werden) Man braucht nicht von (1) aus zu wachsen, sondern kann es von (2) aus tun.

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 7: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

7

Definition “closed graph pattern”

Ein häufiges Muster I ist geschlossen, wenn es kein echtes Super-Muster von I gibt, das in der Datenmenge D denselben Support hat.

Geschlossenheit wurde untersucht für häufige Itemsets und häufige Sequenzen.

Hier: geschlossene Subgraphen Im Bsp.:(1), (3) nicht geschlossen Vorteile:

o Während des Mining: Lösungsansatz early termination weniger Graphen werden generiert

o Nachverarbeitung (z.B. Klassifikation, Clustering): Lösungsansatz Beschränkung auf geschlossene Muster # geschlossene häufige Muster << # häufige Muster

o Annahme: geschlossene Muster sind als “maximale Muster” die interessanten Muster

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 8: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

8

Anwendungsgebiete: Beispiele (1)

Bioinformatiko Beispiel AIDS antiviral screen dataset (zur Verfügung gestellt vom

Developmental Therapeutics Program in NCI/NIH): 422 chemische Verbindungen sind nachgewiesenermaßen aktiv. In diesen 422 sind bei =5% fast 1 000 000 häufige Graphmuster (davon 2000 geschlossene).

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 9: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

9

Anwendungsgebiete: Beispiele (2)

Webnavigations-Analyseo Lange Tradition der Graph-Analyse in Pädagogik/Psychologie

• kein Mining, konfirmatorisch

o Einflussgrößen auf Zahl und Größe der Muster Komplexität• # unterschiedliche Webseiten (z.B. in einer Site) hoch• # besuchte Webseiten in einer Analyse-Einheit (z.B. in einer Session)

eher niedrig bei Webservern, eher hoch bei Lernsoftware etc.

o Einige Vereinfachungen der Graphenstruktur usw. möglich (mehr dazu später)

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 10: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

10

Navigation: Beispiel-Muster

Breitensuche

Landmarke

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 11: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

11

Vorgehen (1): Naive Variante

// get rid of duplicate graphs

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 12: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

12

Algorithmen, die hier verglichen werden

gSpan *o Basiert auf pattern growth (Tiefensuche, die einen Graphen

erweitert, statt Konstruktion von Kandidaten aus 2 Mustern in Apriori)

o Effizienzgewinn durch Ordnung auf Graphenmustern: rightmost extension

CloseGraph (Closed Graph pattern mining)o Weitere Performanzgewinne durch die Konzepte equivalent

occurrence, early termination

Als Performance-Baseline des Weiteren: FSG **o Bester Algorithmus aus der Apriori-Familie

* Yan, X., & Han, J. (2002). gSpan: Graph-based substructure pattern mining. UIUC-CS Tech. Report: R-2002-2296, a 4-page short version in ICDM’02. ** Kuramochi, M., & Karypis, G. (2001). Frequent subgraph discovery. ICDM’01.

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 13: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

13

Grundannahmen über die Graphen

Gelabelt, zusammenhängend, ungerichtet, schlicht

Graph

g = {V(g), E(g), l : V E {Labels}}

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 14: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

14

Subgraphen

Ein Graph g ist ein Subgraph eines anderen Graphen g’, g g’ (echter Subgraph: g g’), wenn es einen Subgraph-Isomorphismus von g nach g’ gibt.

Definition 1 (Subgraph-Isomorphismus). Ein Subgraph-Isomorphismus ist eine injektive Funktion

f : V(g) V(g’) so, dass1. f.a. u V(g): l(u) = l’(f(u)), und2. f.a. (u,v) E(g): (f(u),f(v)) E(g’), l(u,v) = l’(f(u),f(v)),

wobei l, l’ die Label-Funktionen von g, g’ sind.

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 15: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

15

Das Mining-Problem:Muster & ~eigenschaften; Closed Graph Mining

Gegeben: Datenmenge D = {G1, G2, …, Gn}

support(g) : der Anteil der Graphen in D, in denen g ein Subgraph ist (Unklar. Im Folgenden eher occurrence(g) ?!)

frequency(g) : die Anzahl der Graphen in D, in denen g ein Subgraph ist

Menge der häufigen Graphenmuster FS = { g | support(g) min_sup}

Menge der geschlossenen häufigen Graphenmuster CS = { g | g FS und es gibt kein g’ FS so, dass g g’ und

support(g) = support(g’)}

Problem closed graph mining: finde die vollständige Menge CS gegeben D und min_sup

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 16: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

16

Graph-Dubletten (duplicate graphs)

Erweiterung von g nach g x e kann sehr redundant sein. Z.B. kann ein Graph mit k Kanten in k Weisen aus (k-1)-Kanten-

Graphen generiert sein. Schritt 1 in NaiveGraph entfernt Dubletten, aber:

o Anzahl ist riesigo Generierung und Support-Berechnung Zeit!o Dubletten-Test ist nicht-trivial; benötigt kanonisches Labelo Wenn bestimmte Graphen nur aus einer bestimmten Dublette

entstehen können: doch weiterwachsen (???)

gSpan: Effizientes kanonisches Labeling-System, lexikographische Ordnung in Grapheno Reduziert die Generierung von Dubletteno Keine Durchsuchung früher gefundener häufiger Graphen zur

Identifikation von Dubletteno Keine Erweiterung von Dubletten; trotzdem vollständig (Yan&Han’02)

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 17: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

17

DFS-Subscripting (1)

Reihenfolge der Knoten-Entdeckung in Graph G bei Tiefensuche (DFS) lineare Ordnung auf Knoten

i < j : vi wurde vor vj entdeckt

Ein DFS-Baum T ist ein DFS-Subscripting von G: GT

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 18: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

18

DFS-Subscripting (2)

Gegeben GT :

o v0 : Wurzel;

o vn : rechtester Knoten;

o direkter Pfad von v0 nach vn : rechtester Pfad

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 19: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

19

Vorwärts-Kanten; Rückwärts-Kanten

(vi,vj) E(G), i < j (vi,vj) EfT (forward edges set; alle

Kanten, die im DFS-Baum sind)

(vi,vj) E(G), i j (vi,vj) EbT (backward edges set)

g xf e = “forward extension”, neuer Knoten wird eingefügt

g xb e = “backward extension”, keine neuen Knoten

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 20: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

20

Rechteste Erweiterung

Rechteste Erweiterung g r e

o nur zwei Arten von Erweiterung möglich:

• Rückwärts-Erweiterung: Vom rechtesten Knoten zu irgendeinem anderen Knoten auf dem rechtesten Pfad (also spezifische Form der allgemeinen backward extension, g xb e)

• Vorwärts-Erweiterung: Von irgendeinem Knoten auf dem rechtesten Pfad unter Einführung eines neuen Knotens (also spezifische Form der allgemeinen forward extension, g xf e)

Zum Sparen benötigt: ein eindeutiges Basis-Subscripting, auf dem rechteste Erweiterung betrieben wird

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 21: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

21

DFS-Code (1)

Zur kanonischen Darstellung eines Graphen: Ordnungen definieren auf 1. Kanten (geg. ein GT): DFS-Code

GT dargestellt als Sequenz

2. Sequenzen (geg. ein G): DFS lexikographische Ordnung G dargestellt als eindeutige Sequenz

Grundidee des DFS-Code: DFS + Rückwärtskanten aus Knoten i jeweils vor den Vorwärtskanten aus i

code(G,T) , der DFS-Code eines GT , ist eine Kantensequenz (ei), definiert durch die lineare Ordnung T auf N0

2, wobei e1 = (i1,j1) T e2 = (i2,j2) gdw. eine der folgenden Aussagen zutrifft:i. e1, e2 Ef

T , j1 < j2 oder (i1 > i2 und j1 = j2)

ii. e1, e2 EbT , i1 < i2 oder (i1 = i2 und j1 < j2)

iii. e1 EbT , e2 Ef

T , i1 < i2 (bei Einführung von T äquivalent zu iv. im Paper)

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 22: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

22

DFS-Code (2)

Grundidee des DFS-Code: DFS + Rückwärtskanten aus Knoten i jeweils vor den Vorwärtskanten aus i

Notation: (i, j, li, l(i,j) ,lj)

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 23: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

23

DFS-Lexikographische Ordnung (1)

Prioritäten für < : T , Label von i, Kantenlabel, Label von j

Gegeben DFS-Codes = (a0, a1, …, am) und = (b0, b1, …, bn)

Wenn a0 = b0, …, at-1 = bt-1, at < bt (t min(m,n)), dann <

Im Beispiel:

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 24: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

24

DFS-Lexikographische Ordnung (2)

< ((0,1,X,a,X)

(1,2,X,b,X)) <

Beispiel:

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

*) M.E. N02 (wie oben)

*)

Page 25: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

25

gSpan

Theorem 1 (Vollständigkeit): Die Durchführung der rechtesten Erweiterung (= der rechtesten Erweiterung des Basis-Subskripting) in NaiveGraph garantiert die Vollständigkeit des Mining-Resultats.

Lemma 1: Die Durchführung der rechtesten Erweiterungen nur auf den minimalen DFS-Codes in NaiveGraph garantiert die Vollständigkeit des Mining-Resultats.

Problem: gSpan ist ineffizient bei großen Graphen (exponentielles Wachstum der # häufigen Subgraphen)

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 26: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

26

Grundidee: Wenn s nicht geschlossen ist, dann hier nicht weitersuchen.

Ziel: hier durch einen Zusatz eine bessere Abbruchbedingung!

CloseGraph: Abbruchbedingung auf der Basis von “äquivalentem Auftreten”

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 27: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

27

Auftreten (Occurrence)

(g,g’): Wie oft findet sich g in g’?

Definition 5 (Auftreten)

Gegeben g und D = {G1, G2, …, Gn} ist das Auftreten von g in D die Summe der Zahl von Subgraph-Isomorphismen von g in jedem Graph von D, also I(g,D)= i=1

n (g, Gi)

Beispiel: g(g,g1) = 2

(g,g2) = 1

(g,g3) = 0I(g,D)=2+1+0=3

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 28: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

28

Erweitertes Auftreten

“Wie oft tritt g’ – hergestellt aus g – in G auf?”

Sei g’ = g x e, f ein Subgraph-Isomorphismus von g in G, f’ ein Subgraph-Isomorphismus von g’ in G.

f ist erweiterbar und f’ ist ein erweiterter Subgraph-Isomorphismus aus f, wennes existiert ein , ist ein Subgraph-Isomorphismus von g in g’ so, dass

f.a. v: f(v) = f’((v)).

(g,g’,G) = die Anzahl in dieser Weise erweiterbarer f

Definition 6 (Erweitertes Auftreten):

Gegeben g und D = {G1, G2, …, Gn}, ist das erweiterte Auftreten von g’ in D w.r.t. g : L(g,g’,D) = i=1

n (g,g’,Gi)

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 29: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

29

Äquivalentes Auftreten und early termination

g und g’ = g x e haben äquivalentes Auftreten wenn I(g,D) = L(g,g’,D). Wo immer g in D auftritt, tritt auch g’ auf.

Wenn

o g und g’ äquivalentes

Auftreten haben,

o g g’’,

o g’ g’’

dann ist g’’ nicht geschlossen.

early termination: erweitere nur g’, nicht g.

L(g1,g2,D) =2+1+0=3

I(g1,D) =2+1+0=3

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 30: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

30

Early termination funktioniert nicht immer

Gesucht: geschlossene Graphen mit min. frequ. = 2 g = x—a—y, g’ = x—a—y—b—x I(g,D) = L(g,g’,D) reicht es, g’ zu erweitern?

Nein! Wir müssen auch g erweitern, da wir sonst das Muster h nicht finden!

h

D

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 31: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

31

Zur Demonstration: Entdeckung von Muster h

g = x—a—y, g’ = x—a—y—b—x

Hier: Erweiterung von g, um Muster h zu finden.

h

D

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 32: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

32

Was ist das Problem? (1)

g (links oben i. Bild) = x—a—y, g’ (obere Reihe i. Bild) = x—a—y—b—x h (das rote Muster). Es gilt: g h, g’ h Erweitere h um die “kritische Kante” e = y—b—x

h

D

Graph (1): h wird durch e rückwärts erweitert.

Graph (2): h wird durch e vorwärts erweitert.

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 33: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

33

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

x–(a)—y

x–(a)—y—(b)—x z—(c)—x–(a)—y

z—(c)—x–(a)—y—(b)—x x—(d)—z—(c)—x–(a)—yx–(a)—y —(b)—x—(d)—z

z—(c)—x–(a)—y—(b)—x

d

x—(d)—z—(c)—x–(a)—y—(b)—x

Graph (1) Graph (2)

g

{z;z—(c)—x}{x;y—(b)—x}

{x;x—(d)—z}

{x;x—(b)—y}

{z;z—(c)—x}{z;x—(d)—z}

{z—(c)—x}

{z—(d)—x}

{y—(b)—x}

{x;x—(d)—z} {x;y—(b)—x}

Was ist das Problem? (2) – Das war die Idee

Page 34: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

34

x–(a)—y

x–(a)—y—(b)—x z—(c)—x–(a)—y

z—(c)—x–(a)—y—(b)—x x—(d)—z—(c)—x–(a)—yx–(a)—y —(b)—x—(d)—z

z—(c)—x–(a)—y—(b)—x

d

x—(d)—z—(c)—x–(a)—y—(b)—x

Graph (1) Graph (2)

g

{z;z—(c)—x}{x;y—(b)—x}

{x;x—(d)—z}

{x;x—(b)—y}

{z;z—(c)—x}{z;x—(d)—z}

{z—(c)—x}

{z—(d)—x}

{x;y—(b)—x}

Nicht-geschlossenen Subgraphen „verpasst“

{y—(b)—x}

{x;x—(d)—z} {x;y—(b)—x}{x;y—(b)—x}

Geschlossenen Subgraphen verpasst

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Was ist das Problem? (3) – Das hat nicht geklappt

Page 35: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

35

x–(a)—y

x–(a)—y—(b)—x z—(c)—x–(a)—y

z—(c)—x–(a)—y—(b)—x x—(d)—z—(c)—x–(a)—yx–(a)—y —(b)—x—(d)—z

z—(c)—x–(a)—y—(b)—x

d

x—(d)—z—(c)—x–(a)—y—(b)—x

Graph (1) Graph (2)

g

{z;z—(c)—x}{x;y—(b)—x}

{x;x—(d)—z}

{x;x—(b)—y}

{z;z—(c)—x}{z;x—(d)—z}

{z—(c)—x}

{z—(d)—x}

{y—(b)—x}

{x;x—(d)—z} {x;y—(b)—x}

Vorwärts-Erweiterung,Rückwärts-Erweiterung

g‘

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Was ist das Problem? (4) – Verständnisansatz

Page 36: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

36

Wann funktioniert early termination?

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 37: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

37

x–(a)—y

x–(a)—y—(b)—x z—(c)—x–(a)—y

z—(c)—x–(a)—y—(b)—x x—(d)—z—(c)—x–(a)—yx–(a)—y —(b)—x—(d)—z

z—(c)—x–(a)—y—(b)—x

d

x—(d)—z—(c)—x–(a)—y—(b)—x

Graph (1) Graph (2)

g

{z;z—(c)—x}{x;y—(b)—x}

{x;x—(d)—z}

{x;x—(b)—y}

{z;z—(c)—x}{z;x—(d)—z}

{z—(c)—x}

{z—(d)—x}

{y—(b)—x}

{x;x—(d)—z} {x;y—(b)—x}

Vorwärts-Erweiterung,Rückwärts-Erweiterung

g‘

h2

h1

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Darstellung am Beispiel (Th. 2 nicht erfüllt)

Page 38: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

38

x–(a)—y

x–(a)—y—(b)—x z—(c)—x–(a)—y

z—(c)—x–(a)—y—(b)—x x—(d)—z—(c)—x–(a)—yx–(a)—y —(b)—x—(d)—z

z—(c)—x–(a)—y—(b)—x

d

x—(d)—z—(c)—x–(a)—y—(b)—x

Graph (1) Graph (2)

g

{z;z—(c)—x}{x;y—(b)—x}

{x;x—(d)—z}

{x;x—(b)—y}

{z;z—(c)—x}

{z;x—(d)—z}

{z—(c)—x}

{z—(d)—x}

{y—(b)—x}

{x;x—(d)—z} {x;y—(b)—x}

Vorwärts-Erweiterung,Rückwärts-Erweiterung

g‘

g1

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Entdeckung der failure of early termination

g2 g3

„brechbar“

„There are other similar failure cases which can be handled with care. The detection of these failure cases of Early Termination can gurantee the completeness of the mining result.“

Page 39: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

39

Demontageversuche

1. Versuch, ein Gegenbeispiel zu konstruieren Idee: Auch g xf | xb e ist nicht eindeutig und könnte somit zu einer

“Verteilung von Support” und dem Verpassen von geschlossenen häufigen Subgraphen führen.

Bisher nicht erfolgreich. (Es ergibt sich wieder die Aufspaltung in Vorwärts- und Rückwärts-Erweiterung.)

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Zur Bedeutung von Theorem 2 – wann ist early termination erlaubt? (1)

Page 40: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

40

Zur Bedeutung von Theorem 2 – wann ist early termination erlaubt? (2)

2. Charakterisierung der von Theorem 2 erlaubten Musterkonstellationen (g,g’) Betrachte die Erweiterungen jedes Supergraphen h von g durch die

kritische Kante e = (v1,v2). O.B.d.A.: e “wächst bei v1 an und zeigt zu v2.” ENTWEDER (rückwärts): Alle Erweiterungen führen dazu, dass die Kante

zu einem schon vorhandenen v2 zeigt. v2 muss also in allen Supergraphen von g vorhanden sein, also schon in g. g’ “schließt eine Lücke” in g.

ODER (vorwärts): Alle Erweiterungen führen dazu, dass die Kante zu einem noch neuen v2 zeigt. v2 muss also in allen Supergraphen von g neu sein, darf also in nichts anderem vorhanden sein. g’ “fügt einen musterspezifischen Knoten” hinzu.

Vorläufiges Fazit: Je mehr solcher Muster (mit Ringstrukturen, mit spezifischen Knoten) es in einem Datenset gibt, desto eher wird sich der (beträchtliche?) zusätzliche Aufwand für den “check of failure of early termination” lohnen. Interessant wäre eine Untersuchung verschiedener Domänen hinsichtlich Musterkonstellationen & Effekten.

Es bleiben die Fragen nach Methode und Vollständigkeitkeitsbeweis!

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 41: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

41

CloseMining (fürs Pre-Processing)

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 42: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

42

CloseGraph

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Um zu prüfen, ob ein Graph geschlossen ist:

Nur Plus-1-Kante-Supergraphen prüfen

notwendig

Early termination nicht anwendbar, wenn strikt der

DFS-lexikogr. Ordnung gefolgt wird Prüfung in

Z.3 ist Kompromiss.

Page 43: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

43

Experimentelle Evaluation

Experimente mito Biodaten (chemische Verbindungen, klassifiziert als aktiv / moderat

aktiv / inaktiv)

o synthetischen Daten

Resultate: CloseGraph o ist schneller als gSpan, dieses schneller als FSG

o generiert weniger Muster als gSpan

o Laufzeit und #Muster sinken mit min_sup

o Laufzeit steigt in Abhängigkeit von (a) der durchschnittlichen Größe der potenziell häufigen Graphen und (b) der durchschnittlichen Größe der Graphen in D; beides in gleichem Maße wie gSpan

o Keine Interaktionen erkennbar

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 44: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

44

Ausblick der Autoren

Nicht oder nur teilweise gelabelte Graphen

Multigraphen und Pseudographen

Gerichtete Graphen

Nicht-zusammenhängende Graphen

Bäume

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 45: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

45

Mein Ausblick: Häufige Subgraphen in der Webnavigation

Grundideen:o Anwendungsfrage: Gesucht sind Methoden zur

Effizienzverbesserung bei der Lösung zweier Mining-Probleme:• MP 1: Muster definiert durch “Inhalt”• MP 2: Muster definiert durch “Struktur” (= Zusammenfassung

isomorpher Muster)

1. Versuch, eine effizientere Methode der Kandidaten-Generierung zu definieren, die die Restriktionen der Domäne ausnutzt (MP 1: Mining auf Graphen mit bijektiver Knoten-Label-Funktion)

2. Wenn 1. erfolgreich: Lassen sich die Vorteile auf MP 2 übertragen (dabei Varianten der Isomorphie-Prüfung untersuchen)?

3. Frage: Sinnvollste Behandlung der Eigenschaften der Domäne, gerichtete Multigraphen hervorzubringen?

… würde ich gerne zur Diskussion stellen, wenn es etwas weiter gediehen ist …

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Page 46: 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

46

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

Vielen Dank!