1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD...

1

CloseGraph: Mining Closed Frequent Graph Patterns

Xifeng Yan & Jiawei HanIn Proceedings of SIGKDD '03. Washington, DC.

Präsentation und

aktuelle (15.1.04) Anmerkungen

2

Frequent (sub)graph mining: Das Problem

Terminologie: Support eines Musters (hier: Subgraph) = Häufigkeit seines

Auftretens in der Datenmenge D (hier: D = {g1,g2,g3} ) Häufiges Muster = Muster, dessen Support mindestens ist. Muster sind: Mengen, Sequenzen, Bäume, Verbände, GraphenProblem: Ein häufiger Graph mit n Kanten kann bis zu 2n häufige

Subgraphen enthalten.

EinleitungEindeutige SubgraphenGeschlossene SubgraphenAusblick

3

Herausforderung: mehrfache Subgraph-Isomorphismen


4

Doppelarbeit 1: Reihenfolgedes pattern growth


5

Ziel: Pruning des Suchraums

Lösungsansatz DFS subscripting


6

Doppelarbeit 2: Redundanz in Form nicht-maximaler (nicht “geschlossener”) Muster

Immer, wenn (1) in D auftritt,tritt auch (2) auf.

Support von (3) muss gleich sein wie Support von (4). (braucht nicht berechnet zu werden) Man braucht nicht von (1) aus zu wachsen, sondern kann es von (2) aus tun.


7

Definition “closed graph pattern”

Ein häufiges Muster I ist geschlossen, wenn es kein echtes Super-Muster von I gibt, das in der Datenmenge D denselben Support hat.

Geschlossenheit wurde untersucht für häufige Itemsets und häufige Sequenzen.

Hier: geschlossene Subgraphen Im Bsp.:(1), (3) nicht geschlossen Vorteile:

o Während des Mining: Lösungsansatz early termination weniger Graphen werden generiert

o Nachverarbeitung (z.B. Klassifikation, Clustering): Lösungsansatz Beschränkung auf geschlossene Muster # geschlossene häufige Muster << # häufige Muster

o Annahme: geschlossene Muster sind als “maximale Muster” die interessanten Muster


8

Anwendungsgebiete: Beispiele (1)

Bioinformatiko Beispiel AIDS antiviral screen dataset (zur Verfügung gestellt vom

Developmental Therapeutics Program in NCI/NIH): 422 chemische Verbindungen sind nachgewiesenermaßen aktiv. In diesen 422 sind bei =5% fast 1 000 000 häufige Graphmuster (davon 2000 geschlossene).


9

Anwendungsgebiete: Beispiele (2)

Webnavigations-Analyseo Lange Tradition der Graph-Analyse in Pädagogik/Psychologie

• kein Mining, konfirmatorisch

o Einflussgrößen auf Zahl und Größe der Muster Komplexität• # unterschiedliche Webseiten (z.B. in einer Site) hoch• # besuchte Webseiten in einer Analyse-Einheit (z.B. in einer Session)

eher niedrig bei Webservern, eher hoch bei Lernsoftware etc.

o Einige Vereinfachungen der Graphenstruktur usw. möglich (mehr dazu später)


10

Navigation: Beispiel-Muster

Breitensuche

Landmarke


11

Vorgehen (1): Naive Variante

// get rid of duplicate graphs


12

Algorithmen, die hier verglichen werden

gSpan *o Basiert auf pattern growth (Tiefensuche, die einen Graphen

erweitert, statt Konstruktion von Kandidaten aus 2 Mustern in Apriori)

o Effizienzgewinn durch Ordnung auf Graphenmustern: rightmost extension

CloseGraph (Closed Graph pattern mining)o Weitere Performanzgewinne durch die Konzepte equivalent

occurrence, early termination

Als Performance-Baseline des Weiteren: FSG **o Bester Algorithmus aus der Apriori-Familie

* Yan, X., & Han, J. (2002). gSpan: Graph-based substructure pattern mining. UIUC-CS Tech. Report: R-2002-2296, a 4-page short version in ICDM’02. ** Kuramochi, M., & Karypis, G. (2001). Frequent subgraph discovery. ICDM’01.


13

Grundannahmen über die Graphen

Gelabelt, zusammenhängend, ungerichtet, schlicht

Graph

g = {V(g), E(g), l : V E {Labels}}


14

Subgraphen

Ein Graph g ist ein Subgraph eines anderen Graphen g’, g g’ (echter Subgraph: g g’), wenn es einen Subgraph-Isomorphismus von g nach g’ gibt.

Definition 1 (Subgraph-Isomorphismus). Ein Subgraph-Isomorphismus ist eine injektive Funktion

f : V(g) V(g’) so, dass1. f.a. u V(g): l(u) = l’(f(u)), und2. f.a. (u,v) E(g): (f(u),f(v)) E(g’), l(u,v) = l’(f(u),f(v)),

wobei l, l’ die Label-Funktionen von g, g’ sind.


15

Das Mining-Problem:Muster & ~eigenschaften; Closed Graph Mining

Gegeben: Datenmenge D = {G1, G2, …, Gn}

support(g) : der Anteil der Graphen in D, in denen g ein Subgraph ist (Unklar. Im Folgenden eher occurrence(g) ?!)

frequency(g) : die Anzahl der Graphen in D, in denen g ein Subgraph ist

Menge der häufigen Graphenmuster FS = { g | support(g) min_sup}

Menge der geschlossenen häufigen Graphenmuster CS = { g | g FS und es gibt kein g’ FS so, dass g g’ und

support(g) = support(g’)}

Problem closed graph mining: finde die vollständige Menge CS gegeben D und min_sup


16

Graph-Dubletten (duplicate graphs)

Erweiterung von g nach g x e kann sehr redundant sein. Z.B. kann ein Graph mit k Kanten in k Weisen aus (k-1)-Kanten-

Graphen generiert sein. Schritt 1 in NaiveGraph entfernt Dubletten, aber:

o Anzahl ist riesigo Generierung und Support-Berechnung Zeit!o Dubletten-Test ist nicht-trivial; benötigt kanonisches Labelo Wenn bestimmte Graphen nur aus einer bestimmten Dublette

entstehen können: doch weiterwachsen (???)

gSpan: Effizientes kanonisches Labeling-System, lexikographische Ordnung in Grapheno Reduziert die Generierung von Dubletteno Keine Durchsuchung früher gefundener häufiger Graphen zur

Identifikation von Dubletteno Keine Erweiterung von Dubletten; trotzdem vollständig (Yan&Han’02)


17

DFS-Subscripting (1)

Reihenfolge der Knoten-Entdeckung in Graph G bei Tiefensuche (DFS) lineare Ordnung auf Knoten

i < j : vi wurde vor vj entdeckt

Ein DFS-Baum T ist ein DFS-Subscripting von G: GT


18

DFS-Subscripting (2)

Gegeben GT :

o v0 : Wurzel;

o vn : rechtester Knoten;

o direkter Pfad von v0 nach vn : rechtester Pfad


19

Vorwärts-Kanten; Rückwärts-Kanten

(vi,vj) E(G), i < j (vi,vj) EfT (forward edges set; alle

Kanten, die im DFS-Baum sind)

(vi,vj) E(G), i j (vi,vj) EbT (backward edges set)

g xf e = “forward extension”, neuer Knoten wird eingefügt

g xb e = “backward extension”, keine neuen Knoten


20

Rechteste Erweiterung

Rechteste Erweiterung g r e

o nur zwei Arten von Erweiterung möglich:

• Rückwärts-Erweiterung: Vom rechtesten Knoten zu irgendeinem anderen Knoten auf dem rechtesten Pfad (also spezifische Form der allgemeinen backward extension, g xb e)

• Vorwärts-Erweiterung: Von irgendeinem Knoten auf dem rechtesten Pfad unter Einführung eines neuen Knotens (also spezifische Form der allgemeinen forward extension, g xf e)

Zum Sparen benötigt: ein eindeutiges Basis-Subscripting, auf dem rechteste Erweiterung betrieben wird


21

DFS-Code (1)

Zur kanonischen Darstellung eines Graphen: Ordnungen definieren auf 1. Kanten (geg. ein GT): DFS-Code

GT dargestellt als Sequenz

2. Sequenzen (geg. ein G): DFS lexikographische Ordnung G dargestellt als eindeutige Sequenz

Grundidee des DFS-Code: DFS + Rückwärtskanten aus Knoten i jeweils vor den Vorwärtskanten aus i

code(G,T) , der DFS-Code eines GT , ist eine Kantensequenz (ei), definiert durch die lineare Ordnung T auf N0

2, wobei e1 = (i1,j1) T e2 = (i2,j2) gdw. eine der folgenden Aussagen zutrifft:i. e1, e2 Ef

T , j1 < j2 oder (i1 > i2 und j1 = j2)

ii. e1, e2 EbT , i1 < i2 oder (i1 = i2 und j1 < j2)

iii. e1 EbT , e2 Ef

T , i1 < i2 (bei Einführung von T äquivalent zu iv. im Paper)


22

DFS-Code (2)

Grundidee des DFS-Code: DFS + Rückwärtskanten aus Knoten i jeweils vor den Vorwärtskanten aus i

Notation: (i, j, li, l(i,j) ,lj)


23

DFS-Lexikographische Ordnung (1)

Prioritäten für < : T , Label von i, Kantenlabel, Label von j

Gegeben DFS-Codes = (a0, a1, …, am) und = (b0, b1, …, bn)

Wenn a0 = b0, …, at-1 = bt-1, at < bt (t min(m,n)), dann <

Im Beispiel:


24

DFS-Lexikographische Ordnung (2)

< ((0,1,X,a,X)

(1,2,X,b,X)) <

Beispiel:


*) M.E. N02 (wie oben)

*)

25

gSpan

Theorem 1 (Vollständigkeit): Die Durchführung der rechtesten Erweiterung (= der rechtesten Erweiterung des Basis-Subskripting) in NaiveGraph garantiert die Vollständigkeit des Mining-Resultats.

Lemma 1: Die Durchführung der rechtesten Erweiterungen nur auf den minimalen DFS-Codes in NaiveGraph garantiert die Vollständigkeit des Mining-Resultats.

Problem: gSpan ist ineffizient bei großen Graphen (exponentielles Wachstum der # häufigen Subgraphen)


26

Grundidee: Wenn s nicht geschlossen ist, dann hier nicht weitersuchen.

Ziel: hier durch einen Zusatz eine bessere Abbruchbedingung!

CloseGraph: Abbruchbedingung auf der Basis von “äquivalentem Auftreten”


27

Auftreten (Occurrence)

(g,g’): Wie oft findet sich g in g’?

Definition 5 (Auftreten)

Gegeben g und D = {G1, G2, …, Gn} ist das Auftreten von g in D die Summe der Zahl von Subgraph-Isomorphismen von g in jedem Graph von D, also I(g,D)= i=1

n (g, Gi)

Beispiel: g(g,g1) = 2

(g,g2) = 1

(g,g3) = 0I(g,D)=2+1+0=3


28

Erweitertes Auftreten

“Wie oft tritt g’ – hergestellt aus g – in G auf?”

Sei g’ = g x e, f ein Subgraph-Isomorphismus von g in G, f’ ein Subgraph-Isomorphismus von g’ in G.

f ist erweiterbar und f’ ist ein erweiterter Subgraph-Isomorphismus aus f, wennes existiert ein , ist ein Subgraph-Isomorphismus von g in g’ so, dass

f.a. v: f(v) = f’((v)).

(g,g’,G) = die Anzahl in dieser Weise erweiterbarer f

Definition 6 (Erweitertes Auftreten):

Gegeben g und D = {G1, G2, …, Gn}, ist das erweiterte Auftreten von g’ in D w.r.t. g : L(g,g’,D) = i=1

n (g,g’,Gi)


29

Äquivalentes Auftreten und early termination

g und g’ = g x e haben äquivalentes Auftreten wenn I(g,D) = L(g,g’,D). Wo immer g in D auftritt, tritt auch g’ auf.

Wenn

o g und g’ äquivalentes

Auftreten haben,

o g g’’,

o g’ g’’

dann ist g’’ nicht geschlossen.

early termination: erweitere nur g’, nicht g.

L(g1,g2,D) =2+1+0=3

I(g1,D) =2+1+0=3


30

Early termination funktioniert nicht immer

Gesucht: geschlossene Graphen mit min. frequ. = 2 g = x—a—y, g’ = x—a—y—b—x I(g,D) = L(g,g’,D) reicht es, g’ zu erweitern?

Nein! Wir müssen auch g erweitern, da wir sonst das Muster h nicht finden!

h

D


31

Zur Demonstration: Entdeckung von Muster h

g = x—a—y, g’ = x—a—y—b—x

Hier: Erweiterung von g, um Muster h zu finden.

h

D


32

Was ist das Problem? (1)

g (links oben i. Bild) = x—a—y, g’ (obere Reihe i. Bild) = x—a—y—b—x h (das rote Muster). Es gilt: g h, g’ h Erweitere h um die “kritische Kante” e = y—b—x

h

D

Graph (1): h wird durch e rückwärts erweitert.

Graph (2): h wird durch e vorwärts erweitert.


33


x–(a)—y

x–(a)—y—(b)—x z—(c)—x–(a)—y

z—(c)—x–(a)—y—(b)—x x—(d)—z—(c)—x–(a)—yx–(a)—y —(b)—x—(d)—z

z—(c)—x–(a)—y—(b)—x

d

x—(d)—z—(c)—x–(a)—y—(b)—x

Graph (1) Graph (2)

g

{z;z—(c)—x}{x;y—(b)—x}

{x;x—(d)—z}

{x;x—(b)—y}

{z;z—(c)—x}{z;x—(d)—z}

{z—(c)—x}

{z—(d)—x}

{y—(b)—x}

{x;x—(d)—z} {x;y—(b)—x}

Was ist das Problem? (2) – Das war die Idee

34

x–(a)—y

x–(a)—y—(b)—x z—(c)—x–(a)—y


z—(c)—x–(a)—y—(b)—x

d

x—(d)—z—(c)—x–(a)—y—(b)—x

Graph (1) Graph (2)

g

{z;z—(c)—x}{x;y—(b)—x}

{x;x—(d)—z}

{x;x—(b)—y}

{z;z—(c)—x}{z;x—(d)—z}

{z—(c)—x}

{z—(d)—x}

{x;y—(b)—x}

Nicht-geschlossenen Subgraphen „verpasst“

{y—(b)—x}

{x;x—(d)—z} {x;y—(b)—x}{x;y—(b)—x}

Geschlossenen Subgraphen verpasst


Was ist das Problem? (3) – Das hat nicht geklappt

35

x–(a)—y

x–(a)—y—(b)—x z—(c)—x–(a)—y


z—(c)—x–(a)—y—(b)—x

d

x—(d)—z—(c)—x–(a)—y—(b)—x

Graph (1) Graph (2)

g

{z;z—(c)—x}{x;y—(b)—x}

{x;x—(d)—z}

{x;x—(b)—y}

{z;z—(c)—x}{z;x—(d)—z}

{z—(c)—x}

{z—(d)—x}

{y—(b)—x}

{x;x—(d)—z} {x;y—(b)—x}

Vorwärts-Erweiterung,Rückwärts-Erweiterung

g‘


Was ist das Problem? (4) – Verständnisansatz

36

Wann funktioniert early termination?


37

x–(a)—y

x–(a)—y—(b)—x z—(c)—x–(a)—y


z—(c)—x–(a)—y—(b)—x

d

x—(d)—z—(c)—x–(a)—y—(b)—x

Graph (1) Graph (2)

g

{z;z—(c)—x}{x;y—(b)—x}

{x;x—(d)—z}

{x;x—(b)—y}

{z;z—(c)—x}{z;x—(d)—z}

{z—(c)—x}

{z—(d)—x}

{y—(b)—x}

{x;x—(d)—z} {x;y—(b)—x}


g‘

h2

h1


Darstellung am Beispiel (Th. 2 nicht erfüllt)

38

x–(a)—y

x–(a)—y—(b)—x z—(c)—x–(a)—y


z—(c)—x–(a)—y—(b)—x

d

x—(d)—z—(c)—x–(a)—y—(b)—x

Graph (1) Graph (2)

g

{z;z—(c)—x}{x;y—(b)—x}

{x;x—(d)—z}

{x;x—(b)—y}

{z;z—(c)—x}

{z;x—(d)—z}

{z—(c)—x}

{z—(d)—x}

{y—(b)—x}

{x;x—(d)—z} {x;y—(b)—x}


g‘

g1


Entdeckung der failure of early termination

g2 g3

„brechbar“

„There are other similar failure cases which can be handled with care. The detection of these failure cases of Early Termination can gurantee the completeness of the mining result.“

39

Demontageversuche

1. Versuch, ein Gegenbeispiel zu konstruieren Idee: Auch g xf | xb e ist nicht eindeutig und könnte somit zu einer

“Verteilung von Support” und dem Verpassen von geschlossenen häufigen Subgraphen führen.

Bisher nicht erfolgreich. (Es ergibt sich wieder die Aufspaltung in Vorwärts- und Rückwärts-Erweiterung.)


Zur Bedeutung von Theorem 2 – wann ist early termination erlaubt? (1)

40

Zur Bedeutung von Theorem 2 – wann ist early termination erlaubt? (2)

2. Charakterisierung der von Theorem 2 erlaubten Musterkonstellationen (g,g’) Betrachte die Erweiterungen jedes Supergraphen h von g durch die

kritische Kante e = (v1,v2). O.B.d.A.: e “wächst bei v1 an und zeigt zu v2.” ENTWEDER (rückwärts): Alle Erweiterungen führen dazu, dass die Kante

zu einem schon vorhandenen v2 zeigt. v2 muss also in allen Supergraphen von g vorhanden sein, also schon in g. g’ “schließt eine Lücke” in g.

ODER (vorwärts): Alle Erweiterungen führen dazu, dass die Kante zu einem noch neuen v2 zeigt. v2 muss also in allen Supergraphen von g neu sein, darf also in nichts anderem vorhanden sein. g’ “fügt einen musterspezifischen Knoten” hinzu.

Vorläufiges Fazit: Je mehr solcher Muster (mit Ringstrukturen, mit spezifischen Knoten) es in einem Datenset gibt, desto eher wird sich der (beträchtliche?) zusätzliche Aufwand für den “check of failure of early termination” lohnen. Interessant wäre eine Untersuchung verschiedener Domänen hinsichtlich Musterkonstellationen & Effekten.

Es bleiben die Fragen nach Methode und Vollständigkeitkeitsbeweis!


41

CloseMining (fürs Pre-Processing)


42

CloseGraph


Um zu prüfen, ob ein Graph geschlossen ist:

Nur Plus-1-Kante-Supergraphen prüfen

notwendig

Early termination nicht anwendbar, wenn strikt der

DFS-lexikogr. Ordnung gefolgt wird Prüfung in

Z.3 ist Kompromiss.

43

Experimentelle Evaluation

Experimente mito Biodaten (chemische Verbindungen, klassifiziert als aktiv / moderat

aktiv / inaktiv)

o synthetischen Daten

Resultate: CloseGraph o ist schneller als gSpan, dieses schneller als FSG

o generiert weniger Muster als gSpan

o Laufzeit und #Muster sinken mit min_sup

o Laufzeit steigt in Abhängigkeit von (a) der durchschnittlichen Größe der potenziell häufigen Graphen und (b) der durchschnittlichen Größe der Graphen in D; beides in gleichem Maße wie gSpan

o Keine Interaktionen erkennbar


44

Ausblick der Autoren

Nicht oder nur teilweise gelabelte Graphen

Multigraphen und Pseudographen

Gerichtete Graphen

Nicht-zusammenhängende Graphen

Bäume


45

Mein Ausblick: Häufige Subgraphen in der Webnavigation

Grundideen:o Anwendungsfrage: Gesucht sind Methoden zur

Effizienzverbesserung bei der Lösung zweier Mining-Probleme:• MP 1: Muster definiert durch “Inhalt”• MP 2: Muster definiert durch “Struktur” (= Zusammenfassung

isomorpher Muster)

1. Versuch, eine effizientere Methode der Kandidaten-Generierung zu definieren, die die Restriktionen der Domäne ausnutzt (MP 1: Mining auf Graphen mit bijektiver Knoten-Label-Funktion)

2. Wenn 1. erfolgreich: Lassen sich die Vorteile auf MP 2 übertragen (dabei Varianten der Isomorphie-Prüfung untersuchen)?

3. Frage: Sinnvollste Behandlung der Eigenschaften der Domäne, gerichtete Multigraphen hervorzubringen?

… würde ich gerne zur Diskussion stellen, wenn es etwas weiter gediehen ist …


46


Vielen Dank!

1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD...

Documents

Transcript of 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD...