Pattern Mining: Extracting Value from Log Data

Pattern Mining: Getting the most out of your log data.

Krishna SridharStaff Data Scientist, Dato Inc. krishna_srd

• Background- Machine Learning (ML) Research.- Ph.D Numerical Optimization @Wisconsin

• Now- Build ML tools for data-scientists & developers @Dato.- Help deploy ML algorithms.

@krishna_srd, @DatoInc

About Me!

45+$and$growing$fast!

About Us!

Questions?• (Now) We are monitoring the chat window.• (Later) Email me srikris@dato.com.

Webinars

About you?

Creating a model pipeline

Ingest Transform Model Deploy Unstructured Data

exploration

modeling

Data Science Workflow

Ingest Transform Model Deploy

GraphLab(Create(

Train Model

Pipeline

Deploy Models

Serve Requests

(REST API)

Monitor Services

Get Live Feedback

Update Pipelines

Prototype & Develop Model

Pipelines

Update Live Experiment

Deploy New Pipeline

Dato(Predic2ve(Services(Dato’s Products Dato(Distributed(

We can help!

Log Journey

Lots of data

Insights Profits

Log Mining: Pattern Mining

Logs are everywhere!

Machine Learning in Logs

Source: Mining Your Logs - Gaining Insight Through Visualization

Coffee shop

Coffee Shops Menu

Receipts

Coffee Shops Menu

Coffee Store Logs

Frequent Pattern Mining

What sets of items were bought together?

Real Applications

Log Mining: Rule Mining

Can we recommend items?

Rule Mining

Real Applications

Log Mining: Feature Extraction

Feature Extraction

0 1 0 0 0 0 1 1 0 1 1 0 0 1 0 0 0 0 0 0 1 1 1 0

Receipt Space Features inMenu Space

3 Useful Data Mining Tasks

Rule MiningPattern Mining Feature Extraction

ML is not a black-box.Transparency

Learning is also about understanding. Interpretability

Whatever can go wrong, will go wrong. Diagnosis

Moving on

Pattern Mining Explained

Formulating Pattern Mining

N distinct items → 2N itemsets

Find the top K most frequent sets of length at least L that occur at least M times.

- max_patterns- min_length- min_support

Pattern Mining

N distinct items → 2N itemsets

Pattern Mining: Principles

Principle 1: What is frequent?

A pattern is frequent if it occurs at least M times.

{B, C, D}

{A, C, D}

{A, B, C, D}

{A, D}

{B, C, D}

{C, D}: 5 is frequentM = 4

{A, D}: 5 is not frequent

Principle 1: What is frequent?

A pattern is frequent if it occurs at least M times.

{B, C, D}

{A, C, D}

{A, B, C, D}

{A, D}

{B, C, D}

{C, D}: 5 is frequentM = 4

{A, D}: 5 is not frequent

min_support

Principle 2: Apriori principle

A pattern is frequent only if a subset is frequent

{B, C, D}

{A, C, D}

{A, B, C, D}

{A, D}

{B, C, D}

{B, C, D} : 5 is frequent therefore {C, D} : 5 is frequent

{A} : 3 is not frequent therefore {A, D} : 3 is not frequent

Two Main Algorithms

• Candidate Generation- Apriori - Eclat

• Pattern Growth- FP-Growth- TopK FP-Growth [GLC 1.6]

Lots of Generalizations

Source: http://www.philippe-fournier-viger.com/spmf/

Candidate Generation

Two phases1. Candidate generation.2. Candidate filtering.

Exploit Apriori Principle!

{AB} : ? {AC} : ? {AD} : ? {BC} : ? {BD} : ? {CD} : ?

{A} : ? {B} : ? {C} : ? {D} : ?

{ } : 6

{ABC} : ? {ABD} : ? {ACD} : ? {BCD} : ?

{B, C, D}

{A, C, D}

{A, B, C, D}

{A, D}

{B, C, D}

{AB} : ? {AC} : ? {AD} : ? {BC} : ? {BD} : ? {CD} : ?

{A} : ? {B} : ? {C} : ? {D} : ?

{ } : 6

{ABC} : ? {ABD} : ? {ACD} : ? {BCD} : ?

{B, C, D}

{A, C, D}

{A, B, C, D}

{A, D}

{B, C, D}

{AB} : ? {AC} : ? {AD} : ? {BC} : ? {BD} : ? {CD} : ?

{A} : 3 {B} : 4 {C} : 5 {D} : 6

{ } : 6

{ABC} : ? {ABD} : ? {ACD} : ? {BCD} : ?

{B, C, D}

{A, C, D}

{A, B, C, D}

{A, D}

{B, C, D}

{AB} : ? {AC} : ? {AD} : ? {BC} : ? {BD} : ? {CD} : ?

{A} : 3 {B} : 4 {C} : 5 {D} : 6

{ } : 6

{ABC} : ? {ABD} : ? {ACD} : ? {BCD} : ?

{B, C, D}

{A, C, D}

{A, B, C, D}

{A, D}

{B, C, D}

{AB} : ? {AC} : ? {AD} : ? {BC} : ? {BD} : ? {CD} : ?

{A} : 3 {B} : 4 {C} : 5 {D} : 6

{ } : 6

{ABC} : ? {ABD} : ? {ACD} : ? {BCD} : ?

{B, C, D}

{A, C, D}

{A, B, C, D}

{A, D}

{B, C, D}

{AB} : ? {AC} : ? {AD} : ? {BC} : 4 {BD} : 4 {CD} : 5

{A} : 3 {B} : 4 {C} : 5 {D} : 6

{ } : 6

{ABC} : ? {ABD} : ? {ACD} : ? {BCD} : ?

{B, C, D}

{A, C, D}

{A, B, C, D}

{A, D}

{B, C, D}

{AB} : ? {AC} : ? {AD} : ? {BC} : 4 {BD} : 4 {CD} : 5

{A} : 3 {B} : 4 {C} : 5 {D} : 6

{ } : 6

{ABC} : ? {ABD} : ? {ACD} : ? {BCD} : ?

{B, C, D}

{A, C, D}

{A, B, C, D}

{A, D}

{B, C, D}

Pattern Growth

Two phases1. Candidate filtering2. Conditional database constructions.

Avoid full scans over the data & large candidate sets!

Pattern Growth - Depth First {B, C, D}

{A, C, D}

{B, D}

{A, C, D}

{B, C, D}

{A, B, D}

{AB} : 1 {AC} : 2 {AD} : 3 {BD} : 4 {CD} : 4

{A} : 3 {B} : 4 {C} : 4 {D} : 6

{ } : 6

{ABC} : 0 {ABD} : 1 {ACD} : 2 {BCD} : 2

{BC} : 2

Pattern Growth - Preprocessing {B, C, D}

{A, C, D}

{B, D}

{A, C, D}

{B, C, D}

{A, B, D}

{A} : 3 {B} : 4 {C} : 4 {D} : 6

{ } : 6

{A, C, D}

{B, D}

{A, C, D}

{B, C, D}

{A, B, D}

{AB} : ? {AC} : ? {AD} : ? {BD} : ? {CD} : ?

{A} : ? {B} : ? {C} : ? {D} : ?

{ } : 6

{ABC} : ? {ABD} : ? {ACD} : ? {BCD} : ?

{BC} : ?

{A, C, D}

{B, D}

{A, C, D}

{B, C, D}

{A, B, D}

{AB} : ? {AC} : ? {AD} : ? {BD} : ? {CD} : ?

{A} : 3 {B} : 4 {C} : 4 {D} : 6

{ } : 6

{ABC} : ? {ABD} : ? {ACD} : ? {BCD} : ?

{BC} : ?

{A, C, D}

{B, D}

{A, C, D}

{B, C, D}

{A, B, D}

{AB} : ? {AC} : ? {AD} : ? {BD} : ? {CD} : ?

{A} : 3 {B} : 4 {C} : 4 {D} : 6

{ } : 6

{ABC} : ? {ABD} : ? {ACD} : ? {BCD} : ?

{BC} : ?

{A, C, D}

{B, D}

{A, C, D}

{B, C, D}

{A, B, D}

{AB} : X {AC} : ? {AD} : ? {BD} : 4 {CD} : ?

{A} : 3 {B} : 4 {C} : 4 {D} : 6

{ } : 6

{ABC} : ? {ABD} : ? {ACD} : ? {BCD} : ?

{BC} : 2

Pattern Growth

{B} : 4

{ } : 6

Call: Growth(db = DB{}, item = B, freq = {B,C,D})

{B, C, D}

{A, C, D}

{B, D}

{A, C, D}

{B, C, D}

{A, B, D}

Pattern Growth

{B} : 4

{ } : 6

Conditional Database ConstructionDB{} DB{B}

{B, C, D}

{A, C, D}

{B, D}

{A, C, D}

{B, C, D}

{A, B, D}

{C, D}

Pattern Growth

{B} : 4

{ } : 6

Candidate FilteringDB{B}

{C, D}

{D} : 4

{C} : 2

{B, C, D}

{A, C, D}

{B, D}

{A, C, D}

{B, C, D}

{A, B, D}

Add {BD} as frequent

Pattern Growth - Depth First {C, D}

{C, D}

{AB} : X {AC} : ? {AD} : ? {BD} : 4 {CD} : ?

{A} : 3 {B} : 4 {C} : 4 {D} : 6

{ } : 6

{ABC} : ? {ABD} : ? {ACD} : ? {BCD} : ?

{BC} : 2

Pattern Growth

Recurse: Growth(db = DB{B}, item = D, freq = {D})DB{B}

{C, D}

{B} : 4

{ } : 6

{BD} : 4

DB{BD}

Pattern Growth - Depth First

{AB} : X {AC} : ? {AD} : ? {BD} : 4 {CD} : ?

{A} : 3 {B} : 4 {C} : 4 {D} : 6

{ } : 6

{ABC} : ? {ABD} : X {ACD} : ? {BCD} : X

{BC} : 2

Compare & Constrast

• Candidate Generation + Better than brute force + Filters candidate sets - Multiple passes over the data

• Pattern Growth + Fewer passes over the data + Space efficient.

Compare & Constrast

• Candidate Generation + Better than brute force + Filters candidate sets - Multiple passes over the data

• Pattern Growth + Fewer passes over the data + Space efficient.

Better choice

FP-Tree CompressionFigures From Florian Verhein’s Slides on FP-Growth

FP-Growth AlgorithmFigures From Florian Verhein’s Slides on FP-Growth

Two phases1. Candidate filtering.2. Conditional database constructions.

TopK FP-Growth Algorithm

Similar to FP-Growth1. Dynamically raise min_support.2. Estimates of min_support greatly help.

Performance on Website Logs

• 1.5m events• 84k sessions• 3k unique ids

Future Work

Distributed FP-Growth

Partition database on item-ids.

Database

Bags + Sequences

Itemset: {Item}

Bags: {Item: quantity}

Sequences : (item)

Model built, now what?

Creating a model pipeline

Ingest Transform Model Deploy Unstructured Data

exploration

modeling

Data Science Workflow

Ingest Transform Model Deploy

Summary

Log Data Mining

≠Rocket Science

• FP-Growth for finding frequent patterns.• Find rules from patterns to make predictions.• Extract features for useful ML in pattern space.

SELECT questions FROM audienceWHERE difficulty == “Easy”

Thanks!

Extra Slides

Pattern Mining: Extracting Value from Log Data

Technology

Transcript of Pattern Mining: Extracting Value from Log Data

New RITTER Dental Instruments · 2014. 3. 19. · Extracting Forcep american pattern FOR0120151 Extracting Forcep american pattern FOR0120151S Extracting Forcep american pattern FOR0012017

Efï¬cient Frequent Pattern Mining on Web Log Data

Pattern Recognition in Physics · Pattern Recognition in Physics The Hum: log-normal distribution and planetary–solar resonance R. Tattersall University of Leeds, Leeds, UK Correspondence

rvanzari@magazinulmedicamagazinulmedica.ro/media/brosuri/Dental.pdf · Extracting Forceps - English Pattern 1002 Fig 13 lower premolars 1003 Fig 17 upper molars, right 1001 Fig 8

Trace, Log, Text, Narrative...Trace, Log, Text, Narrative An Analysis Pattern Reference for Data Mining, Diagnostics, Anomaly Detection Fourth Edition ... Motivic Trace 189. 10 N 190

Improvement of Log Pattern Extracting Algorithm Using Text ...

Pattern: 11 in log cabin 002 Pattern: bbp flower sweep 003 ... › files › club › ...Pattern: 11 in log cabin 001 Archive: Obsidian September 2020 Pattern: 11 in log cabin 002

PRODUCT RANGE Brødbæk & Co. - brodbaek.dk...Log sorting Cutting pattern sorting Log intake Butt reduction Debarking Log scanning 2 Log Handling Brødbæk & Co. produces highly automated

Chasing Rainbows Quilt Pattern - The Village …€¢ Craftsy - Pattern amendments for TVH kit: The original pattern calls for 27 different fabrics for the log cabins. For The Village

Efﬁcient Frequent Pattern Mining on Web Log Dataresearchbank.rmit.edu.au/eserv/rmit:1481/n2004000392.pdf · Efﬁcient Frequent Pattern Mining on Web Log Data Liping Sun RMIT University

Perfumes Extracting

Extracting Certainty from Uncertainty: Transductive …papers.nips.cc/paper/5607-extracting-certainty-from...Extracting Certainty from Uncertainty: Transductive Pairwise Classiﬁcation

Non-redundant Sequential Association Rule Mining based on ...eprints.qut.edu.au/46166/1/Hao_Zang_Thesis.pdf · Sequential pattern mining, which is the process of extracting certain

Extracting Minerals.pdf

1.Log Generation and Storage: · Web viewreading a text-based log file that contains 10 comma-separated values per line and extracting the 10 values from each line. – Event filtering

Efﬁcient Frequent Pattern Mining on Web Log Data · 2016. 5. 4. · Efﬁcient Frequent Pattern Mining on Web Log Data Liping Sun RMIT University Xiuzhen Zhang RMIT University Paper

Language Combinatorics: A Sentence Pattern Extraction ... · for extracting from sentences more sophisticated patterns than n-grams. In this architecture a “sentence pattern”

DEEP LEARNING FOR EXTRACTING WATER BODY FROM … · 2018. 10. 11. · DEEP LEARNING FOR EXTRACTING WATER BODY 1915 extracted. To extract water more precisely, pattern recognition

casablanca.pkcasablanca.pk/surgical/dental.pdf · DENTAL CATALOGUE 2009-2010 CASABLANCA . Extracting Forceps CASABLANCA Er.sh Patten . Extracting Forceps ... Wisdom Teeth Extracting

Leveraging Pattern Semantics for Extracting Entities in ...yangli/paper/ · Leveraging Pattern Semantics for Extracting Entities in ... Mountain View, CA, USA ... end framework for