S. Sumathi, S.N. Sivanandam Introduction to Data Mining ...978-3-540-34351-6/1 · 1.2 Data...

22
Introduction to Data Mining and its Applications S. Sumathi, S.N. Sivanandam

Transcript of S. Sumathi, S.N. Sivanandam Introduction to Data Mining ...978-3-540-34351-6/1 · 1.2 Data...

Introduction to Data Mining and its ApplicationsS. Sumathi, S.N. Sivanandam

Editor-in-chief Prof. Janusz Kacprzyk Systems Research Institute Polish Academy of Sciences ul. Newelska 6 01-447 Warsaw Poland E-mail: [email protected]

Further volumes of this series can be found on our homepage: springer.com

Vol. 12. Jonathan Lawry Modelling and Reasoning with Vague Con-cepts, 2006 ISBN 0-387-29056-7

Vol. 13. Nadia Nedjah, Ajith Abraham, Luiza de Macedo Mourelle (Eds.) Genetic Systems Programming, 2006 ISBN 3-540-29849-5

Vol. 14. Spiros Sirmakessis (Ed.)

ISBN 3-540-30605-6

Vol. 15. Lei Zhi Chen, Sing Kiong Nguang, Xiao Dong Chen Modelling and Optimization of Biotechnological Processes, 2006 ISBN 3-540-30634-X

Vol. 16. Yaochu Jin (Ed.) Multi-Objective Machine Learning, 2006 ISBN 3-540-30676-5

Vol. 17. Te-Ming Huang, Vojislav Kecman, Ivica Kopriva Kernel Based Algorithms for Mining Huge Data Sets, 2006 ISBN 3-540-31681-7

Vol. 18. Chang Wook Ahn Advances in Evolutionary Algorithms, 2006 ISBN 3-540-31758-9

Vol. 19. Ajita Ichalkaranje, Nikhil Ichalkaranje, Lakhmi C. Jain (Eds.) Intelligent Paradigms for Assistive and

ISBN 3-540-31762-7

Adaptive and Personalized Semantic Web, 2006

Vol. 27. Vassilis G. KaburlasosTowards a Unified Modeling and Knowledge-

ISBN 3-540-34169-2

Vol. 21. C ndida Ferreira

Preventive Healthcare, 2006

Modeling by an Artificial Intelligence, 2006 ISBN 3-540-32796-7

Vol. 22. N. Nedjah, E. Alba, L. de MacedoMourelle (Eds.) Parallel Evolutionary Computations, 2006 ISBN 3-540-32837-8

Vol. 23. M. Last, Z. Volkovich, A. Kandel (Eds.)Algorithmic Techniques for Data Mining, 2006 ISBN 3-540-33880-2

Vol. 24. Alakananda Bhattacharya, Amit Konar,Ajit K. Mandal

2006

Victor Mitrana (Eds.)Recent Advances in Formal Languages and Applications, 2006 ISBN 3-540-33460-2

2006 (Eds.)

Vol. 25. Zolt n sik, Carlos Mart n-Vide,

â

á É

Gene Expression on Programming: Mathematical

Parallel and Distributed Logic Programming,

Vol. 26. Nadia Nedjah, Luiza de Macedo Mourelle

Swarm Intelligent Systems, ISBN 3-540-33868-3

ISBN 3-540-33458-0

Representation based on Lattice Theory, 2006

í

2006 Vol. 28. Brahim Chaib-draa, J rg P. M ller (Eds.)

ISBN 3-540-33875-6

ö üMultiagent based Supply Chain Management,

Studies in Computational Intelligence, Volume 29

Vol. 20. Wojciech Penczek, Agata Półrola Advances in Verification of Time Petri Nets and Timed Automata, 2006 ISBN 3-540-32869-6

2006 ISBN 3-540-34350-4

Introduction to Data Mining and its Applications,Vol. 29. S. Sumathi, S.N. Sivanandam

123

Introduction to DataMining and its Applications

S.N. Sivanandam

With 108 Figures and 23 Tables

S. Sumathi

ISSN electronic edition: 1860-9503

This work is subject to copyright. All rights are reserved, whether the whole or part of the mate-rial is concerned, specifically the rights of translation, reprinting, reuse of illustrations, recita-tion, broadcasting, reproduction on microfilm or in any other way, and storage in data banks. Duplication of this publication or parts thereof is permitted only under the provisions of the German Copyright Law of September 9, 1965, in its current version, and permission for use must always be obtained from Springer-Verlag. Violations are liable to prosecution under the German Copyright Law. Springer is a part of Springer Science+Business Media springer.com © Springer-Verlag Berlin Heidelberg 2006 The use of general descriptive names, registered names, trademarks, etc. in this publication does not imply, even in the absence of a specific statement, that such names are exempt from the relevant protective laws and regulations and therefore free for general use.

5 4 3 2 1 0

Cover design: deblik, Berlin

ISSN print edition: 1860-949X

Typesetting by the authors and SPi

Library of Congress Control Number: 2006926723

ISBN-10 3-540-34350-4 Springer Berlin Heidelberg New York ISBN-13 978-3-540-34350-9 Springer Berlin Heidelberg New York

Printed on acid-free paper SPIN: 11671213

Assistant ProfessorDepartment of Electrical and Electronics Engineering PSG College of TechnologyCoimbatore 641 004Tamil Nadu, India

PSG College of Technology

PeelameduCoimbatore 641 004

P.O. Box 1611

Tamil Nadu, India

89/SPi

Dr. S.N. Sivanandam

Department of Computer Science and Engineering Professor and Head

Dr. S. Sumathi

Contents

1 Introduction to Data Mining Principles . . . . . . . . . . . . . . . . . . . . 11.1 Data Mining and Knowledge Discovery . . . . . . . . . . . . . . . . . . . . 21.2 Data Warehousing and Data Mining - Overview . . . . . . . . . . . . 5

1.2.1 Data Warehousing Overview . . . . . . . . . . . . . . . . . . . . . 71.2.2 Concept of Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201.4 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2 Data Warehousing, Data Mining, and OLAP . . . . . . . . . . . . . . . 212.1 Data Mining Research Opportunities and Challenges . . . . . . . . 23

2.1.1 Recent Research Achievements . . . . . . . . . . . . . . . . . . . 252.1.2 Data Mining Application Areas . . . . . . . . . . . . . . . . . . . 272.1.3 Success Stories . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.1.4 Trends that Affect Data Mining . . . . . . . . . . . . . . . . . . 302.1.5 Research Challenges . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312.1.6 Test Beds and Infrastructure . . . . . . . . . . . . . . . . . . . . . 332.1.7 Findings and Recommendations . . . . . . . . . . . . . . . . . . 33

2.2 Evolving Data Mining into Solutions for Insights . . . . . . . . . . . 352.2.1 Trends and Challenges . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.3 Knowledge Extraction Through Data Mining . . . . . . . . . . . . . . 372.3.1 Data Mining Process . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392.3.2 Operational Aspects . . . . . . . . . . . . . . . . . . . . . . . . . . . . 502.3.3 The Need and Opportunity for Data Mining . . . . . . . 512.3.4 Data Mining Tools and Techniques . . . . . . . . . . . . . . . . 522.3.5 Common Applications of Data Mining . . . . . . . . . . . . . 552.3.6 What about Data Mining in Power Systems? . . . . . . . 56

2.4 Data Warehousing and OLAP . . . . . . . . . . . . . . . . . . . . . . . . . . . 572.4.1 Data Warehousing for Actuaries . . . . . . . . . . . . . . . . . . 572.4.2 Data Warehouse Components . . . . . . . . . . . . . . . . . . . . 582.4.3 Management Information . . . . . . . . . . . . . . . . . . . . . . . . 592.4.4 Profit Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

VI Contents

2.4.5 Asset Liability Management . . . . . . . . . . . . . . . . . . . . . . 602.5 Data Mining and OLAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

2.5.1 Research . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 612.5.2 Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

2.6 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 722.7 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

3 Data Marts and Data Warehouse . . . . . . . . . . . . . . . . . . . . . . . . . . 753.1 Data Marts, Data Warehouse, and OLAP . . . . . . . . . . . . . . . . . 77

3.1.1 Business Process Re-engineering . . . . . . . . . . . . . . . . . . 773.1.2 Real-World Usage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 783.1.3 Business Intelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 783.1.4 Different Data Structures . . . . . . . . . . . . . . . . . . . . . . . . 823.1.5 Different Users . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 843.1.6 Technological Foundation . . . . . . . . . . . . . . . . . . . . . . . . 863.1.7 Data Warehouse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 873.1.8 Informix Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . 873.1.9 Building the Data Warehouse/Data Mart

Environment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 883.1.10 History . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 913.1.11 Nondetailed Data in the Enterprise Data Warehouse 923.1.12 Sharing Data Among Data Marts . . . . . . . . . . . . . . . . . 933.1.13 The Manufacturing Process . . . . . . . . . . . . . . . . . . . . . . 933.1.14 Subdata Marts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 953.1.15 Refreshment Cycles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 953.1.16 External Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 963.1.17 Operational Data Stores (ODS) and Data Marts . . . . 973.1.18 Distributed Metadata . . . . . . . . . . . . . . . . . . . . . . . . . . . 983.1.19 Managing the Warehouse Environment . . . . . . . . . . . . 1003.1.20 OLAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

3.2 Data Warehousing for Healthcare . . . . . . . . . . . . . . . . . . . . . . . . 1073.2.1 A Data Warehousing Perspective for Healthcare . . . . 1073.2.2 Adding Value to your Current Data . . . . . . . . . . . . . . . 1073.2.3 Enhance Customer Relationship Management . . . . . . 1083.2.4 Improve Provider Management . . . . . . . . . . . . . . . . . . . 1093.2.5 Reduce Fraud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1093.2.6 Prepare for HEDIS Reporting . . . . . . . . . . . . . . . . . . . . 1103.2.7 Disease Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1103.2.8 What to Expect When Beginning a Data

Warehouse Implementation . . . . . . . . . . . . . . . . . . . . . . 1103.2.9 Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

3.3 Data Warehousing in the Telecommunications Industry . . . . . 1123.3.1 Implementing One View . . . . . . . . . . . . . . . . . . . . . . . . . 1183.3.2 Business Benefit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1203.3.3 A Holistic Approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

Contents VII

3.4 The Telecommunications Lifecycle . . . . . . . . . . . . . . . . . . . . . . . . 1223.4.1 Current Enterprise Environment . . . . . . . . . . . . . . . . . . 1223.4.2 Getting to the Root of the Problem . . . . . . . . . . . . . . . 1233.4.3 The Telecommunications Lifecycle . . . . . . . . . . . . . . . . 1253.4.4 Telecom Administrative Outsourcing . . . . . . . . . . . . . . 1273.4.5 Choose your Outsourcing Partner Wisely . . . . . . . . . . 1273.4.6 Security in Web-Enabled Data Warehouse . . . . . . . . . 128

3.5 Security Issues in Data Warehouse . . . . . . . . . . . . . . . . . . . . . . . . 1293.5.1 Performance vs Security . . . . . . . . . . . . . . . . . . . . . . . . . 1303.5.2 An Ideal Security Model . . . . . . . . . . . . . . . . . . . . . . . . . 1313.5.3 Real-World Implementation . . . . . . . . . . . . . . . . . . . . . . 1313.5.4 Proposed Security Model . . . . . . . . . . . . . . . . . . . . . . . . 136

3.6 Data Warehousing: To Buy or To Build a FundamentalChoice for Insurers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1403.6.1 Executive Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1403.6.2 The Fundamental Choice . . . . . . . . . . . . . . . . . . . . . . . . 1403.6.3 Analyzing the Strategic Value of Data Warehousing . 1413.6.4 Addressing your Concerns . . . . . . . . . . . . . . . . . . . . . . . 1423.6.5 Introducing FellowDSS

TM. . . . . . . . . . . . . . . . . . . . . . . 146

3.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1483.8 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

4 Evolution and Scaling of Data Mining Algorithms . . . . . . . . . . 1514.1 Data-Driven Evolution of Data Mining Algorithms . . . . . . . . . 152

4.1.1 Transaction Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1534.1.2 Data Streams . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1544.1.3 Graph and Text-Based data . . . . . . . . . . . . . . . . . . . . . . 1554.1.4 Scientific Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

4.2 Scaling Mining Algorithms to Large DataBases . . . . . . . . . . . . 1574.2.1 Prediction Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1574.2.2 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1604.2.3 Association Rules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1614.2.4 From Incremental Model Maintenance to Streaming

Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1624.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1634.4 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

5 Emerging Trends and Applications of Data Mining . . . . . . . . . 1655.1 Emerging Trends in Business Analytics . . . . . . . . . . . . . . . . . . . 166

5.1.1 Business Users . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1665.1.2 The Driving Force . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

5.2 Business Applications of Data Mining . . . . . . . . . . . . . . . . . . . . . 1705.3 Emerging Scientific Applications in Data Mining . . . . . . . . . . . 177

5.3.1 Biomedical Engineering . . . . . . . . . . . . . . . . . . . . . . . . . 1775.3.2 Telecommunications . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

VIII Contents

5.3.3 Geospatial Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1805.3.4 Climate Data and the Earth’s Ecosystems . . . . . . . . . 181

5.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1825.5 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

6 Data Mining Trends and Knowledge Discovery . . . . . . . . . . . . . 1856.1 Getting a Handle on the Problem . . . . . . . . . . . . . . . . . . . . . . . . 1866.2 KDD and Data Mining: Background . . . . . . . . . . . . . . . . . . . . . . 1876.3 Related Fields . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1916.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1946.5 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194

7 Data Mining Tasks, Techniques, and Applications . . . . . . . . . . 1957.1 Reality Check for Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . 196

7.1.1 Data Mining Basics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1967.1.2 The Data Mining Process . . . . . . . . . . . . . . . . . . . . . . . . 1977.1.3 Data Mining Operations . . . . . . . . . . . . . . . . . . . . . . . . . 1997.1.4 Discovery-Driven Data Mining Techniques: . . . . . . . . . 201

7.2 Data Mining: Tasks, Techniques, and Applications . . . . . . . . . . 2047.2.1 Data Mining Tasks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2047.2.2 Data Mining Techniques . . . . . . . . . . . . . . . . . . . . . . . . . 2067.2.3 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2097.2.4 Data Mining Applications – Survey . . . . . . . . . . . . . . . 210

7.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2157.4 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216

8 Data Mining: an Introduction – Case Study . . . . . . . . . . . . . . . . 2178.1 The Data Flood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2188.2 Data Holds Knowledge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218

8.2.1 Decisions From the Data . . . . . . . . . . . . . . . . . . . . . . . . 2198.3 Data Mining: A New Approach to Information Overload . . . . 219

8.3.1 Finding Patterns in Data, which we can use toBetter, Conduct the Business . . . . . . . . . . . . . . . . . . . . 219

8.3.2 Data Mining can be Breakthrough Technology . . . . . 2208.3.3 Data Mining Process in an Information System . . . . . 2218.3.4 Characteristics of Data Mining . . . . . . . . . . . . . . . . . . . 2228.3.5 Data Mining Technology . . . . . . . . . . . . . . . . . . . . . . . . . 2238.3.6 Technology Limitations . . . . . . . . . . . . . . . . . . . . . . . . . . 2248.3.7 BBC Case Study: The Importance of Business

Knowledge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2258.3.8 Some Medical and Pharmaceutical Applications of

Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2288.3.9 Why Does Data Mining Work? . . . . . . . . . . . . . . . . . . . 228

8.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2298.5 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229

Contents IX

9 Data Mining & KDD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2319.1 Data Mining and KDD – Overview . . . . . . . . . . . . . . . . . . . . . . . 232

9.1.1 The Idea of Knowledge Discovery in Databases(KDD) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234

9.1.2 How Data Mining Relates to KDD . . . . . . . . . . . . . . . . 2359.1.3 The Data Mining Future . . . . . . . . . . . . . . . . . . . . . . . . 237

9.2 Data Mining: The Two Cultures . . . . . . . . . . . . . . . . . . . . . . . . . 2389.2.1 The Central Issue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2389.2.2 What are Data Mining and the Data Mining Process?2399.2.3 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2399.2.4 Impact of Implementation . . . . . . . . . . . . . . . . . . . . . . . 240

9.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2419.4 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241

10 Statistical Themes and Lessons for Data Mining . . . . . . . . . . . 24310.1 Data Mining and Official Statistics . . . . . . . . . . . . . . . . . . . . . . . 244

10.1.1 What is New in Data Mining is: . . . . . . . . . . . . . . . . . . 24410.1.2 Goals and Tools of Data Mining . . . . . . . . . . . . . . . . . . 24410.1.3 New Mines: Texts, Web, Symbolic Data? . . . . . . . . . . 24510.1.4 Applications in Official Statistics . . . . . . . . . . . . . . . . . 246

10.2 Statistical Themes and Lessons for Data Mining . . . . . . . . . . . . 24610.2.1 An Overview of Statistical Science . . . . . . . . . . . . . . . . 24810.2.2 Is Data Mining “Statistical Deja Vu” (All Over

Again)? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25210.2.3 Characterizing Uncertainty . . . . . . . . . . . . . . . . . . . . . . 25410.2.4 What Can Go Wrong, Will Go Wrong . . . . . . . . . . . . . 25610.2.5 Symbiosis in Statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . 261

10.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26210.4 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263

11 Theoretical Frameworks for Data Mining . . . . . . . . . . . . . . . . . . . 26511.1 Two Simple Approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266

11.1.1 Probabilistic Approach . . . . . . . . . . . . . . . . . . . . . . . . . . 26711.1.2 Data Compression Approach . . . . . . . . . . . . . . . . . . . . . 268

11.2 Microeconomic View of Data Mining . . . . . . . . . . . . . . . . . . . . . . 26811.3 Inductive Databases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26911.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27011.5 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270

12 Major and Privacy Issues in Data Miningand Knowledge Discovery . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27112.1 Major Issues in Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27212.2 Privacy Issues in Knowledge Discovery and Data Mining . . . . 275

12.2.1 Revitalized Privacy Threats . . . . . . . . . . . . . . . . . . . . . . 27712.2.2 New Privacy Threats . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279

X Contents

12.2.3 Possible Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28112.3 The OECD Personal Privacy Guidelines . . . . . . . . . . . . . . . . . . . 283

12.3.1 Risks Privacy and the Principles of Data Protection . 28412.3.2 The OECD Guidelines and Knowledge Discovery . . . 28612.3.3 Knowledge Discovery about Groups . . . . . . . . . . . . . . . 28812.3.4 Legal Systems and other Guidelines . . . . . . . . . . . . . . . 289

12.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29012.5 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291

13 Active Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29313.1 Shape Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29513.2 Queries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29713.3 Triggers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299

13.3.1 Wave Execution Semantics . . . . . . . . . . . . . . . . . . . . . . . 30013.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30213.5 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302

14 Decomposition in Data Mining - A Case Study . . . . . . . . . . . . . 30314.1 Decomposition in the Literature . . . . . . . . . . . . . . . . . . . . . . . . . . 304

14.1.1 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30414.2 Typology of Decomposition in Data Mining . . . . . . . . . . . . . . . . 30514.3 Hybrid Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30614.4 Knowledge Structuring . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30914.5 Rule-Structuring Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31014.6 Decision Tables, Maps, and Atlases . . . . . . . . . . . . . . . . . . . . . . . 31114.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31214.8 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313

15 Data Mining System Products and Research Prototypes . . . 31515.1 How to Choose a Data Mining System . . . . . . . . . . . . . . . . . . . . 31615.2 Examples of Commercial Data Mining Systems . . . . . . . . . . . . 31815.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31915.4 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320

16 Data Mining in Customer Value and CustomerRelationship Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32116.1 Data Mining: A Concept of Customer Relationship Marketing322

16.1.1 Traditional Marketing Research . . . . . . . . . . . . . . . . . . 32216.1.2 Relationship Marketing – the Modern View . . . . . . . . 32316.1.3 Understanding the Background of Data Mining . . . . . 32416.1.4 Continuous Relationship Marketing . . . . . . . . . . . . . . . 32616.1.5 Developing the Data Mining Project . . . . . . . . . . . . . . 32716.1.6 Further Research: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328

16.2 Introduction to Customer Acquisition . . . . . . . . . . . . . . . . . . . . . 328

Contents XI

16.2.1 How Data Mining and Statistical Modeling ChangeThings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329

16.2.2 Defining Some Key Acquisition Concepts . . . . . . . . . . 32916.2.3 It all Begins with the Data . . . . . . . . . . . . . . . . . . . . . . 33116.2.4 Test Campaigns . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33216.2.5 Evaluating Test Campaign Responses . . . . . . . . . . . . . 33316.2.6 Building Data Mining Models Using Response

Behaviors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33316.3 Customer Relationship Management (CRM) . . . . . . . . . . . . . . . 335

16.3.1 Defining CRM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33516.3.2 Integrating Customer Data into CRM Strategy . . . . . 33516.3.3 Strategic Data Analysis for CRM . . . . . . . . . . . . . . . . . 33516.3.4 Data Warehousing and Data Mining . . . . . . . . . . . . . . 33716.3.5 Sharing Customer Data Within the Value Chain . . . . 33816.3.6 CVM – Customer Value Management . . . . . . . . . . . . . 33916.3.7 Issues in Global Customer Management . . . . . . . . . . . 34016.3.8 Changing Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34116.3.9 Changing Customer Management - A Strategic View 342

16.4 Data Mining and Customer Value and Relationships . . . . . . . . 34816.4.1 What is Data Mining? . . . . . . . . . . . . . . . . . . . . . . . . . . 34916.4.2 Relevance to a Business Process . . . . . . . . . . . . . . . . . . 35116.4.3 Data Mining and Customer Relationship

Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35216.4.4 How Data Mining Helps Database Marketing . . . . . . . 353

16.5 CRM: Technologies and Applications . . . . . . . . . . . . . . . . . . . . . 35616.5.1 What is CRM ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35716.5.2 What is CRM Used for? . . . . . . . . . . . . . . . . . . . . . . . . . 35716.5.3 Consequences of Implementation of CRM . . . . . . . . . . 35916.5.4 Which Technologies are Used in CRM? . . . . . . . . . . . . 36016.5.5 Business Rules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36016.5.6 Data Warehousing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36016.5.7 Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36116.5.8 Real-Time Information Analysis . . . . . . . . . . . . . . . . . . 36216.5.9 Reporting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36316.5.10 Web Self-Service . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36316.5.11 Market Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36416.5.12 Connection between ERP and CRM . . . . . . . . . . . . . . 36516.5.13 Benefits of CRM to the Enterprise . . . . . . . . . . . . . . . . 36716.5.14 Future of CRM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367

16.6 Data Management in Analytical Customer RelationshipManagement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36916.6.1 The CRM Process Model . . . . . . . . . . . . . . . . . . . . . . . . 37016.6.2 Data Sources for Analytical CRM . . . . . . . . . . . . . . . . 37416.6.3 Data Integration in Analytical CRM . . . . . . . . . . . . . . 37616.6.4 Further Research . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384

XII Contents

16.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38516.8 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385

17 Data Mining in Business . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38717.1 Business Focus on Data Engineering . . . . . . . . . . . . . . . . . . . . . . 38817.2 Data Mining for Business Problems . . . . . . . . . . . . . . . . . . . . . . . 39017.3 Data Mining and Business Intelligence . . . . . . . . . . . . . . . . . . . . 39617.4 Data Mining in Business - Case Studies . . . . . . . . . . . . . . . . . . . 399

18 Data Mining in Sales Marketing and Finance . . . . . . . . . . . . . . 41118.1 Data Mining can Bring Pinpoint Accuracy to Sales . . . . . . . . . 41318.2 From Data Mining to Database Marketing . . . . . . . . . . . . . . . . . 414

18.2.1 Data Mining vs. Database Marketing . . . . . . . . . . . . . . 41418.2.2 What Exactly is Data Mining? . . . . . . . . . . . . . . . . . . . 41518.2.3 Who is Developing the Technology? . . . . . . . . . . . . . . . 41618.2.4 Turning Business Problems into Business Solutions . 41718.2.5 A Possible Scenario for the Future of Data Mining . . 419

18.3 Data Mining for Marketing Decisions . . . . . . . . . . . . . . . . . . . . . 41918.3.1 Agent-Based Information Retrieval Systems . . . . . . . . 42118.3.2 Applications of Data Mining in Marketing . . . . . . . . . 424

18.4 Increasing Customer Value by Integrating Data Mining . . . . . 42518.4.1 Some Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42518.4.2 Data Mining Defined . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42618.4.3 The Purpose of Data Mining . . . . . . . . . . . . . . . . . . . . . 42718.4.4 Scoring the Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42718.4.5 The Role of Campaign Management Software . . . . . . 42718.4.6 The Integrated Data Mining and Campaign

Management Process . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42918.4.7 Data Mining and Campaign Management in the

Real World . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43018.4.8 The Benefits of Integrating Data Mining and

Campaign Management . . . . . . . . . . . . . . . . . . . . . . . . . 43118.5 Completing a Solution for Market-Basket

Analysis – Case Study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43118.5.1 Business Problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43218.5.2 Case Studies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43218.5.3 Data Mining Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . 43318.5.4 Recommendations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434

18.6 Data Mining in Finance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43518.7 Data Mining for Financial Data Analysis . . . . . . . . . . . . . . . . . . 43618.8 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43718.9 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 438

Contents XIII

19 Banking and Commercial Applications . . . . . . . . . . . . . . . . . . . . . 43919.1 Bringing Data Mining to the Forefront of Business Intelligence44119.2 Distributed Data Mining Through a Centralized Solution –

A Case Study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44219.2.1 Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442

19.3 Data Mining in Commercial Applications . . . . . . . . . . . . . . . . . . 44419.3.1 Data Cleaning and Data Preparation . . . . . . . . . . . . . . 44419.3.2 Involving Business Users in the KDD Process . . . . . . 44519.3.3 Business Challenges for the KDD Process . . . . . . . . . . 446

19.4 Decision Support Systems – Case Study . . . . . . . . . . . . . . . . . . . 44619.4.1 A Functional Perspective . . . . . . . . . . . . . . . . . . . . . . . . 44719.4.2 Decisions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 450

19.5 Keys to the Commercial Success of Data Mining – CaseStudies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45219.5.1 Case Study 1: Commercial Success Criteria . . . . . . . . 45219.5.2 Case Study 2: A Service Provider’s View . . . . . . . . . . 454

19.6 Data Mining Supports E-Commerce . . . . . . . . . . . . . . . . . . . . . . 45819.6.1 Data Mining Application Possibilities in Web Stores 459

19.7 Data Mining for the Retail Industry . . . . . . . . . . . . . . . . . . . . . . 46219.8 Business Intelligence and Retailing . . . . . . . . . . . . . . . . . . . . . . . 463

19.8.1 Applications of Data Warehousing and DataMining in the Retail INDUSTRY . . . . . . . . . . . . . . . . . 463

19.8.2 Key Trends in the Retail Industry . . . . . . . . . . . . . . . . 46419.8.3 Business Intelligence Solutions for the Retail Industry465

19.9 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47119.10 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472

20 Data Mining for Insurance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47320.1 Insurance Underwriting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474

20.1.1 Data Mining and Insurance: Improving theUnderwriting Decision-Making Process . . . . . . . . . . . . 475

20.1.2 What does an Insurance Underwriter Do? . . . . . . . . . 47920.1.3 How is the Underwriting Function Changing? . . . . . . 48520.1.4 How can Data Mining Help Underwriters Make

Better Business Decisions . . . . . . . . . . . . . . . . . . . . . . . . 48520.2 Business Intelligence and Insurance . . . . . . . . . . . . . . . . . . . . . . . 487

20.2.1 Insurance Industry Overview and Major Trends . . . . 48720.2.2 Business Intelligence and the Insurance Value Chain 48820.2.3 Customer Relationship Management . . . . . . . . . . . . . . 48920.2.4 Channel Management . . . . . . . . . . . . . . . . . . . . . . . . . . . 49120.2.5 Actuarial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49320.2.6 Underwriting and Policy Management . . . . . . . . . . . . . 49320.2.7 Claims Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49420.2.8 Finance and Asset Management . . . . . . . . . . . . . . . . . . 49520.2.9 Human Resources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 496

XIV Contents

20.2.10 Corporate Management . . . . . . . . . . . . . . . . . . . . . . . . . 49720.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49720.4 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 498

21 Data Mining in Biomedicine and Science . . . . . . . . . . . . . . . . . . . 49921.1 Applications in Medicine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 501

21.1.1 Health Care . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50121.1.2 Data Mining in Clinical Domains . . . . . . . . . . . . . . . . . 50121.1.3 Data Mining In Medical Diagnosis Problem . . . . . . . . 502

21.2 Data Mining for Biomedical and DNA Data Analysis . . . . . . . 50221.2.1 Semantic Integration of Heterogeneous, Distributed

Genome Databases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50321.2.2 Similarity Search and Comparison Among DNA

Sequences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50321.2.3 Association Analysis: Identification of Co-occurring

Gene Sequences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50421.2.4 Path Analysis: Linking Genes to Different Stages

of Disease Development . . . . . . . . . . . . . . . . . . . . . . . . . 50421.2.5 Visualization Tools and Genetic Data Analysis . . . . . 504

21.3 An Unsupervised Neural Network Approach . . . . . . . . . . . . . . . 50421.3.1 Knowledge Extraction Through Data Mining . . . . . . . 50521.3.2 Traditional Difficulties in Handling Medical Data . . . 50521.3.3 An Illustrative Case Study . . . . . . . . . . . . . . . . . . . . . . . 50621.3.4 Organizing Medical Data . . . . . . . . . . . . . . . . . . . . . . . . 50621.3.5 Building the Neural Network Tool . . . . . . . . . . . . . . . . 50821.3.6 Applying Data Mining and Data Visualization

Techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50921.4 Data Mining – Assisted Decision Support for Fever

Diagnosis – Case Study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51521.4.1 Architecture for Fever Diagnosis . . . . . . . . . . . . . . . . . . 51621.4.2 Medical Data Definition Component . . . . . . . . . . . . . . 51621.4.3 Physician–System Interface . . . . . . . . . . . . . . . . . . . . . . 51721.4.4 Diagnostic Question Banque . . . . . . . . . . . . . . . . . . . . . 51721.4.5 Pattern Extractor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51921.4.6 Rule Constructor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519

21.5 Data Mining and Science . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52021.6 Knowledge Discovery in Science as Opposed to Business-

Case Study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52221.6.1 Why is Data Mining Different? . . . . . . . . . . . . . . . . . . . 52221.6.2 The Data Management Context . . . . . . . . . . . . . . . . . . 52221.6.3 Business Data Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . 52321.6.4 Scientific Data Analysis . . . . . . . . . . . . . . . . . . . . . . . . . 52321.6.5 Scientific Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . 52421.6.6 Example of Predicting Air Quality . . . . . . . . . . . . . . . . 524

21.7 Data Mining in a Scientific Environment . . . . . . . . . . . . . . . . . . 529

Contents XV

21.7.1 What is Data Mining? . . . . . . . . . . . . . . . . . . . . . . . . . . 52921.7.2 Traditional Uses of Data Mining . . . . . . . . . . . . . . . . . . 53121.7.3 Data Mining in a Scientific Environment . . . . . . . . . . . 53221.7.4 Examples of Scientific Data Mining . . . . . . . . . . . . . . . 53321.7.5 Concluding Remarks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533

21.8 Flexible Earth Science Data Mining System Architecture . . . . 53421.8.1 DESIGN ISSUES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53421.8.2 ADaM System Features . . . . . . . . . . . . . . . . . . . . . . . . . 53521.8.3 ADaM Plan Builder Client . . . . . . . . . . . . . . . . . . . . . . . 54021.8.4 Research Directions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 541

21.9 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54221.10 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543

22 Text and Web Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54522.1 Data Mining and the Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 547

22.1.1 Resource Discovery . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54822.1.2 Information Extraction . . . . . . . . . . . . . . . . . . . . . . . . . . 54822.1.3 Generalization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 548

22.2 An Overview on Web Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54922.2.1 Taxonomy of Web Mining . . . . . . . . . . . . . . . . . . . . . . . 55022.2.2 Database Approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55022.2.3 Web Mining Tasks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55222.2.4 Mining Interested Content from Web Document . . . . 55322.2.5 Mining Pattern from Web Transactions/Logs . . . . . . . 55422.2.6 Web Access Pattern Tree (WAP tree) . . . . . . . . . . . . . 557

22.3 Text Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55822.3.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55822.3.2 S&T Text Mining Applications . . . . . . . . . . . . . . . . . . . 55922.3.3 Text Mining Tools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56022.3.4 Text Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 561

22.4 Discovering Web Access Patterns and Trends . . . . . . . . . . . . . . 56322.4.1 Design of a Web Log Miner . . . . . . . . . . . . . . . . . . . . . . 56522.4.2 Database Construction from server log Files . . . . . . . . 56722.4.3 Multidimensional Web log data cube . . . . . . . . . . . . . . 56822.4.4 Data mining on Web log data cube and Web log

database . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56922.5 Web Usage Mining on Proxy Servers: A Case Study . . . . . . . . 572

22.5.1 Aspects of Web Usage Mining . . . . . . . . . . . . . . . . . . . . 57322.5.2 Data Collection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57322.5.3 Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57422.5.4 Data Cleaning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57422.5.5 User and Session Identification . . . . . . . . . . . . . . . . . . . 57522.5.6 Data Mining Techniques . . . . . . . . . . . . . . . . . . . . . . . . . 57522.5.7 E-metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57722.5.8 The Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 579

XVI Contents

22.6 Text Data Mining in Biomedical Literature . . . . . . . . . . . . . . . . 58122.6.1 Information Retrieval Task – Retrieve Relevant

Documents by Making use of Existing Database . . . . 58222.6.2 Naıve Bayes Classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . 58222.6.3 Experimental results of Information Retrieval task . . 58322.6.4 Text Mining Task – Mining MEDLINE by

Combining Term Extraction and Association RuleMining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 583

22.6.5 Finding the Relations Between MeSH Terms andSubstances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 584

22.6.6 Finding the Relations Between Other Terms . . . . . . . 58422.7 Related Work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 585

22.7.1 Future Work: For the Information Retrieval Task . . . 58622.7.2 For the Text Mining Task. . . . . . . . . . . . . . . . . . . . . . . . 58722.7.3 Mutual Benefits between Two Tasks . . . . . . . . . . . . . . 587

22.8 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58822.9 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 589

23 Data Mining in Information Analysis and Delivery . . . . . . . . . 59123.1 Information Analysis: Overview . . . . . . . . . . . . . . . . . . . . . . . . . . 592

23.1.1 Data Acquisition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59223.1.2 Extraction and Representation . . . . . . . . . . . . . . . . . . . 59323.1.3 Information Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593

23.2 Intelligent Information Delivery – Case Study . . . . . . . . . . . . . . 59523.2.1 Alerts Run Rampant . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59523.2.2 What an Intelligent Information Delivery System is . 59623.2.3 Simple Example of an Intelligent Information

Delivery Mechanism . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59723.3 A Characterization of Data Mining Technologies and

Processes – Case Study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59923.3.1 Data Mining Processes . . . . . . . . . . . . . . . . . . . . . . . . . . 60023.3.2 Data Mining Users and Activities . . . . . . . . . . . . . . . . . 60123.3.3 The Technology Tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60223.3.4 Cross-Tabulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60923.3.5 Neural Nets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 610

23.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61223.5 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 613

24 Data Mining in Telecommunications and Control . . . . . . . . . . . 61524.1 Data Mining for the Telecommunication Industry . . . . . . . . . . . 616

24.1.1 Multidimensional Analysis of TelecommunicationData . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 617

24.1.2 Fraudulent Pattern Analysis and the Identificationof Unusual Patterns . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 617

Contents XVII

24.1.3 Multidimensional Association and SequentialPattern Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 617

24.1.4 Use of Visualization Tools in TelecommunicationData Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 618

24.2 Data Mining Focus Areas in Telecommunication . . . . . . . . . . . . 61824.2.1 Systematic Error . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61824.2.2 Data Mining in Churn Analysis . . . . . . . . . . . . . . . . . . 620

24.3 A Learning System for Decision Supportin Telecommunications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 621

24.4 Knowledge Processing in Control Systems . . . . . . . . . . . . . . . . . 62324.4.1 Preliminaries and General Definitions . . . . . . . . . . . . . 624

24.5 Data Mining for Maintenance of Complex Systems – A CaseStudy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 626

24.6 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62724.7 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 627

25 Data Mining in Security . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62925.1 Data Mining in Security Systems . . . . . . . . . . . . . . . . . . . . . . . . . 63025.2 Real Time Data Mining-Based Intrusion Detection Systems

– Case Study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63125.2.1 Accuracy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63225.2.2 Feature Extraction for IDS. . . . . . . . . . . . . . . . . . . . . . . 63325.2.3 Artificial Anomaly Generation . . . . . . . . . . . . . . . . . . . . 63425.2.4 Combined Misuse and Anomaly Detection . . . . . . . . . 63525.2.5 Efficiency . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63625.2.6 Cost-Sensitive Modeling . . . . . . . . . . . . . . . . . . . . . . . . . 63725.2.7 Distributed Feature Computation . . . . . . . . . . . . . . . . . 63925.2.8 System Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . 643

25.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 646

Data Mining Research Projects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 649A.1 National University of Singapore: Data Mining Research

Projects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 649A.1.1 Cleaning Data for Warehousing and Mining . . . . . . . . 649A.1.2 Data Mining in Multiple Databases . . . . . . . . . . . . . . . 650A.1.3 Intelligent WEB Document Management Using

Data Mining Techniques . . . . . . . . . . . . . . . . . . . . . . . . . 650A.1.4 Data Mining with Neural Networks . . . . . . . . . . . . . . . 650A.1.5 Data Mining in Semistructured Data . . . . . . . . . . . . . . 651A.1.6 A Data Mining Application – Customer Retention

in the Port of Singapore Authority (PSA) . . . . . . . . . 651A.1.7 A Belief-Based Approach to Data Mining . . . . . . . . . . 651A.1.8 Discovering Interesting Knowledge in Database . . . . . 652A.1.9 Data Mining for Market Research . . . . . . . . . . . . . . . . . 652A.1.10 Data Mining in Electronic Commerce . . . . . . . . . . . . . 652

XVIII Contents

A.1.11 Multidimensional Data Visualization Tool . . . . . . . . . 653A.1.12 Clustering Algorithms for Data Mining . . . . . . . . . . . . 653A.1.13 Web Page Design for Electronic Commerce . . . . . . . . 653A.1.14 Data Mining Application on Web Information

Sources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654A.1.15 Data Mining in Finance . . . . . . . . . . . . . . . . . . . . . . . . . 654A.1.16 Document Summarization . . . . . . . . . . . . . . . . . . . . . . . 654A.1.17 Data Mining and Intelligent Data Analysis . . . . . . . . . 655

A.2 HP Labs Research: Software Technology Laboratory . . . . . . . . 658A.2.1 Data Mining Research . . . . . . . . . . . . . . . . . . . . . . . . . . . 658

A.3 CRISP-DM: An Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 661A.3.1 Moving from Technology to Business . . . . . . . . . . . . . . 661A.3.2 Process Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 662

A.4 Data Mining SuiteTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 663A.4.1 Rule-based Influence Discovery . . . . . . . . . . . . . . . . . . . 665A.4.2 Dimensional Affinity Discovery . . . . . . . . . . . . . . . . . . . 665A.4.3 The OLAP Discovery System . . . . . . . . . . . . . . . . . . . . 665A.4.4 Incremental Pattern Discovery . . . . . . . . . . . . . . . . . . . 665A.4.5 Trend Discovery . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 666A.4.6 Forensic Discovery . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 666A.4.7 Predictive Modeler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 666

A.5 The Quest Data Mining System, IBM Almaden ResearchCenter, CA, USA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 669A.5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 669A.5.2 Association Rules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 670A.5.3 Apriori Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 670A.5.4 Sequential Patterns . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 672A.5.5 Time-series Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . 673A.5.6 Incremental Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 675A.5.7 Parallelism. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 676A.5.8 System Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . 676A.5.9 Future Directions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 676

A.6 The Australian National University Research Projects . . . . . . 676A.6.1 Applications of Inductive Learning . . . . . . . . . . . . . . . . 676A.6.2 Logic in Machine Learning . . . . . . . . . . . . . . . . . . . . . . . 677A.6.3 Machine-learning Summer Research Projects

in Data Mining and Reinforcement Learning . . . . . . . 678A.6.4 Computational Aspects of Data Mining (3 Projects) 678A.6.5 Data Mining the MACHO Database . . . . . . . . . . . . . . 679A.6.6 Artificial Stereophonic Processing . . . . . . . . . . . . . . . . . 680A.6.7 Real-time Active Vision . . . . . . . . . . . . . . . . . . . . . . . . . 680A.6.8 Web Teleoperation of a Mobile Robot . . . . . . . . . . . . . 680A.6.9 Autonomous Submersible Robot . . . . . . . . . . . . . . . . . . 681A.6.10 The SIT Project . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 682

A.7 Data Mining Research Group, Monash University Australia . . 682

Contents XIX

A.7.1 Current Projects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 682A.7.2 ADELFI – A Model for the Deployment

of High-Performance Solutions on the Internetand Intranets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 683

A.8 Current Projects, University of Alabama in Huntsville, AL . . 688A.8.1 Direct Mailing System. . . . . . . . . . . . . . . . . . . . . . . . . . . 688A.8.2 A Vibration Sensor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 688A.8.3 Current Status . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 689A.8.4 Data Mining Using Classification . . . . . . . . . . . . . . . . . 689A.8.5 Email Classification, Mining . . . . . . . . . . . . . . . . . . . . . 690A.8.6 Data-based Decision Making . . . . . . . . . . . . . . . . . . . . . 690A.8.7 Data Mining in Relational Databases . . . . . . . . . . . . . . 691A.8.8 Environmental Applications and Machine Learning . 691A.8.9 Current Research Projects . . . . . . . . . . . . . . . . . . . . . . . 692A.8.10 Web Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 693A.8.11 Neural Networks Applications to ATM Networks

Control . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 693A.8.12 Scientific Topics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 694A.8.13 Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 695

A.9 Kensington Approach Toward Enterprise Data Mining Group 696A.9.1 Distributed Database Support . . . . . . . . . . . . . . . . . . . . 696A.9.2 Distributed Object Management . . . . . . . . . . . . . . . . . . 696A.9.3 Groupware, Security, and Persistent Objects . . . . . . . 697A.9.4 Universal Clients – User-friendly Data Mining . . . . . . 697A.9.5 High-Performance Server . . . . . . . . . . . . . . . . . . . . . . . . 697

Data Mining Standards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 699II.1 Data Mining Standards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 700

II.1.1 Process Standards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 700II.1.2 XML Standards/ OR Model Defining

Standards<TODO> . . . . . . . . . . . . . . . . . . . . . . . . . . . . 704II.1.3 Web Standards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 707II.1.4 Application Programming Interfaces (APIs) . . . . . . . . 711II.1.5 Grid Services . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 716

II.2 Developing Data Mining Application Using Data MiningStandards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 719II.2.1 Application Requirement Specification . . . . . . . . . . . . 719II.2.2 Design and Deployment . . . . . . . . . . . . . . . . . . . . . . . . . 720

II.3 Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 722II.4 Application Examples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 723

II.4.1 PMML Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 723II.4.2 XMLA Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 724II.4.3 OLEDB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 725II.4.4 OLEDB-DM Example . . . . . . . . . . . . . . . . . . . . . . . . . . . 726II.4.5 SQL/MM Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 728

XX Contents

II.4.6 Java Data Mining Model Example . . . . . . . . . . . . . . . . 728II.4.7 Web Services . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 730

II.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 730

Intelligent Miner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7313A.1 Data Mining Process . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 731

3A.1.1 Selecting the Input Data . . . . . . . . . . . . . . . . . . . . . . . . 7323A.1.2 Exploring the Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7323A.1.3 Transforming the Data . . . . . . . . . . . . . . . . . . . . . . . . . . 7323A.1.4 Mining the Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 733

3A.2 Interpreting the Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7333A.3 Overview of the Intelligent Miner Components . . . . . . . . . . . . . 734

3A.3.1 User interface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7343A.3.2 Environment Layer API . . . . . . . . . . . . . . . . . . . . . . . . . 7343A.3.3 Visualizer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7343A.3.4 Data Access . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 734

3A.4 Running Intelligent Miner Servers . . . . . . . . . . . . . . . . . . . . . . . . 7343A.5 How the Intelligent Miner Creates Output Data . . . . . . . . . . . . 736

3A.5.1 Partitioned Output Tables . . . . . . . . . . . . . . . . . . . . . . . 7363A.5.2 How the Partitioning Key is Created . . . . . . . . . . . . . . 737

3A.6 Performing Common Tasks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7373A.7 Understanding Basic Concepts . . . . . . . . . . . . . . . . . . . . . . . . . . . 738

3A.7.1 Getting Familiar with the Intelligent Miner MainWindow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 738

3A.8 Main Window Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7383A.8.1 Mining Base Container . . . . . . . . . . . . . . . . . . . . . . . . . . 7383A.8.2 Contents Container . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7393A.8.3 Work Area . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7393A.8.4 Creating and Using Mining Bases . . . . . . . . . . . . . . . . . 739

3A.9 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 740

Clementine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7413B.1 Key Findings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7413B.2 Background Information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7423B.3 Product Availability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7433B.4 Software Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7443B.5 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7453B.6 Methodology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 746

3B.6.1 Business Understanding . . . . . . . . . . . . . . . . . . . . . . . . . 7463B.6.2 Data Understanding . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7483B.6.3 Data Preparation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7493B.6.4 Modeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7503B.6.5 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7523B.6.6 Deployment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 753

3B.7 Clementine Server . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 753

Contents XXI

3B.8 How Clementine Server Improves Performance on LargeDatasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7543B.8.1 Benchmark Testing Results: Data Processing . . . . . . . 7553B.8.2 Benchmark Testing Results: Modeling . . . . . . . . . . . . . 7553B.8.3 Benchmark Testing Results: Scoring . . . . . . . . . . . . . . . 757

3B.9 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 758

Crisp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7613C.1 Hierarchical Breakdown . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7613C.2 Mapping Generic Models to Specialized Models . . . . . . . . . . . . 762

3C.2.1 Data Mining Context . . . . . . . . . . . . . . . . . . . . . . . . . . . 7623C.2.2 Mappings with Contexts . . . . . . . . . . . . . . . . . . . . . . . . . 763

3C.3 The CRISP-DM Reference Model . . . . . . . . . . . . . . . . . . . . . . . . 7633C.3.1 Business Understanding . . . . . . . . . . . . . . . . . . . . . . . . . 765

3C.4 Data Understanding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7693C.4.1 Collect Initial Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7693C.4.2 Output Initial Data Collection Report . . . . . . . . . . . . . 7703C.4.3 Describe Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7703C.4.4 Explore Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7713C.4.5 Output Data Exploration Report . . . . . . . . . . . . . . . . . 7713C.4.6 Verify Data Quality . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 771

3C.5 Data Preparation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7713C.5.1 Select Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7713C.5.2 Clean Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7723C.5.3 Construct Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7733C.5.4 Generated Records . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7733C.5.5 Integrate Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7733C.5.6 Output Merged Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7733C.5.7 Format Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7733C.5.8 Reformatted Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 774

3C.6 Modeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7743C.6.1 Select Modeling Technique . . . . . . . . . . . . . . . . . . . . . . . 7743C.6.2 Outputs Modeling Technique . . . . . . . . . . . . . . . . . . . . . 7743C.6.3 Modeling Assumptions . . . . . . . . . . . . . . . . . . . . . . . . . . 7743C.6.4 Generate Test Design . . . . . . . . . . . . . . . . . . . . . . . . . . . 7743C.6.5 Output Test Design . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7753C.6.6 Build Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7753C.6.7 Outputs Parameter Settings . . . . . . . . . . . . . . . . . . . . . 7753C.6.8 Assess Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7763C.6.9 Outputs Model Assessment . . . . . . . . . . . . . . . . . . . . . . 7763C.6.10 Revised Parameter Settings . . . . . . . . . . . . . . . . . . . . . . 776

3C.7 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7763C.7.1 Evaluate Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 776

3C.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 777

XXII Contents

Mineset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7793D.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7793D.2 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7793D.3 MineSet Tools for Data Mining Tasks . . . . . . . . . . . . . . . . . . . . . 7803D.4 About the Raw Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7813D.5 Analytical Algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7813D.6 Visualization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7823D.7 KDD Process Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7833D.8 History . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7843D.9 Commercial Uses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7853D.10 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 786

Enterprise Miner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7873E.1 Tools For Data Mining Process . . . . . . . . . . . . . . . . . . . . . . . . . . . 7873E.2 Why Enterprise Miner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7883E.3 Product Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7893E.4 SAS Enterprise Miner 5.2 Key Features . . . . . . . . . . . . . . . . . . . 790

3E.4.1 Multiple Interfaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7903E.4.2 Scalable Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7913E.4.3 Accessing data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7913E.4.4 Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7913E.4.5 Data Partitioning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7923E.4.6 Filtering Outliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7923E.4.7 Transformations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7923E.4.8 Data Replacement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7923E.4.9 Descriptive Statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7923E.4.10 Graphs/Visualization . . . . . . . . . . . . . . . . . . . . . . . . . . . 793

3E.5 Enterprise Miner Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7933E.5.1 The Graphical User Interface . . . . . . . . . . . . . . . . . . . . . 7943E.5.2 The GUI Components . . . . . . . . . . . . . . . . . . . . . . . . . . . 794

3E.6 Enterprise Miner Process for Data Mining . . . . . . . . . . . . . . . . . 7963E.7 Client/Server Capabilities . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7963E.8 Client/Server Requirements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7963E.9 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 797

References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 799