Data Mining: Concepts and Techniques (The Morgan Kaufmann Series in Data Management Systems) 4th Edition PDF – eBook - ebookrd.com
SUBTOTAL :

EBOOK

price_15.99$
Data Mining: Concepts and Techniques (The Morgan Kaufmann Series in Data Management Systems) 4th Edition PDF – eBook

Data Mining: Concepts and Techniques (The Morgan Kaufmann Series in Data Management Systems) 4th Edition PDF – eBook

Short Description:

Product Description

 

EBOOK DETAILS

  • Authors: by Jiawei Han, Jian Pei, Hanghang Tong (Author)
  • File Size: 19 MB
  • Format: PDF
  • Paperback: 786 pages
  • Publisher: Morgan Kaufmann; 4th edition (October 17, 2022)
  • Language: English
  • ISBN-10: 9780128117606
  • ISBN-13: 978-0128117606
Download Data Mining: Concepts and Techniques (The Morgan Kaufmann Series in Data Management Systems) 4th Edition PDF – eBook

Contents 
Foreword . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xvii Foreword to second edition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xix Preface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxi Acknowledgments ......................................................... xxvii About the authors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxix CHAPTER 1 Introduction .................................................. 1 1.1 What is data mining? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Data mining: an essential step in knowledge discovery . ................. 2 1.3 Diversity of data types for data mining .............................. 4 1.4 Mining various kinds of knowledge ................................ 5 1.4.1 Multidimensional data summarization ........................ 6 1.4.2 Mining frequent patterns, associations, and correlations . . . ........ 6 1.4.3 Classification and regression for predictive analysis .............. 7 1.4.4 Cluster analysis ......................................... 9 1.4.5 Deep learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.4.6 Outlier analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.4.7 Are all mining results interesting? . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.5 Data mining: confluence of multiple disciplines . . . . . . . . . . . . . . . . . . . . . . . 12 1.5.1 Statistics and data mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.5.2 Machine learning and data mining . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.5.3 Database technology and data mining . . . . . . . . . . . . . . . . . . . . . . . . 15 1.5.4 Data mining and data science . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.5.5 Data mining and other disciplines . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.6 Data mining and applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.7 Data mining and society . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.8 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.9 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.10 Bibliographic notes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 CHAPTER 2 Data, measurements, and data preprocessing ........................ 23 2.1 Data types . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.1.1 Nominal attributes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.1.2 Binary attributes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.1.3 Ordinal attributes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.1.4 Numeric attributes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.1.5 Discrete vs. continuous attributes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.2 Statistics of data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.2.1 Measuring the central tendency . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.2.2 Measuring the dispersion of data . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 vii viii Contents 2.2.3 Covariance and correlation analysis . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.2.4 Graphic displays of basic statistics of data . . . . . . . . . . . . . . . . . . . . . 38 2.3 Similarity and distance measures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.3.1 Data matrix vs. dissimilarity matrix . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.3.2 Proximity measures for nominal attributes . . . . . . . . . . . . . . . . . . . . . 44 2.3.3 Proximity measures for binary attributes . . . . . . . . . . . . . . . . . . . . . . 46 2.3.4 Dissimilarity of numeric data: Minkowski distance . . . . . . . . . . . . . . 48 2.3.5 Proximity measures for ordinal attributes . . . . . . . . . . . . . . . . . . . . . . 49 2.3.6 Dissimilarity for attributes of mixed types . . . . . . . . . . . . . . . . . . . . . 50 2.3.7 Cosine similarity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 2.3.8 Measuring similar distributions: the Kullback-Leibler divergence . . . . 53 2.3.9 Capturing hidden semantics in similarity measures . . . . . . . . . . . . . . . 55 2.4 Data quality, data cleaning, and data integration . . . . . . . . . . . . . . . . . . . . . . . 55 2.4.1 Data quality measures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 2.4.2 Data cleaning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 2.4.3 Data integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 2.5 Data transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 2.5.1 Normalization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 2.5.2 Discretization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 2.5.3 Data compression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 2.5.4 Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 2.6 Dimensionality reduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 2.6.1 Principal components analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 2.6.2 Attribute subset selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 2.6.3 Nonlinear dimensionality reduction methods . . . . . . . . . . . . . . . . . . . 74 2.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 2.8 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 2.9 Bibliographic notes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 CHAPTER 3 Data warehousing and online analytical processing ................... 85 3.1 Data warehouse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 3.1.1 Data warehouse: what and why? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 3.1.2 Architecture of data warehouses: enterprise data warehouses and data marts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 3.1.3 Data lakes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 3.2 Data warehouse modeling: schema and measures . . . . . . . . . . . . . . . . . . . . . . 96 3.2.1 Data cube: a multidimensional data model . . . . . . . . . . . . . . . . . . . . . 97 3.2.2 Schemas for multidimensional data models: stars, snowflakes, and fact constellations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 3.2.3 Concept hierarchies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 3.2.4 Measures: categorization and computation . . . . . . . . . . . . . . . . . . . . . 105 3.3 OLAP operations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 3.3.1 Typical OLAP operations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 3.3.2 Indexing OLAP data: bitmap index and join index . . . . . . . . . . . . . . . 108 3.3.3 Storage implementation: column-based databases . . . . . . . . . . . . . . . 111 Contents ix 3.4 Data cube computation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 3.4.1 Terminology of data cube computation . . . . . . . . . . . . . . . . . . . . . . . 113 3.4.2 Data cube materialization: ideas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 3.4.3 OLAP server architectures: ROLAP vs. MOLAP vs. HOLAP . . . . . . 117 3.4.4 General strategies for data cube computation . . . . . . . . . . . . . . . . . . . 119 3.5 Data cube computation methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 3.5.1 Multiway array aggregation for full cube computation . . . . . . . . . . . . 121 3.5.2 BUC: computing iceberg cubes from the apex cuboid downward . . . . 125 3.5.3 Precomputing shell fragments for fast high-dimensional OLAP . . . . . 129 3.5.4 Efficient processing of OLAP queries using cuboids . . . . . . . . . . . . . . 132 3.6 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 3.7 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 3.8 Bibliographic notes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 CHAPTER 4 Pattern mining: basic concepts and methods ........................ 145 4.1 Basic concepts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 4.1.1 Market basket analysis: a motivating example . . . . . . . . . . . . . . . . . . 145 4.1.2 Frequent itemsets, closed itemsets, and association rules . . . . . . . . . . 147 4.2 Frequent itemset mining methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 4.2.1 Apriori algorithm: finding frequent itemsets by confined candidate generation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 4.2.2 Generating association rules from frequent itemsets . . . . . . . . . . . . . . 153 4.2.3 Improving the efficiency of Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . 155 4.2.4 A pattern-growth approach for mining frequent itemsets . . . . . . . . . . 157 4.2.5 Mining frequent itemsets using the vertical data format . . . . . . . . . . . 160 4.2.6 Mining closed and max patterns . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 4.3 Which patterns are interesting?—Pattern evaluation methods . . . . . . . . . . . . . 163 4.3.1 Strong rules are not necessarily interesting . . . . . . . . . . . . . . . . . . . . . 163 4.3.2 From association analysis to correlation analysis . . . . . . . . . . . . . . . . 164 4.3.3 A comparison of pattern evaluation measures . . . . . . . . . . . . . . . . . . . 165 4.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 4.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 4.6 Bibliographic notes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 CHAPTER 5 Pattern mining: advanced methods ................................ 175 5.1 Mining various kinds of patterns . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 5.1.1 Mining multilevel associations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 5.1.2 Mining multidimensional associations . . . . . . . . . . . . . . . . . . . . . . . . 179 5.1.3 Mining quantitative association rules . . . . . . . . . . . . . . . . . . . . . . . . . 180 5.1.4 Mining high-dimensional data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 5.1.5 Mining rare patterns and negative patterns . . . . . . . . . . . . . . . . . . . . . 185 5.2 Mining compressed or approximate patterns . . . . . . . . . . . . . . . . . . . . . . . . . . 187 5.2.1 Mining compressed patterns by pattern clustering . . . . . . . . . . . . . . . 187 5.2.2 Extracting redundancy-aware top-k patterns . . . . . . . . . . . . . . . . . . . . 189 x Contents 5.3 Constraint-based pattern mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 5.3.1 Pruning pattern space with pattern pruning constraints . . . . . . . . . . . . 193 5.3.2 Pruning data space with data pruning constraints . . . . . . . . . . . . . . . . 196 5.3.3 Mining space pruning with succinctness constraints . . . . . . . . . . . . . . 197 5.4 Mining sequential patterns . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198 5.4.1 Sequential pattern mining: concepts and primitives . . . . . . . . . . . . . . 198 5.4.2 Scalable methods for mining sequential patterns . . . . . . . . . . . . . . . . 200 5.4.3 Constraint-based mining of sequential patterns . . . . . . . . . . . . . . . . . . 210 5.5 Mining subgraph patterns . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 5.5.1 Methods for mining frequent subgraphs . . . . . . . . . . . . . . . . . . . . . . . 212 5.5.2 Mining variant and constrained substructure patterns . . . . . . . . . . . . . 219 5.6 Pattern mining: application examples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 5.6.1 Phrase mining in massive text data . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 5.6.2 Mining copy and paste bugs in software programs . . . . . . . . . . . . . . . 230 5.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232 5.8 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 5.9 Bibliographic notes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235 CHAPTER 6 Classification: basic concepts and methods ......................... 239 6.1 Basic concepts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239 6.1.1 What is classification? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239 6.1.2 General approach to classification . . . . . . . . . . . . . . . . . . . . . . . . . . . 240 6.2 Decision tree induction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243 6.2.1 Decision tree induction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244 6.2.2 Attribute selection measures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248 6.2.3 Tree pruning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257 6.3 Bayes classification methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 6.3.1 Bayes’ theorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260 6.3.2 Naïve Bayesian classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262 6.4 Lazy learners (or learning from your neighbors) . . . . . . . . . . . . . . . . . . . . . . . 266 6.4.1 k-nearest-neighbor classifiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266 6.4.2 Case-based reasoning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269 6.5 Linear classifiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269 6.5.1 Linear regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270 6.5.2 Perceptron: turning linear regression to classification . . . . . . . . . . . . . 272 6.5.3 Logistic regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274 6.6 Model evaluation and selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278 6.6.1 Metrics for evaluating classifier performance . . . . . . . . . . . . . . . . . . . 278 6.6.2 Holdout method and random subsampling . . . . . . . . . . . . . . . . . . . . . 283 6.6.3 Cross-validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283 6.6.4 Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284 6.6.5 Model selection using statistical tests of significance . . . . . . . . . . . . . 285 6.6.6 Comparing classifiers based on cost–benefit and ROC curves . . . . . . . 286 6.7 Techniques to improve classification accuracy . . . . . . . . . . . . . . . . . . . . . . . . 290 6.7.1 Introducing ensemble methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290 Contents xi 6.7.2 Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291 6.7.3 Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292 6.7.4 Random forests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296 6.7.5 Improving classification accuracy of class-imbalanced data . . . . . . . . 297 6.8 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298 6.9 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299 6.10 Bibliographic notes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302 CHAPTER 7 Classification: advanced methods ................................. 307 7.1 Feature selection and engineering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307 7.1.1 Filter methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308 7.1.2 Wrapper methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311 7.1.3 Embedded methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312 7.2 Bayesian belief networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315 7.2.1 Concepts and mechanisms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315 7.2.2 Training Bayesian belief networks . . . . . . . . . . . . . . . . . . . . . . . . . . . 317 7.3 Support vector machines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318 7.3.1 Linear support vector machines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319 7.3.2 Nonlinear support vector machines . . . . . . . . . . . . . . . . . . . . . . . . . . 324 7.4 Rule-based and pattern-based classification . . . . . . . . . . . . . . . . . . . . . . . . . . 327 7.4.1 Using IF-THEN rules for classification . . . . . . . . . . . . . . . . . . . . . . . 328 7.4.2 Rule extraction from a decision tree . . . . . . . . . . . . . . . . . . . . . . . . . . 330 7.4.3 Rule induction using a sequential covering algorithm . . . . . . . . . . . . . 331 7.4.4 Associative classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335 7.4.5 Discriminative frequent pattern–based classification . . . . . . . . . . . . . . 338 7.5 Classification with weak supervision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342 7.5.1 Semisupervised classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343 7.5.2 Active learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345 7.5.3 Transfer learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346 7.5.4 Distant supervision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348 7.5.5 Zero-shot learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349 7.6 Classification with rich data type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351 7.6.1 Stream data classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352 7.6.2 Sequence classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354 7.6.3 Graph data classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 7.7 Potpourri: other related techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359 7.7.1 Multiclass classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359 7.7.2 Distance metric learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362 7.7.3 Interpretability of classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364 7.7.4 Genetic algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367 7.7.5 Reinforcement learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367 7.8 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369 7.9 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370 7.10 Bibliographic notes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374 xii Contents CHAPTER 8 Cluster analysis: basic concepts and methods ....................... 379 8.1 Cluster analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379 8.1.1 What is cluster analysis? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380 8.1.2 Requirements for cluster analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381 8.1.3 Overview of basic clustering methods . . . . . . . . . . . . . . . . . . . . . . . . 383 8.2 Partitioning methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385 8.2.1 k-Means: a centroid-based technique . . . . . . . . . . . . . . . . . . . . . . . . . 386 8.2.2 Variations of k-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 388 8.3 Hierarchical methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394 8.3.1 Basic concepts of hierarchical clustering . . . . . . . . . . . . . . . . . . . . . . 394 8.3.2 Agglomerative hierarchical clustering . . . . . . . . . . . . . . . . . . . . . . . . 397 8.3.3 Divisive hierarchical clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 400 8.3.4 BIRCH: scalable hierarchical clustering using clustering feature trees 402 8.3.5 Probabilistic hierarchical clustering . . . . . . . . . . . . . . . . . . . . . . . . . . 404 8.4 Density-based and grid-based methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407 8.4.1 DBSCAN: density-based clustering based on connected regions with high density . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 408 8.4.2 DENCLUE: clustering based on density distribution functions . . . . . . 411 8.4.3 Grid-based methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414 8.5 Evaluation of clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417 8.5.1 Assessing clustering tendency . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417 8.5.2 Determining the number of clusters . . . . . . . . . . . . . . . . . . . . . . . . . . 419 8.5.3 Measuring clustering quality: extrinsic methods . . . . . . . . . . . . . . . . . 420 8.5.4 Intrinsic methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424 8.6 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425 8.7 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427 8.8 Bibliographic notes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429 CHAPTER 9 Cluster analysis: advanced methods ............................... 431 9.1 Probabilistic model-based clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431 9.1.1 Fuzzy clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433 9.1.2 Probabilistic model-based clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . 435 9.1.3 Expectation-maximization algorithm . . . . . . . . . . . . . . . . . . . . . . . . . 438 9.2 Clustering high-dimensional data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441 9.2.1 Why is clustering high-dimensional data challenging? . . . . . . . . . . . . 441 9.2.2 Axis-parallel subspace approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . 445 9.2.3 Arbitrarily oriented subspace approaches . . . . . . . . . . . . . . . . . . . . . . 447 9.3 Biclustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 447 9.3.1 Why and where is biclustering useful? . . . . . . . . . . . . . . . . . . . . . . . . 448 9.3.2 Types of biclusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 450 9.3.3 Biclustering methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452 9.3.4 Enumerating all biclusters using MaPle . . . . . . . . . . . . . . . . . . . . . . . 453 9.4 Dimensionality reduction for clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454 9.4.1 Linear dimensionality reduction methods for clustering . . . . . . . . . . . 455 9.4.2 Nonnegative matrix factorization (NMF) . . . . . . . . . . . . . . . . . . . . . . 458 Contents xiii 9.4.3 Spectral clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460 9.5 Clustering graph and network data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463 9.5.1 Applications and challenges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463 9.5.2 Similarity measures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465 9.5.3 Graph clustering methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470 9.6 Semisupervised clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475 9.6.1 Semisupervised clustering on partially labeled data . . . . . . . . . . . . . . 475 9.6.2 Semisupervised clustering on pairwise constraints . . . . . . . . . . . . . . . 476 9.6.3 Other types of background knowledge for semisupervised clustering . 477 9.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 479 9.8 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 480 9.9 Bibliographic notes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482 CHAPTER 10 Deep learning ................................................ 485 10.1 Basic concepts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485 10.1.1 What is deep learning? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485 10.1.2 Backpropagation algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489 10.1.3 Key challenges for training deep learning models . . . . . . . . . . . . . . . . 498 10.1.4 Overview of deep learning architecture . . . . . . . . . . . . . . . . . . . . . . . 499 10.2 Improve training of deep learning models . . . . . . . . . . . . . . . . . . . . . . . . . . . . 500 10.2.1 Responsive activation functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 500 10.2.2 Adaptive learning rate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 501 10.2.3 Dropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504 10.2.4 Pretraining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 507 10.2.5 Cross-entropy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 509 10.2.6 Autoencoder: unsupervised deep learning . . . . . . . . . . . . . . . . . . . . . 511 10.2.7 Other techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514 10.3 Convolutional neural networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517 10.3.1 Introducing convolution operation . . . . . . . . . . . . . . . . . . . . . . . . . . . 517 10.3.2 Multidimensional convolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519 10.3.3 Convolutional layer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 523 10.4 Recurrent neural networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526 10.4.1 Basic RNN models and applications . . . . . . . . . . . . . . . . . . . . . . . . . 526 10.4.2 Gated RNNs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 532 10.4.3 Other techniques for addressing long-term dependence . . . . . . . . . . . 536 10.5 Graph neural networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 539 10.5.1 Basic concepts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 540 10.5.2 Graph convolutional networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 541 10.5.3 Other types of GNNs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545 10.6 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 547 10.7 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 548 10.8 Bibliographic notes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 552 CHAPTER 11 Outlier detection .............................................. 557 11.1 Basic concepts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 557 xiv Contents 11.1.1 What are outliers? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 558 11.1.2 Types of outliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 559 11.1.3 Challenges of outlier detection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 561 11.1.4 An overview of outlier detection methods . . . . . . . . . . . . . . . . . . . . . 562 11.2 Statistical approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 565 11.2.1 Parametric methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 565 11.2.2 Nonparametric methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 569 11.3 Proximity-based approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 572 11.3.1 Distance-based outlier detection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 572 11.3.2 Density-based outlier detection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 573 11.4 Reconstruction-based approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 576 11.4.1 Matrix factorization–based methods for numerical data . . . . . . . . . . . 577 11.4.2 Pattern-based compression methods for categorical data . . . . . . . . . . . 582 11.5 Clustering- vs. classification-based approaches . . . . . . . . . . . . . . . . . . . . . . . . 585 11.5.1 Clustering-based approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 585 11.5.2 Classification-based approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 588 11.6 Mining contextual and collective outliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . 590 11.6.1 Transforming contextual outlier detection to conventional outlier detection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 591 11.6.2 Modeling normal behavior with respect to contexts . . . . . . . . . . . . . . 591 11.6.3 Mining collective outliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 592 11.7 Outlier detection in high-dimensional data . . . . . . . . . . . . . . . . . . . . . . . . . . . 593 11.7.1 Extending conventional outlier detection . . . . . . . . . . . . . . . . . . . . . . 594 11.7.2 Finding outliers in subspaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 595 11.7.3 Outlier detection ensemble . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596 11.7.4 Taming high dimensionality by deep learning . . . . . . . . . . . . . . . . . . . 597 11.7.5 Modeling high-dimensional outliers . . . . . . . . . . . . . . . . . . . . . . . . . . 599 11.8 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 600 11.9 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 601 11.10 Bibliographic notes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 602 CHAPTER 12 Data mining trends and research frontiers ........................... 605 12.1 Mining rich data types . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 605 12.1.1 Mining text data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 605 12.1.2 Spatial-temporal data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 610 12.1.3 Graph and networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 612 12.2 Data mining applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 617 12.2.1 Data mining for sentiment and opinion . . . . . . . . . . . . . . . . . . . . . . . . 617 12.2.2 Truth discovery and misinformation identification . . . . . . . . . . . . . . . 620 12.2.3 Information and disease propagation . . . . . . . . . . . . . . . . . . . . . . . . . 623 12.2.4 Productivity and team science . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 626 12.3 Data mining methodologies and systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . 629 12.3.1 Structuring unstructured data for knowledge mining: a data-driven approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 629 12.3.2 Data augmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 632 Contents xv 12.3.3 From correlation to causality . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 635 12.3.4 Network as a context . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 637 12.3.5 Auto-ML: methods and systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 640 12.4 Data mining, people, and society . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 642 12.4.1 Privacy-preserving data mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 642 12.4.2 Human-algorithm interaction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 646 12.4.3 Mining beyond maximizing accuracy: fairness, interpretability, and robustness . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 648 12.4.4 Data mining for social good . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 652 APPENDIX A Mathematical background ....................................... 655 A.1 Probability and statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 655 A.1.1 PDF of typical distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 655 A.1.2 MLE and MAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 656 A.1.3 Significance test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 657 A.1.4 Density estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 658 A.1.5 Bias-variance tradeoff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 659 A.1.6 Cross-validation and Jackknife . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 660 A.2 Numerical optimization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 661 A.2.1 Gradient descent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 661 A.2.2 Variants of gradient descent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 662 A.2.3 Newton’s method . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 664 A.2.4 Coordinate descent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 666 A.2.5 Quadratic programming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 666 A.3 Matrix and linear algebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 668 A.3.1 Linear system Ax = b . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 668 A.3.2 Norms of vectors and matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 669 A.3.3 Matrix decompositions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 669 A.3.4 Subspace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 671 A.3.5 Orthogonality . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 672 A.4 Concepts and tools from signal processing . . . . . . . . . . . . . . . . . . . . . . . . . . . 673 A.4.1 Entropy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 673 A.4.2 Kullback-Leibler divergence (KL-divergence) . . . . . . . . . . . . . . . . . . 674 A.4.3 Mutual information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 675 A.4.4 Discrete Fourier transform (DFT) and fast Fourier transform (FFT) . . 676 A.5 Bibliographic notes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 678 Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 681 Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 735

0 Reviews:

Post Your Review