数据挖掘¶
22Fall MANA130374,数据挖掘原理与技术,王有为
主讲处理大数据的各类算法。
主要内容¶
- 大数据背景
- 各类数据形式
- 探索性数据分析
- 统计量
- 可视化
- 分类算法
- 分类任务指标
- Decision Tree
- Naive Bayes and Bayesian Belief Networks
- Artificial Neural Networks
- Nearest Neighbor
- Logistic Regression
- Support Vector Machines
- CART(Classification and Regression Trees)
- Random Forest
- 聚类算法
- 相似性度量
- K-means Clustering
- Hierarchical Clustering
- Graph-based or Prototype-based or Density-based Clustering
- 关联规则挖掘
- 量化指标
- Apriori Algorithm
- FP-growth Algorithm
参考书¶
Pang-Ning Tan, Michael Steinbach, Anuj Karpatne, Vipin Kumar. Introduction to Data Mining. Addison Wesley, 2nd edition (Oct, 2019).
体会¶
我必须打开可能才能想起来这个课讲了啥,甚至有些内容我打开了课件也回忆不起来。
总体来说内容不是很多,分类、聚类、关联规则就这三块内容。但是每块内容涉及到的算法非常多,属于是走马观花,我基本都没学会。到头还还是只会SVM、KNN、随机森林啥的。
关联规则挖掘倒是让我记忆犹新,Diapers和Beer的神奇组合确实很有记忆点,至于关联规则到底如何挖掘我实在是记不得了,只能当调包调参侠了。
Last update: 2024-03-14 00:26:13
Created: 2024-03-12 17:41:11
Created: 2024-03-12 17:41:11