机器学习基础~03.数据准备
目录
第 1 节 数据准备
摘要
数据准备分为特征提取、类型转换、数据清洗、数据集成、数据变换、数据规约几个步骤。
数据准备的过程可以细分为以下步骤:
- 特征提取:从原始数据中提取有用的特征或属性,以便机器学习模型可以理解和使用。
- 在文本数据中,特征可以是词频、TF-IDF等
- 在图像数据中,特征可以是像素值、颜色直方图等
- 类型转换:将数据的类型进行转换,以便其适合模型的输入要求。
| 源数据类型 | 目标数据类型 | 方法 |
|---|---|---|
| 数值型 | 类别型 | 离散化 |
| 类别型 | 数值型 | 二元化 |
| 文本 | 数值型 | 潜在语义分析(LSA) |
| 时序 | 离散序列 | SAX |
| 时序 | 多维数值型 | DWT、DFT |
| 离散序列 | 多维数值型 | DWT、DFT |
| 空间 | 多维数值型 | 二维DWT |
| 图 | 多维数值型 | MDS、图谱 |
| 任何类型 | 图 | 相似图(可用性较有限) |
- 数据清洗:去除或纠正数据中的错误、缺失、重复或异常值的过程。这可以提高模型的性能和稳定性。清洗数据可以包括填充缺失值、删除重复值、处理异常值等
- 数据集成:从多个数据源或表中合并数据,以便进行分析和建模。这可能涉及到数据连接、合并和转换,确保数据在合并后的格式中保持一致。
- 数据变换:将数据进行标准化、归一化或其他变换,以便让不同特征具有相似的尺度,提高模型的性能和收敛速度。
- 数据规约:通过降维技术来减少数据的维度,以减少存储和计算成本,并防止维度灾难。常见的方法包括主成分分析(PCA)和线性判别分析(LDA)等。
在后续篇章中,本文将详细讲述以上数据准备的步骤。
信息
为了统一数据挖掘和机器学习的知识体系,后续篇章中将对相似的内容进行合并,类型转换的部分将放至数据变换中讲述,特征提取的部分将放至数据规约中讲述。