# 机器学习基础~03.数据准备

## 数据准备

>[!summary]  摘要
>数据准备分为特征提取、类型转换、数据清洗、数据集成、数据变换、数据规约几个步骤。

数据准备的过程可以细分为以下步骤：

- **特征提取**：从原始数据中提取有用的特征或属性，以便机器学习模型可以理解和使用。
  - 在**文本数据**中，特征可以是词频、TF-IDF等
  - 在**图像数据**中，特征可以是像素值、颜色直方图等
- **类型转换**：将数据的类型进行转换，以便其适合模型的输入要求。

| 源数据类型 | 目标数据类型 | 方法          |
| ----- | ------ | ----------- |
| 数值型   | 类别型    | 离散化         |
| 类别型   | 数值型    | 二元化         |
| 文本    | 数值型    | 潜在语义分析（LSA） |
| 时序    | 离散序列   | SAX         |
| 时序    | 多维数值型  | DWT、DFT     |
| 离散序列  | 多维数值型  | DWT、DFT     |
| 空间    | 多维数值型  | 二维DWT       |
| 图     | 多维数值型  | MDS、图谱      |
| 任何类型  | 图      | 相似图（可用性较有限） |

- **数据清洗**：去除或纠正数据中的错误、缺失、重复或异常值的过程。这可以提高模型的性能和稳定性。清洗数据可以包括**填充缺失值、删除重复值、处理异常值**等
- **数据集成**：从多个数据源或表中合并数据，以便进行分析和建模。这可能涉及到**数据连接、合并和转换**，确保数据在合并后的格式中保持一致。
- **数据变换**：将数据进行**标准化、归一化或其他变换**，以便让不同特征具有相似的尺度，提高模型的性能和收敛速度。
- **数据规约**：通过**降维**技术来减少数据的维度，以减少存储和计算成本，并防止维度灾难。常见的方法包括主成分分析（PCA）和线性判别分析（LDA）等。

在后续篇章中，本文将详细讲述以上数据准备的步骤。

>[!info]  信息
>为了统一数据挖掘和机器学习的知识体系，后续篇章中将对相似的内容进行合并，类型转换的部分将放至数据变换中讲述，特征提取的部分将放至数据规约中讲述。

---

> 作者: Aphros  
> URL: https://blog.papergate.top/posts/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80~03.%E6%95%B0%E6%8D%AE%E5%87%86%E5%A4%87/