机器学习基础~03.数据准备 - Aphros的博客

Aphros 收录于机器学习和机器学习基础

2025-05-15 2025-06-19 约 700 字预计阅读 2 分钟 - 次阅读 - 条评论

目录

第 1 节数据准备

摘要

数据准备分为特征提取、类型转换、数据清洗、数据集成、数据变换、数据规约几个步骤。

数据准备的过程可以细分为以下步骤：

特征提取：从原始数据中提取有用的特征或属性，以便机器学习模型可以理解和使用。
- 在文本数据中，特征可以是词频、TF-IDF等
- 在图像数据中，特征可以是像素值、颜色直方图等
类型转换：将数据的类型进行转换，以便其适合模型的输入要求。

源数据类型	目标数据类型	方法
数值型	类别型	离散化
类别型	数值型	二元化
文本	数值型	潜在语义分析（LSA）
时序	离散序列	SAX
时序	多维数值型	DWT、DFT
离散序列	多维数值型	DWT、DFT
空间	多维数值型	二维DWT
图	多维数值型	MDS、图谱
任何类型	图	相似图（可用性较有限）

数据清洗：去除或纠正数据中的错误、缺失、重复或异常值的过程。这可以提高模型的性能和稳定性。清洗数据可以包括填充缺失值、删除重复值、处理异常值等
数据集成：从多个数据源或表中合并数据，以便进行分析和建模。这可能涉及到数据连接、合并和转换，确保数据在合并后的格式中保持一致。
数据变换：将数据进行标准化、归一化或其他变换，以便让不同特征具有相似的尺度，提高模型的性能和收敛速度。
数据规约：通过降维技术来减少数据的维度，以减少存储和计算成本，并防止维度灾难。常见的方法包括主成分分析（PCA）和线性判别分析（LDA）等。

在后续篇章中，本文将详细讲述以上数据准备的步骤。

信息

为了统一数据挖掘和机器学习的知识体系，后续篇章中将对相似的内容进行合并，类型转换的部分将放至数据变换中讲述，特征提取的部分将放至数据规约中讲述。