机器学习基础~03.数据准备

第 1 节 数据准备

摘要

数据准备分为特征提取、类型转换、数据清洗、数据集成、数据变换、数据规约几个步骤。

数据准备的过程可以细分为以下步骤:

  • 特征提取:从原始数据中提取有用的特征或属性,以便机器学习模型可以理解和使用。
    • 文本数据中,特征可以是词频、TF-IDF等
    • 图像数据中,特征可以是像素值、颜色直方图等
  • 类型转换:将数据的类型进行转换,以便其适合模型的输入要求。
源数据类型目标数据类型方法
数值型类别型离散化
类别型数值型二元化
文本数值型潜在语义分析(LSA)
时序离散序列SAX
时序多维数值型DWT、DFT
离散序列多维数值型DWT、DFT
空间多维数值型二维DWT
多维数值型MDS、图谱
任何类型相似图(可用性较有限)
  • 数据清洗:去除或纠正数据中的错误、缺失、重复或异常值的过程。这可以提高模型的性能和稳定性。清洗数据可以包括填充缺失值、删除重复值、处理异常值
  • 数据集成:从多个数据源或表中合并数据,以便进行分析和建模。这可能涉及到数据连接、合并和转换,确保数据在合并后的格式中保持一致。
  • 数据变换:将数据进行标准化、归一化或其他变换,以便让不同特征具有相似的尺度,提高模型的性能和收敛速度。
  • 数据规约:通过降维技术来减少数据的维度,以减少存储和计算成本,并防止维度灾难。常见的方法包括主成分分析(PCA)和线性判别分析(LDA)等。

在后续篇章中,本文将详细讲述以上数据准备的步骤。

信息

为了统一数据挖掘和机器学习的知识体系,后续篇章中将对相似的内容进行合并,类型转换的部分将放至数据变换中讲述,特征提取的部分将放至数据规约中讲述。