机器学习基础~03.数据准备

目录

第 1 节 数据准备

摘要

数据准备分为特征提取、类型转换、数据清洗、数据集成、数据变换、数据规约几个步骤。

数据准备的过程可以细分为以下步骤:

  • 特征提取:从原始数据中提取有用的特征或属性,以便机器学习模型可以理解和使用。
    • 文本数据中,特征可以是词频、TF-IDF等
    • 图像数据中,特征可以是像素值、颜色直方图等
  • 类型转换:将数据的类型进行转换,以便其适合模型的输入要求。
源数据类型 目标数据类型 方法
数值型 类别型 离散化
类别型 数值型 二元化
文本 数值型 潜在语义分析(LSA)
时序 离散序列 SAX
时序 多维数值型 DWT、DFT
离散序列 多维数值型 DWT、DFT
空间 多维数值型 二维DWT
多维数值型 MDS、图谱
任何类型 相似图(可用性较有限)
  • 数据清洗:去除或纠正数据中的错误、缺失、重复或异常值的过程。这可以提高模型的性能和稳定性。清洗数据可以包括填充缺失值、删除重复值、处理异常值
  • 数据集成:从多个数据源或表中合并数据,以便进行分析和建模。这可能涉及到数据连接、合并和转换,确保数据在合并后的格式中保持一致。
  • 数据变换:将数据进行标准化、归一化或其他变换,以便让不同特征具有相似的尺度,提高模型的性能和收敛速度。
  • 数据规约:通过降维技术来减少数据的维度,以减少存储和计算成本,并防止维度灾难。常见的方法包括主成分分析(PCA)和线性判别分析(LDA)等。

在后续篇章中,本文将详细讲述以上数据准备的步骤。

信息

为了统一数据挖掘和机器学习的知识体系,后续篇章中将对相似的内容进行合并,类型转换的部分将放至数据变换中讲述,特征提取的部分将放至数据规约中讲述。

目录