本书主要介绍数据科学中数据准备阶段常用的数据处理方法。全书内容分为个部分:数据准备概览、数据清理、数据变换、数据归约和案例分析。本书注重方法的原理及其应用,在方法原理引介部分强调重要的统计学思想,在方法应用部分强化数据思维和数据处理规范。
本书可作为高等学校统计学类专业、数据科学专业,以及人工智能、计算机科学技术等专业的本科生或研究生的教材或教学参考书,同时可供相关领域工作者参考使用。
前辅文 第一部分 概览 第一章 数据准备概述 1.1 数据准备的必要性 1.2 数据准备的步骤 1.3 数据准备的评价与优化 1.4 案例分析 本章小结 习题 参考文献 第二章 数据理解 2.1 数据特点 2.2 计量尺度 2.3 数据质量 本章小结 习题 参考文献 第二部分 数据清理 第三章 清洗脏数据 本章小结 习题 参考文献 第四章 离群值处理 4.1 离群值处理概述 4.2 一元变量的离群值识别 4.3 椭圆包络 4.4 局部离群点因子 4.5 孤立森林 4.6 单类支持向量机 4.7 案例分析 本章小结 习题 参考文献 第五章 缺失值处理 5.1 缺失值处理概述 5.2 缺失值插补方法概述 5.3 κ近邻插补 5.4 回归插补与随机回归插补 5.5 缺失森林 5.6 MICE与预测均值匹配 5.7 案例分析 本章小结 习题 参考文献 第三部分 数据变换 第六章 特征衍生 6.1 一阶特征衍生 6.2 二阶与高阶特征衍生 6.3 案例分析 本章小结 习题 参考文献 第七章 数据规范化 7.1 定量变量的规范化 7.2 定性变量的规范化 本章小结 习题 参考文献 第八章 数据离散化 8.1 离散化的作用与分类 8.2 无监督离散化 8.3 有监督离散化概述 8.4 ChiMerge算法 8.5 CAIM算法 8.6 基于MDLP的离散化方法 8.7 案例分析 本章小结 习题 参考文献 第九章 类别不平衡问题处理 9.1 类别不平衡问题 9.2 欠采样:EasyEnsemble算法 9.3 过采样:SMOTE算法 9.4 案例分析 本章小结 习题 参考文献 第四部分 数据归约 第十章 特征选择 10.1 特征选择概述 10.2 无监督过滤法 10.3 有监督过滤法 10.4 封装法 10.5 案例分析 本章小结 习题 参考文献 第十一章 特征提取 11.1 特征提取概述 11.2 Truncated SVD 11.3 主成分分析 11.4 费希尔判别分析 11.5 独立成分分析 11.6 核主成分分析 11.7 多维缩放 11.8 等度量映射 11.9 局部线性嵌入 11.10 SNE与t-SNE 11.11 案例分析 本章小结 习题 参考文献 第五部分 案例分析 第十二章 天猫用户复购预测案例分析 12.1 数据理解 12.2 数据准备 12.3 模型构建与主要结果 12.4 结论与反思 参考文献 附录A 数据处理流程示意图 附录B 衍生的特征 附录C 部分Python代码