本书是大数据新兴领域“十四五”高等教育教材。本书系统地介绍大数据涵盖的知识,包括数据与大数据、大数据获取、大数据管理、大数据处理、大数据分析、大数据安全、大数据治理等;同时介绍部分行业中大数据的典型应用案例,反映大数据在社会经济生活中的重要价值。本书旨在从技术层面,提供一本全面介绍大数据相关技术的专业教材。各章均设有习题。
本书既可作为高等学校大数据相关专业的教材使用,也可供大数据领域专业技术人员参考。
前辅文 第1章 引论 引言 1.1 大数据时代背景 1.1.1 大数据的崛起 1.1.2 大数据发展历程 1.1.3 各国大数据的发展 1.2 从数据到大数据 1.2.1 数据 1.2.2 大数据 1.2.3 大数据分类 1.3 大数据价值期望 1.3.1 新型范式 1.3.2 赋能价值 1.3.3 数据要素化 1.3.4 数据智能 1.4 大数据理论技术 1.4.1 数据科学 1.4.2 大数据技术 本章小结 习题1 第2章 大数据获取 引言 2.1 分析数据来源,实现数据价值 2.1.1 数据来源的多样化 2.1.2 数据价值 2.2 内部数据及获取方法 2.2.1 内部数据概述 2.2.2 内部数据获取 2.3 外部数据及获取方法 2.3.1 外部数据概述 2.3.2 浅网数据获取方法 2.3.3 深网数据获取方法 本章小结 习题2 第3章 大数据管理 引言 3.1 大数据管理概述 3.1.1 数据管理系统发展历史 3.1.2 大数据管理系统特征 3.2 大数据模型与查询语言 3.2.1 关系模型与查询语言 3.2.2 键值对模型与查询语言 3.2.3 列族模型与查询语言 3.2.4 文档模型与查询语言 3.2.5 图模型与查询语言 3.3 大数据管理系统 3.3.1 大数据管理系统层次结构 3.3.2 大数据的组织与存取 3.3.3 大数据系统容错与故障恢复 3.3.4 NoSQL大数据管理系统 3.3.5 NewSQL大数据管理系统 本章小结 习题3 第4章 大数据处理 引言 4.1 大数据处理生态系统 4.2 典型大数据处理编程模型与框架 4.2.1 批处理编程模型与框架 4.2.2 流处理编程模型与框架 4.2.3 图计算编程模型与框架 4.3 新型大数据处理系统 4.3.1 批流混合系统 4.3.2 内存计算系统 本章小结 习题4 第5章 大数据分析 引言 5.1 大数据分析方法 5.1.1 统计分析 5.1.2 机器学习 5.1.3 深度学习 5.1.4 图结构挖掘与分析 5.2 分布式大数据分析技术 5.2.1 分布式学习 5.2.2 联邦学习 5.3 大数据分析平台 5.3.1 机器学习大数据分析平台 5.3.2 分布式大数据分析平台 5.3.3 多源异构大数据分析平台 5.4 数据可视化 5.4.1 可视化定义 5.4.2 数据可视化的发展 5.4.3 数据可视化技术 5.4.4 数据可视化工具及图形库 本章小结 习题5 第6章 大数据安全 引言 6.1 大数据安全概述 6.1.1 大数据 6.1.2 大数据安全 6.2 数据安全基础 6.2.1 密码学 6.2.2 身份认证与访问控制 6.2.3 通信安全与软件安全 6.3 数据安全技术 6.3.1 数据采集 6.3.2 数据传输 6.3.3 数据存储 6.3.4 数据使用 6.3.5 数据销毁 6.4 数据共享和流通安全 6.4.1 数据共享和流通概述 6.4.2 数据匿名化技术 6.4.3 同态加密技术 6.4.4 安全多方计算 6.4.5 机密计算 6.4.6 联邦学习 6.4.7 安全多方学习 6.5 大数据系统平台安全 6.5.1 认证与访问控制 6.5.2 数据安全保护 6.5.3 数据容灾与故障恢复 6.5.4 安全运维与审计 6.6 数据安全治理 6.6.1 引言 6.6.2 我国数据安全法律规范 6.6.3 数据分类分级 6.6.4 数据安全治理指南 6.6.5 数据安全能力成熟度评估 6.7 大数据安全展望 6.7.1 大数据对抗 6.7.2 大数据安全与大模型安全 本章小结 习题6 第7章 大数据治理 引言 7.1 大数据治理概述 7.1.1 大数据治理的概念体系 7.1.2 大数据治理的技术体系 7.1.3 大数据治理的应用 7.2 元数据管理 7.2.1 元数据概述 7.2.2 元数据管理方案 7.2.3 元数据管理的应用 7.3 主数据管理 7.3.1 主数据概述 7.3.2 主数据管理方案 7.3.3 主数据管理的应用 7.4 数据质量管理 7.4.1 数据质量概述 7.4.2 数据质量管理技术 7.4.3 数据质量管理框架 7.4.4 数据质量管理的应用 7.5 数据集成 7.5.1 数据集成概述 7.5.2 传统数据集成技术 7.5.3 跨界数据集成技术 7.5.4 数据集成的应用 7.6 数据标准化 7.6.1 数据标准概述 7.6.2 数据标准管理 7.6.3 数据标准化的应用 本章小结 习题7 第8章 大数据案例 引言 8.1 网页重要性排序 8.1.1 案例背景 8.1.2 PageRank算法概述 8.1.3 使用Spark实现PageRank算法 8.1.4 使用MapReduce实现PageRank算法 8.1.5 小结 8.2 贷款违约预测 8.2.1 案例背景 8.2.2 数据探索 8.2.3 数据预处理 8.2.4 特征工程 8.2.5 模型训练 8.2.6 模型评估 8.2.7 小结 8.3 自动驾驶 8.3.1 案例背景 8.3.2 感知识别 8.3.3 决策规划 8.3.4 控制执行 8.3.5 小结 8.4 大数据智能案例 8.4.1 案例背景 8.4.2 预训练模型 8.4.3 数据集构造 8.4.4 模型微调 8.4.5 效果展示和评估 8.4.6 小结 本章小结 习题8 参考文献