图书介绍
大数据管理丛书 大数据集成pdf电子书版本下载

- (美)董欣,(美)戴夫士·斯里瓦斯塔瓦著;王秋月,杜治娟,王硕译 著
- 出版社: 北京:机械工业出版社
- ISBN:9787111559863
- 出版时间:2017
- 标注页数:186页
- 文件大小:22MB
- 文件页数:206页
- 主题词:数据处理
PDF下载
下载说明
大数据管理丛书 大数据集成PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如 BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 大数据集成的挑战和机遇 1
1.1 传统数据集成 2
1.1.1 航班示例:数据源 2
1.1.2 航班示例:数据集成 7
1.1.3 数据集成:体系结构和三个主要步骤 10
1.2 大数据集成:挑战 12
1.2.1 “V”维度 13
1.2.2 案例研究:深网数据量 15
1.2.3 案例研究:抽取的领域数据 18
1.2.4 案例研究:深网数据的质量 22
1.2.5 案例研究:浅网结构化数据 25
1.2.6 案例研究:抽取的知识三元组 28
1.3 大数据集成:机遇 30
1.3.1 数据冗余性 31
1.3.2 长数据 32
1.3.3 大数据平台 33
1.4 章节安排 33
第2章 模式对齐 34
2.1 传统模式对齐:快速导览 35
2.1.1 中间模式 35
2.1.2 属性匹配 36
2.1.3 模式映射 37
2.1.4 查询问答 38
2.2 应对多样性和高速性的挑战 39
2.2.1 概率模式对齐 39
2.2.2 按需集成用户反馈 52
2.3 应对多样性和海量性的挑战 54
2.3.1 集成深网数据 55
2.3.2 集成Web表格 59
第3章 记录链接 68
3.1 传统记录链接:快速导览 69
3.1.1 两两匹配 71
3.1.2 聚类 72
3.1.3 分块 74
3.2 应对海量性挑战 76
3.2.1 使用MapReduce并行分块 77
3.2.2 meta-blocking:修剪两两匹配 83
3.3 应对高速性挑战 88
3.4 应对多样性挑战 95
3.5 应对真实性挑战 100
3.5.1 时态记录链接 100
3.5.2 具有唯一性约束的记录链接 107
第4章 大数据集成:数据融合 113
4.1 传统数据融合:快速导览 114
4.2 应对真实性挑战 116
4.2.1 数据源的准确度 117
4.2.2 值为真的概率 118
4.2.3 数据源之间的复制关系 121
4.2.4 端到端的解决方案 128
4.2.5 扩展性和适应性 131
4.3 应对海量性挑战 134
4.3.1 基于MapReduce框架做离线融合 135
4.3.2 在线数据融合 136
4.4 应对高速性挑战 142
4.5 应对多样性挑战 146
第5章 大数据集成:出现的新问题 149
5.1 众包的角色 149
5.1.1 利用传递关系 150
5.1.2 众包端到端的工作流 155
5.1.3 未来的工作 158
5.2 数据源选择 158
5.2.1 静态数据源 160
5.2.2 动态数据源 162
5.2.3 未来的工作 166
5.3 数据源分析 166
5.3.1 Bellman系统 167
5.3.2 概述数据源 170
5.3.3 未来的工作 174
第6章 结论 175
参考文献 177
索引 184