图书介绍

Spark机器学习 核心技术与实践pdf电子书版本下载

Spark机器学习  核心技术与实践
  • (美)亚历克斯·特列斯,(美)马克斯·帕普拉,(美)迈克尔·马洛赫拉瓦著;邵赛赛,阳卫清,唐明洁译 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111598466
  • 出版时间:2018
  • 标注页数:229页
  • 文件大小:27MB
  • 文件页数:246页
  • 主题词:机器学习

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快] 温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页 直链下载[便捷但速度慢]   [在线试读本书]   [在线获取解压码]

下载说明

Spark机器学习 核心技术与实践PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如 BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 大规模机器学习和Spark入门 1

1.1 数据科学 2

1.2 数据科学家:21世纪最炫酷的职业 2

1.2.1 数据科学家的一天 3

1.2.2 大数据处理 4

1.2.3 分布式环境下的机器学习算法 4

1.2.4 将数据拆分到多台机器 6

1.2.5 从Hadoop MapReduce到Spark 6

1.2.6 什么是Databricks 7

1.2.7 Spark包含的内容 8

1.3 H2O.ai简介 8

1.4 H2O和Spark MLlib的区别 10

1.5 数据整理 10

1.6 数据科学:一个迭代过程 11

1.7 小结 11

第2章 探索暗物质:希格斯玻色子 12

2.1 Ⅰ型错误与Ⅱ型错误 12

2.1.1 寻找希格斯玻色子 13

2.1.2 LHC和数据的创建 13

2.1.3 希格斯玻色子背后的理论 14

2.1.4 测量希格斯玻色子 14

2.1.5 数据集 14

2.2 启动Spark与加载数据 15

2.2.1 标记点向量 22

2.2.2 创建训练和测试集合 24

2.2.3 第一个模型:决策树 26

2.2.4 下一个模型:集合树 32

2.2.5 最后一个模型:H2O深度学习 37

2.2.6 构建一个3层DNN 39

2.3 小结 45

第3章 多元分类的集成方法 46

3.1 数据 47

3.2 模型目标 48

3.2.1 挑战 48

3.2.2 机器学习工作流程 48

3.2.3 使用随机森林建模 61

3.3 小结 78

第4章 使用NLP和Spark Streaming预测电影评论 80

4.1 NLP简介 81

4.2 数据集 82

4.3 特征提取 85

4.3.1 特征提取方法:词袋模型 85

4.3.2 文本标记 86

4.4 特征化——特征哈希 89

4.5 我们来做一些模型训练吧 92

4.5.1 Spark决策树模型 93

4.5.2 Spark朴素贝叶斯模型 94

4.5.3 Spark随机森林模型 95

4.5.4 Spark GBM模型 96

4.5.5 超级学习器模型 97

4.6 超级学习器 97

4.6.1 集合所有的转换 101

4.6.2 使用超级学习器模型 105

4.7 小结 105

第5章 word2vec预测和聚类 107

5.1 词向量的动机 108

5.2 word2vec解释 108

5.2.1 什么是单词向量 108

5.2.2 CBOW模型 110

5.2.3 skip-gram模型 111

5.2.4 玩转词汇向量 112

5.2.5 余弦相似性 113

5.3 doc2vec解释 113

5.3.1 分布式内存模型 113

5.3.2 分布式词袋模型 114

5.4 应用word2vec并用向量探索数据 116

5.5 创建文档向量 118

5.6 监督学习任务 119

5.7 小结 123

第6章 从点击流数据中抽取模式 125

6.1 频繁模式挖掘 126

6.2 使用Spark MLlib进行模式挖掘 130

6.2.1 使用FP-growth进行频繁模式挖掘 131

6.2.2 关联规则挖掘 136

6.2.3 使用prefix span进行序列模式挖掘 138

6.2.4 在MSNBC点击流数据上进行模式挖掘 141

6.3 部署模式挖掘应用 147

6.4 小结 154

第7章 使用GraphX进行图分析 155

7.1 基本的图理论 156

7.1.1 图 156

7.1.2 有向和无向图 156

7.1.3 阶和度 157

7.1.4 有向无环图 158

7.1.5 连通分量 159

7.1.6 树 160

7.1.7 多重图 160

7.1.8 属性图 161

7.2 GraphX分布式图计算引擎 162

7.2.1 GraphX中图的表示 163

7.2.2 图的特性和操作 165

7.2.3 构建和加载图 170

7.2.4 使用Gephi可视化图结构 172

7.2.5 图计算进阶 178

7.2.6 GraphFrame 181

7.3 图算法及其应用 183

7.3.1 聚类 183

7.3.2 顶点重要性 185

7.4 GraphX在上下文中 188

7.5 小结 189

第8章 Lending Club借贷预测 190

8.1 动机 190

8.1.1 目标 191

8.1.2 数据 192

8.1.3 数据字典 192

8.2 环境准备 193

8.3 数据加载 193

8.4 探索——数据分析 194

8.4.1 基本清理 194

8.4.2 预测目标 200

8.4.3 使用模型评分 221

8.4.4 模型部署 224

8.5 小结 229

精品推荐