图书介绍

OREILLY精品图书系列 面向机器学习的自然语言标注pdf电子书版本下载

OREILLY精品图书系列  面向机器学习的自然语言标注
  • (美)普斯特若夫斯基(James Pustejovsky),(美)斯塔布斯(Amber Stubbs)著;邱立坤,金澎,王萌译 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111555155
  • 出版时间:2017
  • 标注页数:294页
  • 文件大小:74MB
  • 文件页数:313页
  • 主题词:自然语言处理

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快] 温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页 直链下载[便捷但速度慢]   [在线试读本书]   [在线获取解压码]

下载说明

OREILLY精品图书系列 面向机器学习的自然语言标注PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如 BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

前言 1

第1章基础知识 7

1.1语言标注的重要性 7

1.1.1语言学描述的层次 8

1.1.2什么是自然语言处理 9

1.2语料库语言学简史 10

1.2.1什么是语料库 13

1.2.2语料库的早期应用 15

1.2.3当今的语料库 17

1.2.4标注类型 18

1.3语言数据和机器学习 24

1.3.1分类 25

1.3.2聚类 25

1.3.3结构化模式归纳 26

1.4标注开发循环 26

1.4.1现象建模 27

1.4.2按照规格说明进行标注 30

1.4.3在语料库上训练和测试算法 31

1.4.4对结果进行评价 32

1.4.5修改模型和算法 33

总结 34

第2章确定目标与选择数据 36

2.1定义目标 36

2.1.1目标陈述 37

2.1.2提炼目标:信息量与正确性 38

2.2背景研究 43

2.2.1语言资源 44

2.2.2机构与会议 44

2.2.3自然语言处理竞赛 45

2.3整合数据集 46

2.3.1理想的语料库:代表性与平衡性 47

2.3.2从因特网上收集数据 47

2.3.3从人群中获取数据 48

2.4语料库的规模 49

2.4.1现有语料库 50

2.4.2语料库内部的分布 51

总结 53

第3章语料库分析 54

3.1语料库分析中的基本概率知识 55

3.1.1联合概率分布 56

3.1.2贝叶斯定理 58

3.2计算出现次数 58

3.2.1齐普夫定律(Zip’s Law) 61

3.2.2 n元语法 62

3.3语言模型 63

总结 65

第4章建立模型与规格说明 66

4.1模型和规格说明示例 66

4.1.1电影题材分类 69

4.1.2添加命名实体 70

4.1.3语义角色 71

4.2采用(或不采用)现有模型 73

4.2.1创建模型和规格说明:一般性与特殊性 74

4.2.2使用现有模型和规格说明 76

4.2.3使用没有规格说明的模型 78

4.3各种标准 78

4.3.1 ISO标准 78

4.3.2社区驱动型标准 81

4.3.3影响标注的其他标准 81

总结 82

第5章选择并应用标注标准 84

5.1元数据标注:文档分类 85

5.1.1单标签标注:电影评论 85

5.1.2多标签标注:电影题材 87

5.2文本范围标注:命名实体 90

5.2.1内嵌式标注 90

5.2.2基于词例的分离式标注 92

5.2.3基于字符位置的分离式标注 95

5.3链接范围标注:语义角色 96

5.4 ISO标准和你 97

总结 97

第6章标注与审核 99

6.1标注项目的基本结构 99

6.2标注规格说明与标注指南 101

6.3准备修改 102

6.4准备用于标注的数据 103

6.4.1元数据 103

6.4.2数据预处理 104

6.4.3为标注工作分割文件 104

6.5撰写标注指南 105

6.5.1例1:单标签标注——电影评论 106

6.5.2例2:多标签标注——电影题材 108

6.5.3例3:范围标注——命名实体 111

6.5.4例4:链接范围标注——语义角色 112

6.6标注人员 114

6.7选择标注环境 116

6.8评价标注结果 117

6.8.1 Cohen的Карра(к)算法 118

6.8.2 Fleiss的Карра(к)算法 119

6.8.3解释Kappa系数 122

6.8.4在其他上下文中计算к值 123

6.9创建黄金标准(审核) 125

总结 126

第7章训练:机器学习 129

7.1何谓学习 130

7.2定义学习任务 132

7.3分类算法 133

7.3.1决策树学习 135

7.3.2朴素贝叶斯学习 140

7.3.3最大熵分类器 145

7.3.4其他需要了解的分类器 147

7.4序列归纳算法 148

7.5聚类和无监督学习 150

7.6半监督学习 150

7.7匹配标注与算法 153

总结 154

第8章测试与评价 156

8.1测试算法 157

8.2评价算法 157

8.2.1混淆矩阵 157

8.2.2计算评价得分 159

8.2.3解释评价得分 163

8.3可能影响算法评价的问题 164

8.3.1数据集太小 164

8.3.2算法过于适合开发数据 166

8.3.3标注中的信息过多 166

8.4最后测试得分 167

总结 167

第9章修改与报告 169

9.1修改项目 170

9.1.1语料库分布和内容 170

9.1.2模型和规格说明 170

9.1.3标注 171

9.1.4训练和测试 172

9.2报告工作 173

9.2.1关于语料库 174

9.2.2关于模型和规格说明 175

9.2.3关于标注任务和标注人员 175

9.2.4关于ML算法 176

9.2.5关于修改 177

总结 177

第10章标注:TimeML 179

10.1 TimeML的设计目标 180

10.2相关研究 181

10.3建设语料库 182

10.4模型:初步的标注规格说明 183

10.4.1时间 183

10.4.2信号 184

10.4.3事件 184

10.4.4链接 184

10.5标注:最初的尝试 185

10.6模型:TimeBank中的TimeML标注规格说明 185

10.6.1时间表达式 185

10.6.2事件 186

10.6.3信号 187

10.6.4链接 187

10.6.5可信度 189

10.7标注:TimeBank的产生 189

10.8 TimeML成为ISO-TimeML 192

10.9对未来建模:TimeML的发展方向 193

10.9.1叙事容器 194

10.9.2将TimeML扩展到其他领域 195

10.9.3事件结构 196

总结 197

第11章自动标注:生成TimeML 199

11.1 TARSQI组件 200

11.1.1 GUTime:时间标志识别 201

11.1.2 EVITA:事件识别及分类 201

11.1.3 GUTenLINK 202

11.1.4 Slinket 204

11.1.5 SputLink 204

11.1.6 TARSQI组件中的机器学习 205

11.2 TTK的改进 206

11.2.1结构变化 206

11.2.2时间实体识别改进:BTime 207

11.2.3时间关系识别 207

11.2.4时间关系验证 208

11.2.5时间关系可视化 209

11.3 TimeML竞赛:TempEval-2 209

11.3.1 TempEval-2:系统概述 210

11.3.2成果综述 213

11.4 TTK的未来 213

11.4.1新的输入格式 213

11.4.2叙事容器/叙事时间 214

11.4.3医学文档 215

11.4.4跨文档分析 216

总结 216

第12章后记:标注的未来发展趋势 217

12.1众包标注 217

12.1.1亚马逊土耳其机器人 218

12.1.2有目的的游戏 219

12.1.3用户生成内容 220

12.2处理大数据 220

12.2.1 Boosting算法 221

12.2.2主动学习 221

12.2.3半监督学习 223

12.3 NLP在线和在云端 223

12.3.1分布式计算 223

12.3.2语言资源共享 224

12.3.3语言应用共享 224

结语 225

附录A可利用的语料库与标注规格说明列表 227

附录B软件资源列表 249

附录C MAE用户指南 269

附录D MAI用户指南 276

附录E参考文献 282

精品推荐