图书介绍

大规模中文文本处理pdf电子书版本下载

大规模中文文本处理
  • 吴立德等著 著
  • 出版社: 上海:复旦大学出版社
  • ISBN:7309018818
  • 出版时间:1997
  • 标注页数:170页
  • 文件大小:8MB
  • 文件页数:177页
  • 主题词:

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快] 温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页 直链下载[便捷但速度慢]   [在线试读本书]   [在线获取解压码]

下载说明

大规模中文文本处理PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如 BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第一章 概论 1

1.1 自然语言处理 1

1.1.1 中文信息处理与自然语言处理 1

1.1.2 自然语言处理的基本问题 2

1.2 自然语言处理中的新趋势 7

1.2.1 新趋势的特征 7

1.2.2 美国的情况 8

1.2.3 日本和欧洲的情况 14

1.2.4 在中国 14

1.2.5 一个并未解决的问题 14

1.3 本书内容 15

参考文献 15

第二章 自动分词 16

2.1 自动分词概述 16

2.1.1 分词规范 16

2.1.2 自动分词的原则 17

2.2 词典体系 17

2.2.1 词典体系简介 17

2.2.2 分析词典 18

2.2.3 概念词典 20

2.2.4 动态词典 22

2.3 机械分词方法 23

2.3.1 机械分词方法简介 23

2.3.2 机械分词方法的局限性 24

2.4 歧义字段的处理 25

2.4.1 歧义处理知识 25

2.4.2 一体化分词 25

2.4.3 分词规则 26

2.4.4 复旦分词系统 27

2.5 未登录词的处理 30

2.5.1 未登录词识别方法综述 31

2.5.2 中文姓名的自动辨识 31

2.5.3 统计词汇获取 33

参考文献 36

第三章 自动标注 38

3.1 词性标注与概念标注 38

3.1.1 词性标注与概念标注 38

3.1.2 歧义的消除 39

3.1.3 模型的训练 42

3.1.4 词典 43

3.2 隐马尔可夫模型 43

3.2.1 离散马尔可夫过程 44

3.2.2 隐马尔可夫模型 46

3.2.3 HMM的三个基本问题 47

3.2.4 问题1的解法 48

3.2.5 问题2的解法 49

3.2.6 问题3的解法 51

3.3 稀疏事件的概率估计 53

3.3.1 计数等价类和交叉检验 53

3.3.2 留一估计与Turing—Good公式 55

3.3.3 空等价类 56

3.3.4 有序概率问题 57

3.3.5 受约束模型和折扣模型 57

3.3.6 联合概率与条件概率 59

3.3.7 其他的一些小概率估计算法 61

3.4 标注算法的一个具体例子 62

3.4.1 词类分类标准 62

3.4.2 模型选择 63

3.4.3 词典的管理 64

3.4.4 面向文本解释的标注 65

3.4.5 熟语料的增加 66

参考文献 66

第四章 句法分析 68

4.1 语法分析概要介绍 68

4.1.1 句子的几种数据结构表示 69

4.1.2 语法表示 70

4.1.3 语法分析过程概要 71

4.1.4 自然语言语法分析中的歧义性 72

4.2 语法分析的知识库 72

4.2.1 分析词典 72

4.2.2 语法分析规则 74

4.3 传统分析器 74

4.3.1 传统LR语法分析器 74

4.3.2 传统图算法分析器 76

4.4 扩展LR算法 78

4.4.1 语法分析表的构造 79

4.4.2 扩展LR算法过程 81

4.4.3 例子 84

4.4.4 扩展LR算法的优点和特征 89

4.5 双向图算法分析器 89

4.5.1 传统图算法分析器的不足之处 89

4.5.2 规则的触发类 90

4.6 基于双向图算法的快速部分语法分析 91

4.6.1 FIRST分析表和LAST分析表 91

4.6.2 弧的竞争机制 92

4.6.3 数据结构 93

4.6.4 算法 94

4.6.5 例子 96

4.7 处理汉语真实文本中的一些现象 97

4.7.1 处理语法错误、文字错误 97

4.7.2 句间关系分析 98

参考文献 100

第五章 VSM模型和篇章分析 102

5.1 向量空间模型 102

5.2 项的自动选取及权重评价 103

5.2.1 一般考虑 103

5.2.2 反比文档频数权重评价 104

5.2.3 信噪比 104

5.2.4 项的区分度 105

5.2.5 一个实用的项的权重评价函数 106

5.3 文档特征项 106

5.3.1 词汇特征与字特征 106

5.3.2 短语特征 108

5.3.3 项的分类和分类词典 109

5.4 篇章结构关系图的建立与应用 111

5.4.1 篇章结构关系图 111

5.4.2 主题分析和聚类 112

5.4.3 主题浏览与跳段阅读 114

5.5 基于语言学知识的分析方法 116

参考文献 117

第六章 应用技术 119

6.1 自动索引 119

6.1.1 从手工索引到自动索引 119

6.1.2 索引词典 120

6.1.3 自动索引的过程 121

6.2 信息检索 122

6.2.1 简介 122

6.2.2 严格匹配模型 124

6.2.3 概率模型 125

6.2.4 向量检索模型 136

6.3 文档分类 144

6.3.1 文档分类简述 144

6.3.2 有指导的分类 145

6.3.3 无指导的分类 149

6.4 自动文摘 153

6.4.1 自动文摘研究概况 153

6.4.2 自动文摘的信息处理过程 155

6.4.3 自动文摘的评估 158

6.4.4 实例:FDASCT文摘系统简介 159

参考文献 163

附录:术语表 167

精品推荐