图书介绍
大规模中文文本处理pdf电子书版本下载
- 吴立德等著 著
- 出版社: 上海:复旦大学出版社
- ISBN:7309018818
- 出版时间:1997
- 标注页数:170页
- 文件大小:8MB
- 文件页数:177页
- 主题词:
PDF下载
下载说明
大规模中文文本处理PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如 BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第一章 概论 1
1.1 自然语言处理 1
1.1.1 中文信息处理与自然语言处理 1
1.1.2 自然语言处理的基本问题 2
1.2 自然语言处理中的新趋势 7
1.2.1 新趋势的特征 7
1.2.2 美国的情况 8
1.2.3 日本和欧洲的情况 14
1.2.4 在中国 14
1.2.5 一个并未解决的问题 14
1.3 本书内容 15
参考文献 15
第二章 自动分词 16
2.1 自动分词概述 16
2.1.1 分词规范 16
2.1.2 自动分词的原则 17
2.2 词典体系 17
2.2.1 词典体系简介 17
2.2.2 分析词典 18
2.2.3 概念词典 20
2.2.4 动态词典 22
2.3 机械分词方法 23
2.3.1 机械分词方法简介 23
2.3.2 机械分词方法的局限性 24
2.4 歧义字段的处理 25
2.4.1 歧义处理知识 25
2.4.2 一体化分词 25
2.4.3 分词规则 26
2.4.4 复旦分词系统 27
2.5 未登录词的处理 30
2.5.1 未登录词识别方法综述 31
2.5.2 中文姓名的自动辨识 31
2.5.3 统计词汇获取 33
参考文献 36
第三章 自动标注 38
3.1 词性标注与概念标注 38
3.1.1 词性标注与概念标注 38
3.1.2 歧义的消除 39
3.1.3 模型的训练 42
3.1.4 词典 43
3.2 隐马尔可夫模型 43
3.2.1 离散马尔可夫过程 44
3.2.2 隐马尔可夫模型 46
3.2.3 HMM的三个基本问题 47
3.2.4 问题1的解法 48
3.2.5 问题2的解法 49
3.2.6 问题3的解法 51
3.3 稀疏事件的概率估计 53
3.3.1 计数等价类和交叉检验 53
3.3.2 留一估计与Turing—Good公式 55
3.3.3 空等价类 56
3.3.4 有序概率问题 57
3.3.5 受约束模型和折扣模型 57
3.3.6 联合概率与条件概率 59
3.3.7 其他的一些小概率估计算法 61
3.4 标注算法的一个具体例子 62
3.4.1 词类分类标准 62
3.4.2 模型选择 63
3.4.3 词典的管理 64
3.4.4 面向文本解释的标注 65
3.4.5 熟语料的增加 66
参考文献 66
第四章 句法分析 68
4.1 语法分析概要介绍 68
4.1.1 句子的几种数据结构表示 69
4.1.2 语法表示 70
4.1.3 语法分析过程概要 71
4.1.4 自然语言语法分析中的歧义性 72
4.2 语法分析的知识库 72
4.2.1 分析词典 72
4.2.2 语法分析规则 74
4.3 传统分析器 74
4.3.1 传统LR语法分析器 74
4.3.2 传统图算法分析器 76
4.4 扩展LR算法 78
4.4.1 语法分析表的构造 79
4.4.2 扩展LR算法过程 81
4.4.3 例子 84
4.4.4 扩展LR算法的优点和特征 89
4.5 双向图算法分析器 89
4.5.1 传统图算法分析器的不足之处 89
4.5.2 规则的触发类 90
4.6 基于双向图算法的快速部分语法分析 91
4.6.1 FIRST分析表和LAST分析表 91
4.6.2 弧的竞争机制 92
4.6.3 数据结构 93
4.6.4 算法 94
4.6.5 例子 96
4.7 处理汉语真实文本中的一些现象 97
4.7.1 处理语法错误、文字错误 97
4.7.2 句间关系分析 98
参考文献 100
第五章 VSM模型和篇章分析 102
5.1 向量空间模型 102
5.2 项的自动选取及权重评价 103
5.2.1 一般考虑 103
5.2.2 反比文档频数权重评价 104
5.2.3 信噪比 104
5.2.4 项的区分度 105
5.2.5 一个实用的项的权重评价函数 106
5.3 文档特征项 106
5.3.1 词汇特征与字特征 106
5.3.2 短语特征 108
5.3.3 项的分类和分类词典 109
5.4 篇章结构关系图的建立与应用 111
5.4.1 篇章结构关系图 111
5.4.2 主题分析和聚类 112
5.4.3 主题浏览与跳段阅读 114
5.5 基于语言学知识的分析方法 116
参考文献 117
第六章 应用技术 119
6.1 自动索引 119
6.1.1 从手工索引到自动索引 119
6.1.2 索引词典 120
6.1.3 自动索引的过程 121
6.2 信息检索 122
6.2.1 简介 122
6.2.2 严格匹配模型 124
6.2.3 概率模型 125
6.2.4 向量检索模型 136
6.3 文档分类 144
6.3.1 文档分类简述 144
6.3.2 有指导的分类 145
6.3.3 无指导的分类 149
6.4 自动文摘 153
6.4.1 自动文摘研究概况 153
6.4.2 自动文摘的信息处理过程 155
6.4.3 自动文摘的评估 158
6.4.4 实例:FDASCT文摘系统简介 159
参考文献 163
附录:术语表 167