图书介绍

中文文本聚类研究pdf电子书版本下载

龚静著著
出版社：北京：中国传媒大学出版社
ISBN：756570444X
出版时间：2012
标注页数：203页
文件大小：32MB
文件页数：214页
主题词：自然语言处理－研究

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快] 温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：539108eff162adc316c8af082abf8369

下载说明

中文文本聚类研究PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如 BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章绪论 1

1.1 文本挖掘 1

1.1.1 文本挖掘的定义 1

1.1.2 文本挖掘的内容 2

1.1.3 文本挖掘的特点 4

1.1.4 常用文本挖掘技术 4

1.1.5 文本挖掘中面临的问题 5

1.2 文本聚类 7

1.2.1 聚类的概念 7

1.2.2 文本聚类 8

1.2.3 文本聚类的应用 12

1.2.4 中文文本聚类过程 13

1.2.5 文本聚类研究的难点 14

1.2.6 文本聚类研究进展 15

1.3 文本相似度衡量 17

1.3.1 文档与文档之间的相似度度量 17

1.3.2 文档集合与文档集合之间的相似度度量 19

1.3.3 文档与文档集合之间的相似度度量 20

1.4 文本聚类结果的评价方法 20

1.4.1 基于人工判定的指标 21

1.4.2 基于目标函数的指标 22

第2章中文文本的数学描述 25

2.1 文本预处理 25

2.1.1 文本预处理概述 25

2.1.2 文本预处理的过程 26

2.2 中文文本特征项的表示方法 26

2.2.1 基于字的特征表示法 27

2.2.2 基于词的特征表示法 28

2.2.3 基于概念的特征项表示法 28

2.2.4 基于短语的特征表示法 29

2.2.5 基于N-Grams的特征表示法 29

2.3 中文分词 30

2.3.1 分词的概念 30

2.3.2 中文分词难点 31

2.3.3 分词算法 33

2.3.4 中文分词衡量的指标 36

2.3.5 中文分词系统 37

2.4 数据清洗 39

2.4.1 停用词过滤 39

2.4.2 同义词归并 40

2.5 文本表示模型 41

2.5.1 布尔逻辑模型 41

2.5.2 向量空间模型 42

2.5.3 模糊逻辑模型 46

2.5.4 概率模型 46

2.5.5 语言模型 46

第3章词语权重计算方法 48

3.1 基于频率特性的单词权重计算方法 48

3.1.1 布尔函数 48

3.1.2 特征项频率 49

3.1.3 对数函数 49

3.1.4 反文档频率 49

3.1.5 TF-IDF函数 50

3.1.6 四种基于频率特性的单词权重计算方法比较 51

3.2 基于语义的特征项加权方法 53

3.2.1 基于词语语义的加权方法 53

3.2.2 基于词语间的语义关系的加权方法 55

3.2.3 基于多重因子加权的权值计算方法 62

3.2.4 基于单种语义的加权方法与基于多重因子加权方法比较 64

第4章特征降维方法 66

4.1 特征降维 66

4.1.1 特征降维概述 66

4.1.2 特征降维技术 67

4.2 特征选择 68

4.2.1 特征选择的定义 68

4.2.2 特征选择原则 69

4.2.3 特征选择的过程 70

4.2.4 特征选择算法 70

4.2.5 几种新的用于文本聚类的特征选择方法 75

4.3 特征抽取 90

4.3.1 特征抽取概述 90

4.3.2 特征抽取方法 91

4.3.3 一种基于知网的特征抽取方法 98

第5章文本聚类算法 104

5.1 聚类算法的分类 104

5.1.1 划分聚类算法 104

5.1.2 层次聚类算法 105

5.1.3 基于密度的聚类算法 106

5.1.4 基于网格的聚类算法 107

5.1.5 基于模型的聚类算法 108

5.1.6 基于概念的聚类算法 108

5.1.7 基于短文本的聚类算法 109

5.1.8 其他聚类算法 110

5.2 如何选择具体的聚类算法 110

5.2.1 聚类的类型 111

5.2.2 簇的类型及特征 111

5.2.3 噪声和离群点的考虑 111

5.2.4 数据对象的个数 112

5.3 常用的中文文本聚类算法 113

5.3.1 基于密度的文本聚类算法 113

5.3.2 基于划分的文本聚类算法 117

5.3.3 基于层次的文本聚类算法 120

5.3.4 基于网格的算法 124

5.3.5 基于模型的算法 127

5.3.6 其他聚类算法 136

5.3.7 基于人工免疫的文本聚类算法 151

第6章文本聚类算法的改进 157

6.1 k-means算法改进 157

6.1.1 k-means算法存在的不足 157

6.1.2 一种基于层次聚类的k-means算法 158

6.2 DBSACAN算法改进 163

6.2.1 DBSCAN算法存在的不足 163

6.2.2 DETC文本聚类算法 163

6.3 模糊C均值聚类算法改进 169

6.3.1 模糊C均值聚类算法解析 169

6.3.2 基于遗传算法的文本模糊聚类方法FCMGO 170

6.4 自组织特征映射算法（SOM）改进 176

6.4.1 SOM算法不足分析 176

6.4.2 一种动态SOM的增量中文文本聚类方法 176

6.5 蚁群算法的改进 183

6.5.1 蚁群算法存在的不足 183

6.5.2 一种改进的蚁群算法 183

附录中英文关键词对照表 188

参考文献 190