图书介绍

搜索引擎原理、实践与应用pdf电子书版本下载

搜索引擎原理、实践与应用
  • 卢亮,张博文编著 著
  • 出版社: 北京:电子工业出版社
  • ISBN:7121048108
  • 出版时间:2007
  • 标注页数:291页
  • 文件大小:36MB
  • 文件页数:305页
  • 主题词:互联网络-情报检索

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快] 温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页 直链下载[便捷但速度慢]   [在线试读本书]   [在线获取解压码]

下载说明

搜索引擎原理、实践与应用PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如 BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 搜索引擎的历史和现状 1

1.1 搜索引擎的历史 1

1.2 搜索引擎的分类 4

1.3 搜索引擎的现状 6

1.4 世界主要搜索引擎介绍 7

1.4.1 Google 7

1.4.2 百度 10

1.4.3 Technorati 11

1.4.4 Alltheweb 12

1.4.5 Ask.com 13

1.4.6 MSN Search 14

小结 15

参考文献 15

第2章 数据挖掘 17

2.1 数据挖掘概览 17

2.1.1 为什么要做数据挖掘 19

2.1.2 数据挖掘的任务 20

2.1.3 关联挖掘和分析 21

2.1.4 分类 21

2.1.5 聚类分析 23

2.1.6 序列模式分析 24

2.1.7 偏差分析 24

2.2 数据挖掘的常用技术 25

2.2.1 人工神经网络 25

2.2.2 统计分析 26

小结 27

参考文献 27

第3章 搜索引擎的数据结构 29

3.1 存储结构 29

3.1.1 四种基本存储方法 30

3.2 索引 33

3.2.1 倒排索引 33

3.3 结构化查询语言 36

3.4 海量数据系统 38

小结 39

参考文献 39

第4章 搜索引擎的基本结构 40

4.1 网络爬虫 41

4.2 排序 43

4.2.1 网页的权重 43

4.2.2 向量空间模型VSM 44

4.2.3 扩展相关信息 46

4.3 索引系统 49

4.4 缓存机制 55

小结 55

参考文献 56

第5章 搜索引擎爬虫 57

5.1 深度优先与广度优先 58

5.1.1 网页链接情况概览 58

5.1.2 取得有效的网页文字 59

5.1.3 深度优先 61

5.1.4 广度优先 63

5.2 实例——Larbin 65

5.2.1 Larbin简介 65

5.2.2 Larbin的作用 66

5.2.3 Larbin的使用 66

5.2.4 Larbin的性能特征 68

小结 68

参考文献 69

第6章 搜索引擎索引系统 70

6.1 索引结构 70

6.2 使用直接I/O提高文件扫描性能 75

6.3 倒排表合并策略 78

6.4 利用内存临时索引技术实现即时搜索 81

6.5 对正排文件进行压缩减少磁盘占用 82

6.6 实例——Lucene 83

6.6.1 Lucene的原理 84

6.6.2 对多个字段进行联合检索 92

6.6.3 对索引进行优化 93

6.6.4 利用RangeQuery进行范围查询 94

6.6.5 组合查询 95

6.6.6 多个索引进行联合搜索 96

6.7 实例——Booso.com 98

小结 111

参考文献 111

第7章 分布式搜索引擎设计 112

7.1 分布式搜索引擎的核心问题 112

7.2 分布式元搜索引擎 113

7.3 散列式分布搜索引擎 120

7.3.1 散列式分布搜索引擎原理 121

7.3.2 对散列式分布搜索引擎的改进 129

7.3.3 散列式分布搜索引擎的缺陷 131

7.4 索引与文档的分开存放 132

7.4.1 文档服务器的设计 134

7.4.2 文档服务器的分布式处理 135

7.5 对分布式结构建立缓存机制 137

7.6 混合分布式搜索引擎 139

7.7 分布式搜索引擎的扩展性 142

7.7.1 一种实用的节点动态调整方案 143

7.8 P2P分布搜索引擎 146

7.9 局部遍历型搜索引擎 150

小结 152

参考文献 153

第8章 Google搜索引擎的结构 155

8.1 Google要解决的问题 155

8.2 Google的分布式设计 157

8.3 Google文件系统 161

8.4 MapReduce 166

8.5 BigTable 171

8.6 相关搜索的实现 176

小结 176

参考文献 177

第9章 中文分词 178

9.1 中文信息的特征 178

9.2 搜索引擎的分词 179

9.3 分词的方法 180

9.3.1 正向最大匹配分词 181

9.3.2 逆向最大匹配分词 185

9.4 基于统计的分词方法 187

9.5 其他分词系统 188

9.6 混合分词 191

9.7 对分不出来的词的处理 192

9.8 停止词训练方法 194

9.9 实例——分词程序 195

小结 207

参考文献 208

第10章 分类与聚类 209

10.1 分类与聚类介绍 209

10.1.1 自动分类 209

10.1.2 自动聚类 211

10.2 自动分类的原理 211

10.2.1 自动分类技术概览 211

10.2.2 矢量模型 214

10.2.3 在多文档情况下的矢量模型的修正 214

10.2.4 TF*IDF的修正 215

10.2.5 基于位置的修正 215

10.3 文本信息的噪声模型 216

10.3.1 文本信息模型概览 216

10.3.2 噪声模型 216

10.3.3 噪声的提取 217

10.4 分类的实验 218

10.4.1 实施步骤 218

10.4.2 样本与类向量 219

10.4.3 分类实验的流程 220

10.4.4 分类结果的输出 221

10.5 利用层次聚类法实现文本自动聚类 222

10.5.1 层次聚类技术 222

10.5.2 实现步骤 223

10.5.3 自动聚类实例 224

小结 226

参考文献 226

第11章 内容消重和SPAM消除 228

11.1 信息指纹 229

11.2 内容消重 230

11.3 Spam的识别和剔除 232

11.3.1 一种简单实用的识别SPAM方法 234

11.3.2 一个最大的spam案例 237

小结 238

参考文献 239

第12章 图像搜索引擎 241

12.1 简介 241

12.2 图像的收集过程 242

12.2.1 图像的发现 243

12.2.2 图像的文件形式 244

12.3 主题分类和索引 245

12.3.1 文本处理 245

12.3.2 图像的主题分类(Taxonomy) 246

12.3.3 关键词表和目录名与主题的匹配 247

12.4 搜索、浏览、挖掘 248

12.5 基于图像内容的搜索技术 249

12.5.1 色阶图的相似性 250

12.5.2 自动图像归类 251

12.5.3 相关反馈 251

12.5.4 色阶图的调节 252

12.6 基于图像内容的搜索实例 252

12.6.1 Retrievr系统 253

12.6.2 图像聚类的Booso算法 255

12.6.3 一个图像处理的实例 256

12.6.4 基于图像内容聚类的实现 259

小结 260

参考资料 260

附录 262

精品推荐