图书介绍

汉语文古籍全文文本化研究pdf电子书版本下载

汉语文古籍全文文本化研究
  • 王荟,肖禹著 著
  • 出版社: 上海:中西书局
  • ISBN:9787547504383
  • 出版时间:2012
  • 标注页数:203页
  • 文件大小:134MB
  • 文件页数:13201822页
  • 主题词:数字技术-应用-古籍整理-研究-中国

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快] 温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页 直链下载[便捷但速度慢]   [在线试读本书]   [在线获取解压码]

下载说明

汉语文古籍全文文本化研究PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如 BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第一章 绪论 1

一、研究意义 3

二、研究对象 3

1.汉语文古籍 3

2.古籍全文文本化 4

(1)古籍全文文本化定义 4

(2)全文文本化在古籍数字化中的地位和作用 4

三、研究现状 5

1.专著论文 5

2.学术会议 7

四、研究的目的与解决的问题 7

五、研究角度 8

六、研究方法 8

第二章 古籍全文数据的功能与格式 9

一、古籍全文数据的功能分析 11

1.检索功能 11

2.显示功能 11

3.后续应用功能 13

二、古籍全文数据的格式 13

1.古籍全文数据的常见格式 13

2.XML格式和PDF格式 14

第三章 古籍全文数据的基本模型描述 15

一、古籍文字模型描述 17

1.古籍用字情况分析 17

2.字符集与集外字 25

3.古籍文字基本模型 28

(1)字符集选择 28

(2)不同字体书体的处理 30

(3)文字转换 31

(4)文字转换策略 32

二、古籍符号模型描述 34

1.古籍符号使用的基本情况 35

(1)标点符号 36

(2)校对符号 38

(3)版式符号 40

(4)专类符号 42

(5)其他符号 43

2.字符集与符号表示 44

(1)字符集中的符号 44

(2)字符集中符号的表示方法 46

3.古籍符号基本模型 46

(1)古籍符号描述 47

(2)古籍符号处理策略 48

三、古籍版式模型描述 48

1.古籍版式分析 49

(1)版面版式 49

(2)文字版式 51

(3)符号版式 54

(4)特殊版式 54

2.古籍版式基本模型 57

(1)古籍版式描述 57

(2)古籍版式的处理策略 62

四、古籍结构模型描述 63

1.古籍的基本结构 63

2.古籍的基本结构描述 64

(1)古籍影像结构模型 64

(2)古籍全文结构模型 66

第四章 古籍全文文本化的基本流程 67

一、全文文本化前期准备 69

1.构建全文文本化模型 69

2.确定全文文本化方法 70

3.底本选择 71

4.可数字化评估 71

二、全文转换 72

1.全文转换方法 73

(1)字符集编码输入 73

(2)自定义编码输入 74

(3)贴图 74

(4)描述 75

2.全文处理策略 77

三、版式转换 78

1.版式转换过程 78

2.有限版式还原 79

四、数据校验 81

1.校验方法选择 82

2.错误率控制 83

(1)错误率计量 83

(2)错误率控制方法 84

第五章 个案研究 87

一、《文渊阁四库全书》电子版项目分析 89

1.项目概述 89

2.项目主要的技术路线 90

3.该项目的特点与不足 91

(1)文字转换 91

(2)版式转换 94

(3)结构描述 96

(4)《文渊阁四库全书》电子版3.0 98

二、数字方志全文文本化项目分析 98

1.项目概述 99

2.项目主要的技术路线 100

(1)全文数据加工方式 100

(2)全文文本化模型 104

3.该项目的特点与不足 108

(1) XML标记体系不一致 108

(2)集外字处理 110

(3)贴图处理 112

(4)表格处理 112

三、《中文文献全文版式还原与全文输入XML…规范》标准分析 112

1.全文版式规范概述 115

2.全文版式规范的主要技术路线 116

3.全文版式规范的特点与不足 117

(1)适用范围 118

(2)术语使用 118

(3)应用指南 119

(4)古籍模型 119

(5)扩充规则 120

(6)图形图像描述 120

(7)表格描述 120

(8)上下文连续描述 123

参考文献 129

一、专著 129

二、论文 130

三、网络文献 133

附录 137

附录一XML格式的古籍全文数据样例 139

附录二 四十种古籍用字统计表 149

附录三 四库和四部语料、国学宝典、数字方志项目核心字和部分高频字对照表 150

附录四CJK文字的字源 153

1.最初期的统一汉字(20,902字)字源 153

2.扩展A区(6,582)字源 153

3.扩展B区(42,711)字源 154

4.扩展C区(4,149)字源 155

附录五 字源编码统一规则示例 157

1.不同语源的字不做统一 157

2.抽象字形(部件数量、部件相对位置和相应部件结构)不同的字不做统一 157

(1)部件数量不同的字不做统一 157

(2)部件相对位置不同的字不做统一 157

(3)相应部件结构不同的字不做统一 157

3.抽象字形相同部件细节不同的字可做统一 157

4.源字集分离原则 157

5.字源编码统一实例 158

附录六 数字方志项目第一至三期造字示例表 159

附录七 集内字Unicode编码与IDS示例 162

附录八 文字认同的示例表 164

附录九 数字方志项目一至三期全文数据样例 170

附录十 数字方志项目四期全文数据头文件样例 175

附录十一 数字方志项目四期全文数据表格描述样例 179

附录十二《中文文献全文版式还原与全文输入XML规范》中定义的主要标签和属性说明表 198

后记 202

精品推荐