当前位置: 首页 > 期刊 > 《医药产业资讯》 > 2007年第29期
编号:11504761
中医药古籍特色数据库构建研究(2)
http://www.100md.com 2007年10月25日 王洪禄
第1页

    参见附件(258KB,3页)。

     3.3.3 对扫描所得的原始图文数据进行版面分析、去污和特征抽取。具体流程是:将扫描所得的原始图文数据划分为不同的区域块,识别不同的区域范围;逐个对图像、汉字进行去污处理,消除图像中的噪声干扰和汉字笔划上的毛刺,大幅度提高文字和图像识别的准确率;然后再对预处理后的文字和图像抽取其数据特征,为以后的进一步校对做好准备。 3.3.4 我馆选择“书同文数码翰林”作为对中医药古籍实施数字化加工的软件工具。在操作程序上,“书同文数码翰林”首先对扫描的文字图像进行自动切分,并可从可能切分错误的字和漏切的字两个方面进行检查。完成数字化工程前期对实体资源信息实施数字化加工,并通过软件来辅助和管理人工校对,用 XML 置以标识,使实体资源底层数据实现数字化,从页面影像信息转换成文字信息。

    3.3.5 我们将用 XML 置以标识、校对后的中医古籍电子数据导入数据转换器进行计算和处理。数据转换器DataImporter支持多种数据库之间的数据抽取、转换、装载。它具有强大的表达式计算功能,可以在表达式解释器中,对数据源进行计算处理,同时还能可视化地生成SQL语句。

    3.3.6 当今网络技术快速发展 ......

您现在查看是摘要介绍页,详见PDF附件(258KB,3页)