当前位置: 首页 > 期刊 > 《中国中医药信息杂志》 > 2015年第12期
编号:12711083
基于文本挖掘的《本草集要》语义内容与特征分析(2)
http://www.100md.com 2015年12月1日 《中国中医药信息》 2015年第12期
基于文本挖掘的《本草集要》语义内容与特征分析,中医古籍,文本挖掘研究,中文分词,计算机应用
     1 资料与方法

    1.1 文献录入与文本数据处理

    以《本草集要》朱廷立本为底本,以中国中医科学院图书馆藏明刊本为对校本,参校以上海中医药大学图书馆藏明刊本、《证类本草》卷首及《神农本草经》序例,结合本校和理校,对全书进行了文字录入和精细的校勘,将录入校对后文本信息转化为平面文件。应用ROST Content Mining System 6.0统计字频,并根据中药相关语义进行人工分词。分词后进行词频分析,应用ROST Content Mining System 6.0对平面文件文档进行词频统计、提取,构建之乎者也等停用词表,剔除之乎者也之类的虚词,生成高频词表,分析《本草集要》中中药相关信息。

    1.2 关联网络的构建

    运用共现分析方法中的共词分析(Co-word analysis)方法,根据统计学聚类分析的方法研究文本中知识单元的共现分布特征[3],应用ROST Content Mining System 6.0形成高频词的共现矩阵。在网络中,以中药名称等高频词作为网络中的节点,以各种中药及相关语义信息之间关联关系作为网络中的边,将共现矩阵导入Cytoscape 软件[4]进行可视化处理。

    2 结果

    2.1 《本草集要》字频分析

    通过对《本草集要》字频分析,发现《本草集要》中使用频次最高的是“气”,体现《本草集要》对“药物之气”“人身之气”的高度重视;另一个出现频次较高的字是“血”。通过字频分析发现,《本草集要》对气血的重视与中医认为气血调和对人体健康具有重要意义的理论是一致的 ......
上一页1 2

您现在查看是摘要页,全文长 5973 字符