当前位置: 首页 > 期刊 > 《医学信息》 > 20147
编号:13698475
基于自然语言处理的临床决策支持系统(2)
http://www.100md.com 2014年2月19日 刘坤尧 杨渝沙
第1页

    参见附件。

     2.2.1分句 根据汉语对语句、句群和篇章的定义,主要以基本的标点符号:句号、问号、感叹号、分号、逗号等作为子句的分隔符。通过使用这些标点符号对语言进行计算机子句分割,完成分句处理。分为基本单句的分割,和句群的分割,基本单句表达了一个基本概念,而句群才表达了一个完整意思。中文主要以句号、问号、省略号等为句群结束符,而医疗文书基本上都是陈述句,故多以句号为句群结束符。

    2.2.2分词 目前主流的分词算法主要有三种,分别为基于字符串匹配的分词算法、基于理解的分詞算法和基于统计的分词算法。从词库中词条或习惯搭配短语的最大长度开始,逐渐缩短,对基本分句进行匹配词库中的词条。最后把医疗文书分割为一个个词汇或短语。

    在分词过程中,预期相当重要,比如遇到关键词:体温,从大概率事件来说,其后可能的组合是升高、降低、不升、高热、中热(中度发热)、低热、或者数字加上℃等。

    2.2.3语义分析、文本摘要 根据汉语基本语法,对词汇进行重组,剔除意义不大的部分,形成摘要。实际上,医疗文书本身就是文本摘要,话句话说,在繁忙的临床工作中,医护人员不会书写一些意义不大的废话,只想尽量精简扼要 ......

您现在查看是摘要介绍页,详见PDF附件