[摘要]沈阳智能AI电子病历 技术命名实体识别(NER)是自然语言处理任务中一项基础而重要的任务,在机器翻译、自动问答系统和信息检索等系统中有广泛应用。
技术命名实体识别(NER)是自然语言处理任务中一项基础而重要的任务,在机器翻译、自动问答系统和信息检索等系统中有广泛应用。
目前生物医学名称识别技术分为几类:基于字典的方法,基于规则的方法和机器学习方法。基于字典的方法往往会漏掉字典中未提到的未定义的术语。基于规则的方法需要从文本中识别术语的规则,并且由此产生的规则并不是在所有情况下都是有效的。基于机器学习的命名实体识别是目前自然语言处理的主流方法,可有效提高模型准确率。
标注
参照电子病历(EMR)特点,可将医疗实体分为五大类:疾病、疾病诊断分类、临床表现、检查、治疗。每个大类里又可根据具体需要划分为不同小类实体,实体与实体之间存在不同关系,如部位和症状的关系、症状和诊断的关系等。在病历标注的过程中需遵循三个主要规则:不重叠、不嵌套、不含有起分隔作用的标点符号。语料标注主要采取人工标注及标注工具自动标注相结合的方式,既节省人力,又提高标注的准确性。
训练
通过大量语料标注,模型将学习到如何去识别医学中不同的实体及关系,样本量越多模型学习效果越好。模型经过充分训练后变能够自动识别医疗文本中的不同实体及关系,将杂乱无章且不规范的非结构化文本数据结构化,让数据更加规范、统一,有利于计算机分析、处理。
更多行业资讯请关注辽宁讯飞科技有限公司,网址: