分类

中医药学语言系统研究综述

  摘要:中医药学语言系统(TCMLS)是由中国中医科学院中医药信息研究所联合全国13家中医药科研单位和高等院校于2002年开始研制的大型术语系统。它是在统一医学语言系统(UMLS)的基础上,根据中医药领域的语言特点及学科体系特色,采用本体(ontology)的设计理念和方法研制而成。经过10余年的发展,TCMLS的技术体系日趋成熟,相关研究也越来越深入和系统化。通过回顾TCMLS的发展历程,对相关研究文献进行综述,分析存在的问题和未来的发展方向。


  关键词:中医药;语言系统;中医药学语言系统;本体


  中医药学经过几千年的发展,在临床实践和医学研究过程中产生了大量的概念和术语。朝代更迭、语言变迁、地域差异、学科融合等多种因素的综合影响,使中医药学术语体系变得极为复杂。针对中医药文本中大量存在的同物异名、同名异物等现象,中医药工作者往往无法做出正确判断。通过建立一个完整、准确的语言系统,能够有效处理词义模糊、一词多义、一义多词等复杂的语言现象,可以解决长期困扰中医药信息化领域的术语使用不规范、术语组织不系统、信息检索效能低下等问题。为此,中国中医科学院中医药信息研究所(以下简称“信息所”)联合全国13家中医药科研单位和高等院校,从2002年开始研制中医药学语言系统(traditionalChinesemedicinelanguagesystem,TCMLS)。本文回顾了TCMLS的发展历程,对相关研究文献进行综述,分析存在的问题和发展方向,为中医药学语言系统的研究、编制和使用人员提供参考。


  1概述


  TCMLS原名为中医药一体化语言系统。它是参照统一医学语言系统(LMLS),根据中医药领域的语言特点及学科体系特色,采用本体(ontology)的设计理念和方法研制而成的大型术语系统。其目的在于利用现代信息技术,逐步建立规范化的中医药术语体系,从而支持中医药信息资源的合理组织和有效检索。


  TCMLS主要包括语义网络(semanticnetwork)和基础词库两大部分。其中,语义网络定义了中医药领域最基本的语义类型(semantictype)和语义关系(semanticrelation),构成TCMLS的顶层框架。基础词库则以概念为单位对中医药术语进行系统梳理和准确诠释,建立科学合理的概念分类体系以及概念之间的语义关系。经过10余年的研发,TCMLS的技术体系日趋完善,建立了成熟的术语采集系统;组建了由300多名专家组成的术语加工团队;收录了约12万个概念、30万个术语和127万条语义关系,涵盖了中医药学科体系及与之相关的生物、化工、哲学等学科的专业术语,在文献检索、文本挖掘、术语集成等方面得到了实际应用。


  2中医药学语言系统发展历程


  从20世纪90年代开始,本体技术在医学领域得到广泛应用,在知识获取、知识管理和信息检索等方面发挥了积极的作用。UMLS是其中的一个代表性本体,它集合了来自100多个词表中的100多万个概念,用于提高计算机“理解”医学信息的能力,促进医学信息系统之间的互操作。注意到UMLS在医学领域取得的成功,中医药工作者开始考虑将本体技术引入中医药领域,以中医药学科为主导且遵循中医药发展思路,研发基于本体的大型术语系统。2002年,信息所联合全国13家单位正式启动了TCMLS的建设工作。TCMLS从建立之初到目前为止,大体经历了3个阶段。


  2.1建设初始阶段(2002―2005年)


  在建设初期,尹爱宁等提出了建立TCMLS的方法学,制定了TCMLS的技术标准。ZhouXZ等则从信息技术角度提出了TCMLS的技术方案。这些研究为TCMLS的建设给出了科学合理的顶层设计和路线图,为其长期健康发展奠定了基础。在此阶段,各单位加工人员采用单机版的Protege软件分别加工各自的部分,再由信息所统一汇总。这一加工模式促成了多单位数百人协同共建,但所加工的数据难免有所重复和矛盾。


  2.2迅速成长阶段(2005―2009年)


  从2005年开始,基于万维网(Web)的加工平台成功部署并投入使用。各单位加工人员得以在统一的网络平台上协同共建,免去了数据汇总的环节。基于网络的协作方式显著提升了加工效率,使TCMLS的规模得以迅速增长。但加工人员的主观性和专业水平差异等因素造成TCMLS的数据存在很多质量问题,因此数据质量保证和数据清洗技术成为研究重点之一。在系统建设的同时,学者们也针对系统设计和架构等问题进行了反复研讨,提出了一系列调整和改进方案。


  2.3稳定发展阶段(2009―2014年)


  经过上一阶段的大规模数据加工,TCMLS已收集了现代中医药文献中出现的大部分概念和术语,其数据增量开始逐年放缓。在2009年,信息所与维思比科技(北京)有限公司合作,在成熟的商业软件的基础上,搭建了更为稳定的网络加工平台。在完成平台改造和数据清洗等工作之后,TCMLS系统的数据质量得以显著提升。随着TCMLS的发展成熟,其在文献检索、文本挖掘、术语集成等诸多方面的应用研究渐趋活跃。TCMLS的设计理念和成功经验,也在中医古籍语言系统、传统针灸知识体系语义网络等系统的建设中得以推广。


  3中医药学语言系统相关研究


  中医药术语系统具有鲜明的语言、文化和学科特色,没有现成的解决方案可以照搬。在TCMLS的建设中,从中医药特点和需求出发,开展了许多创新性的研究工作。下面从方法学研究、标准化研究、分析与评价研究以及应用研究等方面,对相关文献进行综合分析。


  3.1方法学研究


  学者们针对TCMLS的建设,开展了系统性的方法学研究。尹爱宁等提出“复杂度约定与限定方法”“多学科交融与碰撞方法”以及“本体论与诠释论关联应用方法”等3种方法,为TCMLS的设计和构建提供了新思路和新方法。尹爱宁等还完成了TCMLS的顶层设计,包括概念分类框架、语义类型以及语义关系等内容。方青、曾召、谢琪也针对TCMLS的设计理念、设计原则、系统架构和构建方法开展了研究和讨论。在未来的研究中,可将单机版Protege与Web平台相结合,进一步优化大规模本体工程的协作模式。未来可实现TCMLS的模块化,使用Protege开发独立的本体模块,使用Web平台维护共享的本体框架。用户可将个人开发的本体模块导入Web平台中,与共享本体相融合;也可从平台中导出本体模块,通过Protege进行编辑、推理和查询。简单知识组织系统(simpleknowledgeorganizationsystem,SKOS)为本体在Web上的发布和交换提供了一项推荐标准,能支持上述目标的实现。将TCMLS转换为SKOS本体,为在Web平台上完成本体发布、导入导出、本体融合等任务奠定了基础。


  4.2推进中医药学语言系统实际应用


  TCMLS在中医药信息化中具有巨大的应用潜力。中医药领域已积累了大量的数据库和海量文献,但仅提供简单的检索功能。如何基于TCMLS整合中医药数字资源,建立一站式知识服务平台,面向中医药工作者和社会大众提供完整、准确、智能的知识服务,是TCMLS应用研究的核心问题。


  近年来,谷歌知识图谱(Googleknowledgegraph)的巨大成功,使“知识图谱”成为知识服务领域的新的研发热点。TCMLS的大型语义网络为构建大型中医药知识图谱奠定了基础。在今后的研究中,可基于TCMLS将中医药领域主要的术语系统和数据库集成在一起,形成以“语义网络”为骨架的大型知识图谱。知识图谱是TCMLS的一种自然的扩充,其知识内容更加丰富,因此更具服务价值。


  在知识图谱的基础上,可进一步搭建语义维基系统,面向网络用户提供百科全书式的知识服务;并参考维基用户的编辑结果和反馈意见,不断完善和丰富TCMLS的内容,进而实现一站式的知识检索服务,为用户提供异构数据库和文献库的统一检索。在此基础上,可逐步实现知识推荐、知识地图、知识问答、决策支持、关系推理等高级服务。


  5小结


  TCMLS是基于本体技术研制的大型术语系统,它对中医药领域的概念和术语进行了系统梳理,为中医药术语规范化提供了基础性工具。目前,TCMLS已初具规模,其应用推广工作也在稳步进行之中。TCMLS的建立是一项创新性工作,对于中医药术语标准化以及信息数字化的实现具有重大意义。TCMLS的成功表明,本体能很好地处理中医药领域中各种复杂的语言现象,是构建中医药术语系统的有效手段。在国内外尚缺乏构建本体的成熟流程、方法和技术规范的情况下,TCMLS也为本体工程方法学的发展与完善做出了贡献。本文来自《中医药学报》杂志

上一篇:临床药师与临床合理用药
下一篇:枸杞子的药理作用及药用价值的研究论文(共2篇)