【数据产品案例】中医古籍命名实体标注(CC BY-SA,开放下载)
2025-08-31

在当前人工智能与大数据迅猛发展的背景下,传统知识的数字化与结构化成为研究热点之一。中医作为中华文化的瑰宝,其古籍文献中蕴含着丰富的医学知识与临床经验。然而,由于古籍语言的复杂性、术语的多样性以及缺乏统一的标注体系,使得这些宝贵资料难以被现代信息系统高效利用。为解决这一问题,我们推出了一项数据产品案例——“中医古籍命名实体标注”项目,旨在通过自然语言处理技术,对中医古籍文本进行系统性标注,构建高质量的结构化语料资源。

该项目采用开放许可协议(CC BY-SA),即署名-相同方式共享,鼓励研究者与开发者在尊重原作者权益的前提下,自由使用、修改与分发该数据集。目前,该数据集已开放下载,欢迎各界人士参与共建共享。

数据来源与处理流程

本项目的数据来源主要包括《黄帝内经》《伤寒论》《金匮要略》《温病条辨》等具有代表性的中医经典古籍。我们从这些文献中选取了约100万字的核心内容作为语料基础,并通过以下流程进行加工处理:

  1. 文本清洗与预处理:对原始扫描文本进行OCR校对、标点修复、异体字统一等操作,确保文本质量。
  2. 术语抽取与词典构建:基于现有中医术语词典和人工校对,构建专属术语库,涵盖疾病、症状、药物、方剂、脏腑、经络等类别。
  3. 命名实体识别与标注:采用人工标注与机器辅助相结合的方式,对文本中的实体进行识别与标注,标注标准参考BIO格式(Begin, Inside, Outside),确保与主流NER任务兼容。
  4. 质量审核与一致性校验:通过多轮交叉校验与专家评审,确保标注结果的准确性和一致性。

标注实体类别说明

本项目共定义了六大类中医相关实体,具体如下:

  • 疾病类(Disease):如“伤寒”“中风”“消渴”等。
  • 症状类(Symptom):如“头痛”“发热”“口渴”等。
  • 药物类(Herb):如“麻黄”“黄连”“人参”等中药名称。
  • 方剂类(Formula):如“桂枝汤”“小柴胡汤”“白虎汤”等经典方剂。
  • 脏腑类(Organ):如“心”“肝”“脾”“肺”“肾”等内脏器官。
  • 经络类(Meridian):如“太阳经”“阳明经”“少阳经”等中医经络系统术语。

每个实体类别均配有详细的定义与示例说明,确保标注者理解一致,同时也便于后续模型训练与评估。

数据格式与开放获取

本数据集以JSON和TSV两种格式提供,分别适用于结构化查询与机器学习任务。每条记录包含原始文本、实体位置信息、实体类别与标准化名称等字段,便于进行实体识别、关系抽取、知识图谱构建等任务。

数据集现已在GitHub与国内开源平台同步发布,访问地址如下(此处为示例):

https://github.com/ChineseMedicineNER/TCM-NER-Dataset

用户可直接下载使用,同时我们也鼓励社区贡献更多标注数据与改进意见,共同推动中医知识的智能化发展。

应用前景与研究价值

本项目的实施不仅为中医古籍的数字化提供了基础数据支持,也为后续多项研究打开了新的窗口:

  • 中医知识图谱构建:通过实体识别与关系抽取,可逐步构建中医领域的知识图谱,实现知识的可视化与智能推理。
  • 智能问答系统开发:基于标注语料训练问答模型,提升古籍内容的可访问性与实用性。
  • 跨时代医学对比研究:将古籍中的疾病描述与现代医学术语进行映射,有助于理解疾病概念的历史演变。
  • 中医药信息学教学资源建设:为高校与研究机构提供真实、规范的教学与科研数据。

结语

“中医古籍命名实体标注”项目是传统文化与现代科技融合的一次有益尝试。我们希望通过开放共享的方式,吸引更多研究者、开发者与中医爱好者的参与,共同挖掘古籍中的智慧,推动中医药的现代化与国际化发展。未来,我们也将持续更新与扩展数据集,探索更多应用场景,为构建智能化的中医知识体系贡献力量。

15201532315 CONTACT US

公司:赋能智赢信息资讯传媒(深圳)有限公司

地址:深圳市龙岗区龙岗街道平南社区龙岗路19号东森商业大厦(东嘉国际)5055A15

Q Q:3874092623

Copyright © 2022-2025

粤ICP备2025361078号

咨询 在线客服在线客服 电话:13545454545
微信 微信扫码添加我