在当前人工智能与大数据迅猛发展的背景下,传统知识的数字化与结构化成为研究热点之一。中医作为中华文化的瑰宝,其古籍文献中蕴含着丰富的医学知识与临床经验。然而,由于古籍语言的复杂性、术语的多样性以及缺乏统一的标注体系,使得这些宝贵资料难以被现代信息系统高效利用。为解决这一问题,我们推出了一项数据产品案例——“中医古籍命名实体标注”项目,旨在通过自然语言处理技术,对中医古籍文本进行系统性标注,构建高质量的结构化语料资源。
该项目采用开放许可协议(CC BY-SA),即署名-相同方式共享,鼓励研究者与开发者在尊重原作者权益的前提下,自由使用、修改与分发该数据集。目前,该数据集已开放下载,欢迎各界人士参与共建共享。
本项目的数据来源主要包括《黄帝内经》《伤寒论》《金匮要略》《温病条辨》等具有代表性的中医经典古籍。我们从这些文献中选取了约100万字的核心内容作为语料基础,并通过以下流程进行加工处理:
本项目共定义了六大类中医相关实体,具体如下:
每个实体类别均配有详细的定义与示例说明,确保标注者理解一致,同时也便于后续模型训练与评估。
本数据集以JSON和TSV两种格式提供,分别适用于结构化查询与机器学习任务。每条记录包含原始文本、实体位置信息、实体类别与标准化名称等字段,便于进行实体识别、关系抽取、知识图谱构建等任务。
数据集现已在GitHub与国内开源平台同步发布,访问地址如下(此处为示例):
https://github.com/ChineseMedicineNER/TCM-NER-Dataset
用户可直接下载使用,同时我们也鼓励社区贡献更多标注数据与改进意见,共同推动中医知识的智能化发展。
本项目的实施不仅为中医古籍的数字化提供了基础数据支持,也为后续多项研究打开了新的窗口:
“中医古籍命名实体标注”项目是传统文化与现代科技融合的一次有益尝试。我们希望通过开放共享的方式,吸引更多研究者、开发者与中医爱好者的参与,共同挖掘古籍中的智慧,推动中医药的现代化与国际化发展。未来,我们也将持续更新与扩展数据集,探索更多应用场景,为构建智能化的中医知识体系贡献力量。
公司:赋能智赢信息资讯传媒(深圳)有限公司
地址:深圳市龙岗区龙岗街道平南社区龙岗路19号东森商业大厦(东嘉国际)5055A15
Q Q:3874092623
Copyright © 2022-2025