助力健康中国，国内首个中文医疗信息处理挑战榜正式发布

释放双眼，带上耳机，听听看~！

允中发自凹非寺

量子位编辑公众号 QbitAI

近日，由中国中文信息学会医疗健康与生物信息处理专业委员会发起的中文医疗健康信息处理挑战榜-CBLUE (Chinese Biomedical Language Understanding Evaluation) 正式上线了，这是国内首个公开的中文医疗自然语言处理领域 benchmark，榜单的推出将会促进医疗领域数据科技的发展，对医疗人工智能技术的发展和创新起着重要意义。

为什么医疗文本需要进行自然语言处理？

先简单介绍下什么是自然语言处理，自然语言处理简称 NLP (Natural Language Processing)，是以语言为对象，利用计算机技术来分析、理解和处理自然语言的一门学科，是人工智能的一个重要子方向。自然语言处理技术已经在各行各业中得到了广泛应用，如智能司法、智慧医疗等。

回到医疗文本上，我们设想这样一种场景，医生希望从病历库中筛选出满足特定临床条件的患者来开展科研工作，如“家族病史中患有 2 型糖尿病”的患者。熟悉电子病历的读者都知道，“家族史”一般出现在病历中一段段的自然语言文本中，是非结构化的信息，因此无法直接使用计算机来做处理，而依靠人工从海量病历库中做挑选是费时费力的，这就需要 NLP 技术大展身手了。NLP 技术可以辅助从非结构化文本中识别出关键信息，如“疾病”、“检查”、“手术”等医学核心概念，医生可以基于这些结构化的信息来完成模型建模工作。

完成病历信息结构化是否就足够了呢？假如我们要统计一个区域内患有“2 型糖尿病”的患者总数，实际会面临到的问题是对于临床上同一种诊断、手术、检查、化验等，医生往往会有成百上千种不同的写法，以“2 型糖尿病”为例，其它可能的写法有“Ⅱ型糖尿病”，“糖尿病（2 型）”等，如果要准确统计到“2 型糖尿病”的患者总数，就需要将不同的叫法都映射到同一个标准的名称上，如 ICD (International Classification of Disease)编码，这个过程我们称为医学术语标准化，也是需要 NLP 技术来支持的。

除了上述提到的结构化和标准化之外，NLP 技术还在医学检索、互联网在线问诊、体检报告解读等多个场景中发挥着重要作用。

为什么要建设中文医学标准数据集？

人工智能发展的三要素是数据、算力和算法，“数据”是最基础的环节，如果把人工智能比作是火箭，那数据就是火箭发射的燃料，以计算机视觉（CV）为例，ImageNet[1]的推出极大促进了 CV 技术的发展。

医学人工智能技术要取得发展当然也离不开标准数据集的建设，但建设过程中也面临诸多难点：首先是医疗数据涉及到权属和合规问题，要求在绝对安全的前提下才可以被使用，这使得医学数据的获取成本非常高；其次医学是一门专业性很强且非常严谨的科学，数据的规范制定以及标注均需要专家的参与，因此数据集的构建比较耗时，这也会限制数据集的规模。

国外的医疗信息化进程起步较早，在标准数据集的建设和规范制定上比较领先。随着国家人工智能战略的推进，国内医疗 AI 产业在近年来也取得了快速发展。

在医疗 NLP 数据集建设方面，中国中文信息学会的两个旗舰会议 CHIP (China Health Information Processing Conference)和 CCKS (China Conference on Knowledge Graph and Semantic Computing)每年都发布医疗信息处理相关的学术评测比赛，此外一些竞赛平台如阿里云天池也会不定期举办一些医疗 AI 比赛，这些评测数据集均有效促进了相关领域的技术发展，并吸引了更多研究者对医疗 AI 领域的关注。然而这些数据集一般在比赛结束之后就不再开放下载，这对数据集的获取以及后续的研究均造成了一定的困难。如果能够集中维护这些数据集并授权开放下载使用，对推动医学 NLP 社区的发展将会有着积极的意义。

近年来预训练语言模型技术（如 BERT[2] ）成为 NLP 领域的研究热点，一个重要原因是预训练语言模型泛化性好，在很多 NLP 下游任务上均取得不错的性能。同时得益于预训练语言模型技术的发展，催生出一批多任务 benchmark 榜单，代表性的工作是 GLUE[3]。多任务榜单的设立重在考察模型的泛化能力，因此又促进了预训练语言模型技术的发展。

CBLUE 榜单是什么？

CBLUE 就是在这样的背景下产生的，是由中国中文信息学会医疗健康与生物信息处理专业委员发起，由阿里云天池平台承办，并由北京大学、医渡云（北京）技术有限公司等开展智慧医疗研究的单位共同协办。

CBLUE 的全名是 Chinese Biomedical Language Understanding Evaluation，挑战榜覆盖了医学文本信息抽取（实体识别、关系抽取）、医学术语归一化、医学文本分类、医学问答 4 大类常见的医学信息处理任务，共包括 8 个子任务。数据集主要由 CHIP 大会往届的学术评测比赛和部分医学搜索业务数据集组成，业务数据集的特点是数据真实且有噪音，对模型的鲁棒性提出了更高的要求。CBLUE 是国内首个医疗 NLP 领域的公开评测 benchmark。

榜单上线后得到了学界、医界和业界的广泛关注，来自浙江大学软件学院的研究生小刘表示，自己从事的研究方向是医疗大数据分析，CBLUE 榜单的推出刚好解决了研究过程中缺乏标准数据集的难题，并且榜单中有部分任务是自己之前没有涉及过的，极大的开拓了自己的技术视野。小刘还注意到榜单的提交单位中除了高校实验室以外，还有很多国内知名的医疗 AI 企业和医学院所，如协和医学院，表明了 CBLUE 挑战榜在行业中被广泛认可，同时能和这么多知名机构同台竞技也让自己更有动力在医疗 AI 领域深耕。

中国中文信息学会医疗健康与生物信息处理专业委员会副主任兼秘书长汤步洲老师表示，以合法开放共享的理念组织医学信息学领域的基础和核心任务的评测，构建公开统一共识的医学信息系统性能评估平台，可以推动医学信息学的快速发展，并助力健康中国战略！

相信 CBLUE 榜单的发布能推动国内医学 AI 社区数据标准的建设和技术发展，并且在医学 AI 人才培养、医学临床研究和医疗人工智能技术落地上都起到重要的作用。

CBLUE 榜单专题页地址是：

https://tianchi.aliyun.com/specials/promotion/2021chinesemedicalnlpleaderboardchallenge/?spm=a2c41.22837839.0.0

欢迎对医疗健康赛道感兴趣的读者前往网址进行挑战。

[1] http://www.image-net.org/

[2] https://arxiv.org/abs/1810.04805

[3] https://gluebenchmark.com/

{{userData.name}}已认证

助力健康中国，国内首个中文医疗信息处理挑战榜正式发布

用视觉AI赋能高端装备让港口更安全更智慧

报道称谷歌HR建议心理健康假以应对种族主义或性别歧视行为的投诉

{{userData.name}}已认证

Related posts:

用视觉AI赋能高端装备让港口更安全更智慧

报道称谷歌HR建议心理健康假 以应对种族主义或性别歧视行为的投诉

马云炮轰银行是"当铺思维"，有没有道理

少壮派上位后，李彦宏仍没有找到“接班人”

无人驾驶的未来 后疫情时代如何抵达

车载大屏就只是一个摆设吗？

报道称谷歌HR建议心理健康假以应对种族主义或性别歧视行为的投诉

无人驾驶的未来后疫情时代如何抵达