电子病历的应用论文 谷歌与全球顶级医学院联手,Jeff Dean等首篇电子病历论文解读

小编 2025-03-18 电子应用 23 0

谷歌与全球顶级医学院联手,Jeff Dean等首篇电子病历论文解读

【新智元导读】 本周谷歌在ArXiv上公开了一篇众人期待已久的论文,也很可能是谷歌在电子病历建模分析方面的首篇文章,使用深度学习模型,由Jeff Dean率队,联合UCSF,斯坦福,UChicago等知名机构的众多大牛,从题目到作者都堪称豪华。不过,康奈尔大学威尔医学院助理教授王飞认为,文章写得中规中矩,并无太多惊喜,其中关键一点,便在于基线选择从计算模型的角度讲“太弱”,再次印证了电子病历分析相关问题无法轻易解决,但这也为我们指明了要攻克的难关。

一篇万众瞩目,期待已久的论文:谷歌联合全球最好的医学院能做出什么来

本周,Jeff Dean大神带领一票人马,在ArXiv上挂出了一篇文章,题目叫“Scalable and Accurate Deep Learning for Electronic Health Records ”。这篇文章从题目到作者都吊足了大家的胃口。

从题目上看,深度学习就不必多说了,电子病历数据也是近些年来研究的热点,尤其是医学信息学领域。与医学图像相比,电子病历数据量更大,包含的信息更多,并且有时续性,当然,由此带来的挑战也更多,例如隐私性,数据噪音,异质性,等等。这些挑战促成了近些年一大批用机器学习方法分析电子病历的文章,这些文章发表在各大顶级会议上,例如NIPS,ICML,KDD,以及更偏应用的AMIA。

从作者上看,Jeff Dean就不用多说了,Quoc Le等人也是深度学习界耳熟能详的人物。此外,Nigam Shah是Stanford生物医学信息中心的终身教授,他是医学信息学界非常活跃,一直大力推动机器学习、数据挖掘技术在医学信息学中的应用,并在KDD 2014受邀作为industry keynote speaker。而Atul Butte则是医学信息学界最有影响力的学者之一,当初UCSF把他从Stanford挖过来的时候就引起了不小的轰动。他本人也是UCSF计算健康科学中心(Institute for Computational Health Science)的首任director,美国医学院院士。2017年夏天,小扎与他夫人专门给Atul捐了1000万美金做为Gift来支持他的研究,可见此人的影响力。因此,不论从题目还是作者阵容,此文绝对称得上豪华。

本文的诞生也并非偶然,2017年5月的时候,Google就广发英雄帖,号召有医疗数据的医学院、医院、各种研究中心等来贡献他们的数据和Google合作,利用Google丰富的计算资源挖掘数据中的价值。而Google一开始则选择了UCSF,Stanford,UChicago做为合作单位,这些单位在当时也都发了新闻作了报道。因此,这篇文章也可以是称得上是万众瞩目,期待已久——大家都想看看Google与这些最好的医学院联合能做出什么来。果不其然,文章一出,就收到很多圈内朋友的消息。

研究概述:用深度学习分析电子病历,预测4大关键指标

文章开篇写得也很大气,基本是想要一统江湖的架势。文章在两个大的医院系统,UCSF和UChicago的电子病历数据上,用深度学习模型想要预测四件事情 :1)住院期间的死亡风险;2)规划之外的再住院风险;3)长时间的住院天数;4)出院的疾病诊断。

这四件事情都是医学中非常重要,非常有代表性的事情,就像作者在文章中说的,第一件事代表了临床结果,第二代表了医疗质量,第三代表了医疗资源的利用,第四代表了病人情况 。记得当初,Heritage fund曾组织过一个竞赛来预测住院天数,并且悬赏300万美金奖励优胜者。

文章很仔细地介绍了一些实验信息,例如如何建病人队列,特征如何变换,算法如何评价等等。对于每一个预测任务,作者也都选取了临床上常用的算法来进行比较,例如评价死亡风险的EWS分数,以及评价再住院风险的HOSPITAL分数等,作者对这些模型做了微小的改进。最终通过比较,作者的模型都显著好于这些传统模型 (AUC普遍提高0.1左右)。

论文插图:使用深度学习预测病人住院期间死亡风险,深度学习(实线)在前后24小时时间范围内,都比基线水平(虚线)准确率更高。

关键的深度学习模型:LSTM、前馈神经网络和决策树

下面简要介绍一下作者采用的三种模型。要提的一点是,在输入模型之前,所有电子病历中的事件全都被嵌入到一个统一的低维空间中。

首先就是传统的长短记忆网络 。由于在同一时间点可能有多个事件发生,若这些事件属于不同类型(例如诊断和药品),那么作者就把它们拼接起来;若这些事件属于同一类型,那么作者就把它们进行加权平均,而权重则是通过学习获得,因此作者将该模型称为加权的循环神经网络。

第二则是传统的前馈神经网络 。为了使用这种方法,我们需要将病人的电子病历事件序列转换为向量表示。为了达到这一目的,作者将每一序列的所有事件进行加权平均,并提出了几种不同的策略来设计权重,而这些权重均与该事件的发生时间到预测时间点的时间间隔相关。尽管具体的设计不同,但这种与时间相关的加权策略在基于电子病历的预测建模中非常常见,例如笔者去年与UCSD的蒋晓谦老师写的关于时间序列中的事件嵌入,以及与MSU的周家雨老师写的时间敏感的长短记忆网络的文章中均有采用。

第三则是提升的基于时间的决策桩 。这里的决策桩即是单层决策树,在文章中就是一大批二值的决策规则。在实际决策中,每一决策规则被分配一个权重,而最终的预测即是这些决策规则的加权组合的softmax。提升方法(Boosting)被用来选择合适的决策规则。最终,这些规则又被嵌入到一个1024维的空间中,并通过一个两层的前馈神经网络进行非线性变换。

为了得到最好的效果,作者最终又对三种方法的预测进行了集成

中规中矩,并没有太大惊喜

本文据笔者了解,是Google在电子病历建模分析方面的首篇文章 ,并且作者阵容十分豪华。文章写得中规中矩,并没有太多的惊喜。总结起来,我们可以从文章中看出如下一些值得关注的点。

第一, 数据规模十分有限。 尽管作者利用了UCSF和UChicago的数据集,然而总共的病人数量也只有11万。这与其他领域动辄上亿的数据量有着天壤之别。在这种情况下如何有效的训练出有很强推广性的深度学习模型还是一个问号 。在笔者之前的相关研究中,过拟合是一个很常见的问题。我们发现一些常用的神经网络中避免过拟合的方法(例如dropout),在这种情况下也不是特别有效。

第二,模型的互操作性很弱。 文章一上来就提到,作者用FHIR标准来对电子病历进行映射,而不必将电子病历数据进行标准化和归一化。说实话,这里写的确实让笔者有点摸不着头脑,在笔者看来作者只是用FHIR标准对电子病历中的事件进行了归类,该是什么事件,还是什么事件。这样在一个数据上训练出来的模型,在第二个数据上还是不能用。而作者也说了这是他们模型的一个局限性,文章中也是在UCSF和UChicago的数据集上分别训练模型,分别评价结果好坏。那么这样的话,数据标准化就仍然是必要的关键步骤,不然如何保证模型的互操作性呢?

论文插图:研究中,医疗数据经过处理后按照时间顺序放置,这种处理并非将其统一或标准化,而是将其映射到合适的资源,深度学习模型进行预测时使用的都是相同的数据。

第三,效果提升并不是非常令人振奋。 为什么这么说呢?AUC提升0.1,从绝对数值上来讲确实是不小,但我们要看baseline,也就是跟谁比。从算法的角度讲,本文选取的baseline都很弱。 当然这也无可厚非,因为这些baseline都是在实际临床决策中采用的方法,它们大都是基于规则的,并且已被使用了很多年,而本文主要强调的是深度学习方法可能对现代医学产生的影响,因而和它们比较。但是,从另一个角度讲,非深度学习的机器学习方法有很多,文章要展示深度学习算法的优势,笔者认为也应该选取一些机器学习方法做为baseline。此外,这些临床上使用的方法,前面提到的互操作性以及后面要提到的可解释性都很强,而这也是深度学习方法的短板。

第四,模型的可解释性很弱。 文章作者也承认了这一点,并提出了一套归因(Attribution)的方法来试图解释学习到的模型。然而正如作者所说,作者在做归因的时候也只是基于一个模型(前馈神经网络)和一种类型的数据(例如只关注诊断或是药物)。

第五,计算资源十分强大。 作者在文章中提到模型的超参数是由Google Vizier自动调试所得,花费时间大于20万GPU小时

电子病历分析,任重道远

当然,以上提出的这些点也是电子病历数据分析的一些常见的挑战,Google的这篇文章也再次印证了这些问题不是很容易轻易被解决,而这也为我们指明了要攻克的难关。还有一些挑战,例如数据质量如何评估,数据隐私性如何保护等等,由于本文的关注点并不同,并未触及这些问题。

当然,笔者非常高兴看到Google也开始关注电子病历数据分析,印证了这确实是一个有意义的方向。该文章是Google与这些顶级医学院合作的第一篇文章,相信更深层次的研究和合作正在进行中,让我们拭目以待。同时,按照本文的结构和写法,笔者猜测文章应该是投向了某医学类的顶刊,笔者也十分期待该文章的最终归属,因为这也从一定层面上能反映医学界对这类研究的认可程度。

论文地址:https://arxiv.org/pdf/1801.07860.pdf

新智元AI技术+产业社群招募中,欢迎对AI技术+产业落地感兴趣的同学,加小助手微信号: aiera2015_1 入群;通过审核后我们将邀请进群,加入社群后务必修改群备注(姓名-公司-职位;专业群审核较严,敬请谅解)。

【论文分享】基于SVG的电子病历编辑器的研发及应用

01

题目&关键词

题 目: 基于SVG的电子病历编辑器的研发及应用

关键词: 电子病历;编辑器;SVG;渲染引擎

02

来源

来源: 《中国数字医学》2024 第 19 卷 第4期

作者: 薛颜波 黄昊 刘亚娟

作者单位: 200120 上海,上海森亿医疗科技有限公司(薛颜波、刘亚娟),陆军军医大学大坪医院信息科(黄昊)

03

摘要

目的 :消除传统病历编辑器对操作系统、客户端、浏览器功能特性的依赖,解决跨平台不一致、性能慢、文件存储不规范等问题,支撑云原生智能电子病历研发和信创适配。

方法 :基于Model-View-Controller模型研发新电子病历编辑器,在浏览器上运行,不依赖具体的操作系统;使用XML格式存储,不依赖具体的数据库;使用程序编码解决个别国产浏览器出现的显示、打印、导出问题。

结果 :编辑器实现了跨平台、多终端一致性,性能极大提升,可在国产操作系统、数据库、浏览器上正常运行。

结论 :新电子病历编辑器的研发和应用,消除了传统C/S电子病历向B/S云电子病历迁移的核心技术障碍,可以加速医疗信息化行业的国产化适配进程。

04

目录

1 现状分析

1.1 发展现状

1.2 面临的挑战

2 系统设计

2.1 总体框架

2.2 排版引擎

2.3 文件存储

3 信创适配

3.1 国产操作系统适配

3.2 国产数据库适配

3.3 国产浏览器适配

4 应用成效

4.1 信创适配

4.2 极速浏览

4.3 智能交互

5 讨论

5.1 开发难度和成本

5.2 模版兼容性

5.3 民族文字兼容性

5.4 生成式病历

6 结论

END

相关问答

病例报告是什么意思-法律咨询-华律自媒体

什么是病例报告?病例报告是医学论文的一种常见体裁,通过对一两个生动的病例进行记录和描述,试图在疾病的表现、机理以及诊断治疗等方面提供第一手感...

医学专业能用Linux系统做什么?

x是一款免费的操作系统,用户可以通过网络或其他途径免费获得,并可以任意修改其源代码。来自全世界的无数程序员参与了Linux的修改、编写工作,程序员可以...在移...

地坛医院确诊新冠合并脑炎患者,首证病毒感染中枢神经系统,这一病例有何特殊之处?

北京地坛医院首次报告了新冠病毒攻击中枢神经系统的病例。该院在患者脑脊液标本中获得了新冠病毒基因组序列。这一特殊病例表明:此次新冠肺炎,病毒突破了我们...

马鞍山未来评职称并不一定需要 论文 ,教案、 病历 等也将可以当成材料提交,对此你怎么看?

谢邀。怎么看我不知道,但是我想跟大家说一说我所了解到的这个政策。近年来,根据国家部署,在未设置正高级职称的职称系列逐步设置到正高级,进一步拓展专业技...

病情摘要什么意思?

病情摘要多见于病例中或者是医学论文中。疾病很复杂,有病因病机病理改变,也有临床症状和体征以及辅助捡查,需要大段大段的描述,有时还不容易描述清楚。为了...

论文 是研究吸烟控烟的,要用到什么研究工具 - 懂得

病例统计分析

《湖南省继续医学教育学分管理实施细则》的全文是什么? - 红...

第一章项目的申报、认可第一条经全国继教委评审公布的继续医学教育项目为国家级继续医学教育项目(以下简称“继教项目”);经省继教委评审,由省卫...

医学生毕业 论文 包括什么内容?

毕业论文啊临床医学啊首先你要确定一个方向这个方向你们学院应该会给你确定好几个方向而且给出了一些可选的题目比如我们学校:临床医学专业毕业论文选题指...

临床医学用电脑干什么?

渗透到医学以及各个领域。人们可以利用电脑处理医学管理的各种信息。医学与电脑技术的...未来的医学随着电脑科学技术的迅速发展,尤其是微电脑的普及,电脑技...

医学生还需要写毕业 论文 吗?

医学生也需要写毕业论文,只是不同于其他专业的论文形式。医学生在学习期间需要完成临床实习和科研课题,而毕业论文通常是基于临床实习和科研课题进行研究和探...