电子病历应用论文谷歌与全球顶级医学院联手，Jeff Dean等首篇电子病历论文解读

谷歌与全球顶级医学院联手，Jeff Dean等首篇电子病历论文解读

【新智元导读】 本周谷歌在ArXiv上公开了一篇众人期待已久的论文，也很可能是谷歌在电子病历建模分析方面的首篇文章，使用深度学习模型，由Jeff Dean率队，联合UCSF，斯坦福，UChicago等知名机构的众多大牛，从题目到作者都堪称豪华。不过，康奈尔大学威尔医学院助理教授王飞认为，文章写得中规中矩，并无太多惊喜，其中关键一点，便在于基线选择从计算模型的角度讲“太弱”，再次印证了电子病历分析相关问题无法轻易解决，但这也为我们指明了要攻克的难关。

一篇万众瞩目，期待已久的论文：谷歌联合全球最好的医学院能做出什么来

本周，Jeff Dean大神带领一票人马，在ArXiv上挂出了一篇文章，题目叫“Scalable and Accurate Deep Learning for Electronic Health Records ”。这篇文章从题目到作者都吊足了大家的胃口。

从题目上看，深度学习就不必多说了，电子病历数据也是近些年来研究的热点，尤其是医学信息学领域。与医学图像相比，电子病历数据量更大，包含的信息更多，并且有时续性，当然，由此带来的挑战也更多，例如隐私性，数据噪音，异质性，等等。这些挑战促成了近些年一大批用机器学习方法分析电子病历的文章，这些文章发表在各大顶级会议上，例如NIPS，ICML，KDD，以及更偏应用的AMIA。

从作者上看，Jeff Dean就不用多说了，Quoc Le等人也是深度学习界耳熟能详的人物。此外，Nigam Shah是Stanford生物医学信息中心的终身教授，他是医学信息学界非常活跃，一直大力推动机器学习、数据挖掘技术在医学信息学中的应用，并在KDD 2014受邀作为industry keynote speaker。而Atul Butte则是医学信息学界最有影响力的学者之一，当初UCSF把他从Stanford挖过来的时候就引起了不小的轰动。他本人也是UCSF计算健康科学中心（Institute for Computational Health Science）的首任director，美国医学院院士。2017年夏天，小扎与他夫人专门给Atul捐了1000万美金做为Gift来支持他的研究，可见此人的影响力。因此，不论从题目还是作者阵容，此文绝对称得上豪华。

本文的诞生也并非偶然，2017年5月的时候，Google就广发英雄帖，号召有医疗数据的医学院、医院、各种研究中心等来贡献他们的数据和Google合作，利用Google丰富的计算资源挖掘数据中的价值。而Google一开始则选择了UCSF，Stanford，UChicago做为合作单位，这些单位在当时也都发了新闻作了报道。因此，这篇文章也可以是称得上是万众瞩目，期待已久——大家都想看看Google与这些最好的医学院联合能做出什么来。果不其然，文章一出，就收到很多圈内朋友的消息。

研究概述：用深度学习分析电子病历，预测4大关键指标

文章开篇写得也很大气，基本是想要一统江湖的架势。文章在两个大的医院系统，UCSF和UChicago的电子病历数据上，用深度学习模型想要预测四件事情 ：1）住院期间的死亡风险；2）规划之外的再住院风险；3）长时间的住院天数；4）出院的疾病诊断。

这四件事情都是医学中非常重要，非常有代表性的事情，就像作者在文章中说的，第一件事代表了临床结果，第二代表了医疗质量，第三代表了医疗资源的利用，第四代表了病人情况 。记得当初，Heritage fund曾组织过一个竞赛来预测住院天数，并且悬赏300万美金奖励优胜者。

文章很仔细地介绍了一些实验信息，例如如何建病人队列，特征如何变换，算法如何评价等等。对于每一个预测任务，作者也都选取了临床上常用的算法来进行比较，例如评价死亡风险的EWS分数，以及评价再住院风险的HOSPITAL分数等，作者对这些模型做了微小的改进。最终通过比较，作者的模型都显著好于这些传统模型 （AUC普遍提高0.1左右）。

论文插图：使用深度学习预测病人住院期间死亡风险，深度学习（实线）在前后24小时时间范围内，都比基线水平（虚线）准确率更高。

关键的深度学习模型：LSTM、前馈神经网络和决策树

下面简要介绍一下作者采用的三种模型。要提的一点是，在输入模型之前，所有电子病历中的事件全都被嵌入到一个统一的低维空间中。

首先就是传统的长短记忆网络 。由于在同一时间点可能有多个事件发生，若这些事件属于不同类型（例如诊断和药品），那么作者就把它们拼接起来；若这些事件属于同一类型，那么作者就把它们进行加权平均，而权重则是通过学习获得，因此作者将该模型称为加权的循环神经网络。

第二则是传统的前馈神经网络 。为了使用这种方法，我们需要将病人的电子病历事件序列转换为向量表示。为了达到这一目的，作者将每一序列的所有事件进行加权平均，并提出了几种不同的策略来设计权重，而这些权重均与该事件的发生时间到预测时间点的时间间隔相关。尽管具体的设计不同，但这种与时间相关的加权策略在基于电子病历的预测建模中非常常见，例如笔者去年与UCSD的蒋晓谦老师写的关于时间序列中的事件嵌入，以及与MSU的周家雨老师写的时间敏感的长短记忆网络的文章中均有采用。

第三则是提升的基于时间的决策桩 。这里的决策桩即是单层决策树，在文章中就是一大批二值的决策规则。在实际决策中，每一决策规则被分配一个权重，而最终的预测即是这些决策规则的加权组合的softmax。提升方法(Boosting)被用来选择合适的决策规则。最终，这些规则又被嵌入到一个1024维的空间中，并通过一个两层的前馈神经网络进行非线性变换。

为了得到最好的效果，作者最终又对三种方法的预测进行了集成。

中规中矩，并没有太大惊喜

本文据笔者了解，是Google在电子病历建模分析方面的首篇文章 ，并且作者阵容十分豪华。文章写得中规中矩，并没有太多的惊喜。总结起来，我们可以从文章中看出如下一些值得关注的点。

第一，数据规模十分有限。 尽管作者利用了UCSF和UChicago的数据集，然而总共的病人数量也只有11万。这与其他领域动辄上亿的数据量有着天壤之别。在这种情况下如何有效的训练出有很强推广性的深度学习模型还是一个问号 。在笔者之前的相关研究中，过拟合是一个很常见的问题。我们发现一些常用的神经网络中避免过拟合的方法（例如dropout），在这种情况下也不是特别有效。

第二，模型的互操作性很弱。 文章一上来就提到，作者用FHIR标准来对电子病历进行映射，而不必将电子病历数据进行标准化和归一化。说实话，这里写的确实让笔者有点摸不着头脑，在笔者看来作者只是用FHIR标准对电子病历中的事件进行了归类，该是什么事件，还是什么事件。这样在一个数据上训练出来的模型，在第二个数据上还是不能用。而作者也说了这是他们模型的一个局限性，文章中也是在UCSF和UChicago的数据集上分别训练模型，分别评价结果好坏。那么这样的话，数据标准化就仍然是必要的关键步骤，不然如何保证模型的互操作性呢？

论文插图：研究中，医疗数据经过处理后按照时间顺序放置，这种处理并非将其统一或标准化，而是将其映射到合适的资源，深度学习模型进行预测时使用的都是相同的数据。

第三，效果提升并不是非常令人振奋。 为什么这么说呢？AUC提升0.1，从绝对数值上来讲确实是不小，但我们要看baseline，也就是跟谁比。从算法的角度讲，本文选取的baseline都很弱。 当然这也无可厚非，因为这些baseline都是在实际临床决策中采用的方法，它们大都是基于规则的，并且已被使用了很多年，而本文主要强调的是深度学习方法可能对现代医学产生的影响，因而和它们比较。但是，从另一个角度讲，非深度学习的机器学习方法有很多，文章要展示深度学习算法的优势，笔者认为也应该选取一些机器学习方法做为baseline。此外，这些临床上使用的方法，前面提到的互操作性以及后面要提到的可解释性都很强，而这也是深度学习方法的短板。

第四，模型的可解释性很弱。 文章作者也承认了这一点，并提出了一套归因（Attribution）的方法来试图解释学习到的模型。然而正如作者所说，作者在做归因的时候也只是基于一个模型（前馈神经网络）和一种类型的数据（例如只关注诊断或是药物）。

第五，计算资源十分强大。 作者在文章中提到模型的超参数是由Google Vizier自动调试所得，花费时间大于20万GPU小时 。

电子病历分析，任重道远

当然，以上提出的这些点也是电子病历数据分析的一些常见的挑战，Google的这篇文章也再次印证了这些问题不是很容易轻易被解决，而这也为我们指明了要攻克的难关。还有一些挑战，例如数据质量如何评估，数据隐私性如何保护等等，由于本文的关注点并不同，并未触及这些问题。

当然，笔者非常高兴看到Google也开始关注电子病历数据分析，印证了这确实是一个有意义的方向。该文章是Google与这些顶级医学院合作的第一篇文章，相信更深层次的研究和合作正在进行中，让我们拭目以待。同时，按照本文的结构和写法，笔者猜测文章应该是投向了某医学类的顶刊，笔者也十分期待该文章的最终归属，因为这也从一定层面上能反映医学界对这类研究的认可程度。

论文地址：https://arxiv.org/pdf/1801.07860.pdf

新智元AI技术+产业社群招募中，欢迎对AI技术+产业落地感兴趣的同学，加小助手微信号: aiera2015_1 入群；通过审核后我们将邀请进群，加入社群后务必修改群备注（姓名-公司-职位；专业群审核较严，敬请谅解）。

邓侃解读谷歌首篇电子病历论文：完整披露谷歌医疗大脑野心

原创 2018-02-04 邓侃新智元

【新智元导读】 上周，谷歌公布了首篇电子病历相关论文，由Jeff Dean率队联合众多大牛和顶级医学院完成。然而，不少业内人士，包括康奈尔大学副教授王飞博士都认为该论文质量一般。但是，本文作者，大数医达创始人、CMU博士邓侃指出，这篇论文的意义在于完整地披露了Google Medical Brain项目的目标、方法、规划和进展，并且为“深度学习在医疗领域的应用”定义了一套标准。正所谓“三流企业做产品，二流企业做服务，一流企业做标准”，做AI跟着谷歌老大哥走不会错，而现在谷歌既已公开了这套标准，动作快跑在前面还可能赢！因此，这篇论文，还得细细研读。

上周，2018年1月24日，Google Brain 大神 Jeff Dean，率领另外 30 余号人，联名发表了一篇论文，题为 “Scalable and accurate deep learning for electronic health records”，业界反响热烈。

反响热烈的原因，大致有以下几条，

1. Google Brain 大神 Jeff Dean 亲自出马，可见此文重要性很高。

2. 这是谷歌医疗大脑项目组的第一篇论文。

3. 论文联名作者，很可能涵盖了谷歌医疗大脑（Google Medical Brain）项目组的主要成员。其中包括 Claire Cui，她是 Larry Page 斯坦福师妹，不仅在谷歌资历深，而且职位很高，是 Google Brain 的中枢人物。

但是，这篇论文的争议也不少。总结来看：

1. 这篇论文的实验结果，不是特别抢眼。

2. 与传统算法的对比实验，不够完整。只对比了最基本的传统算法，没有对比改进版传统算法。

3. 超过 20 万 GPU 小时，深度学习算法的计算成本太高。

4. 总共只收集了 21.6 万条住院病历数据，训练数据量太小。

但是，有一点可能被不少人忽视了：这篇论文实际上把 Google Medical Brain 项目的目标、方法、规划和目前进展，介绍得相当完整。

个人理解，这篇论文的重点，正是在于介绍 Google Medical Brain 项目的目标、方法和规划。 至于目前已经取得的阶段性成绩，并不是评判这篇论文的唯一着眼点。

关键意义：给出 Google Brain 版深度学习医疗标准

Google Medical Brain 这篇论文，定义了以下几个问题。

1. 定义了深度学习医疗要解决的问题： 预测三个方面指标，

治疗疗效，譬如在院死亡率，和计划外的复诊率；

医疗成本，譬如住院天数；

诊断精度，譬如出院诊断。

2. 定义了深度学习医疗的基本方法： Google Medical Brain 摈弃了人工智能医疗的传统方法，不再从医学文献中整理权威的临床规则，而是转移到从海量病历中整理实际的临床经验。换句话说，改传统的演绎法为经验归纳法。

收集海量病历；

把每一个病历转换成一条临床路径时间序列；

用深度学习算法，预测时间序列。包括用病情描述，预测疾病诊断，预测死亡率。用病情描述加治疗方案，预测复诊率和住院天数等等。

3. 定义了预测精度的评估指标： 评估指标用 AUROC，而不是用 F1。

4. 总结了传统的预测方法： 明确定义了治疗疗效、医疗成本、和诊断精度，这三类指标，传统方法用哪些因子和公式来预测。

5. 规定了整合多源异构病历数据的标准： 沿用开源的 FHIR 标准。

6. 提出了一种解释深度学习结果的可视化方法： 把病历展开为可视化的时间轴，高亮对预测有显著作用的重要因子，以此来解释深度学习在预测时，更看重哪些因子。虽然“看重”不能严谨地表达预测的全部逻辑，但能解释局部逻辑，总比没有强。

7. 提出了几种处理临床路径时间序列的深度学习算法： 其中，个人感觉，an attention-based time-aware neural network model (TANN)，最值得深入研究。

AI“带头大哥”谷歌已经公布自己的标准，掉队还是超越看你选择

三流企业做产品，二流企业做服务，一流企业做标准。

在人工智能领域，谷歌是实际的标准制订者之一。

在人工智能医疗领域，最值得关注的，是谷歌旗下两个部门的工作，一个是 Google Medical Brain，另一个是 Google DeepMind。

DeepMind 打败所有人类围棋高手以后，转场去研究人工智能家庭医生。以英国为例，家庭医生从业人数不足，人力成本高昂，临床水平参差不齐。但迄今为止，DeepMind 没有完整地披露人工智能家庭医生项目的目标、方法、规划。

因此，谷歌大脑这首篇电子病历论文的意义在于，不仅完整地披露了 Google Medical Brain 项目的目标、方法、规划和进展，还实际上给 “深度学习在医疗领域的应用”，定义了一套标准。

跟着带头大哥走就好了，别掉队。

走快点，跑起来，跑到前面去了，就赢了。

参考文献：

Scalable and accurate deep learning for electronic health records：https://arxiv.org/pdf/1801.07860.pdf

电子病历应用论文谷歌与全球顶级医学院联手，Jeff Dean等首篇电子病历论文解读

谷歌与全球顶级医学院联手，Jeff Dean等首篇电子病历论文解读

邓侃解读谷歌首篇电子病历论文：完整披露谷歌医疗大脑野心

汽车电子功能安全应用性能，安全全面飙升！Imagination GPU推动车载智能化

电子SOP的应用海宝软件：使用E-SOP系统的意义及优势

相关阅读

驯服AI助手鸟搜索资料：从提示词到RAG全链路解析

钎九AI时光代理人：当平行宇宙的周诣涛终于学会了主动

郑州AI排名技术代理咋选？跑了仨月我总算整明白了！

蹲柄图蹲到崩溃？用AI整理“时光代理人新柄图”后，我直接治好了精神内耗

赢咖2代理鱼刺AI系统-6：从管理黑洞到智能作战，这才是代理商的正确打开方式

贵州六盘水AI电销系统代理靠谱吗？2026最新避坑指南，看完再决定做不做！

谷歌与全球顶级医学院联手，Jeff Dean等首篇电子病历论文解读

邓侃解读谷歌首篇电子病历论文：完整披露谷歌医疗大脑野心

汽车电子功能安全应用 性能，安全全面飙升！Imagination GPU推动车载智能化

电子SOP的应用 海宝软件：使用E-SOP系统的意义及优势

相关阅读

驯服AI助手鸟搜索资料：从提示词到RAG全链路解析

钎九AI时光代理人：当平行宇宙的周诣涛终于学会了主动

郑州AI排名技术代理咋选？跑了仨月我总算整明白了！

蹲柄图蹲到崩溃？用AI整理“时光代理人新柄图”后，我直接治好了精神内耗

赢咖2代理鱼刺AI系统-6：从管理黑洞到智能作战，这才是代理商的正确打开方式

贵州六盘水AI电销系统代理靠谱吗？2026最新避坑指南，看完再决定做不做！

汽车电子功能安全应用性能，安全全面飙升！Imagination GPU推动车载智能化

电子SOP的应用海宝软件：使用E-SOP系统的意义及优势