应用电子自动文摘 AAAI 2020 多模态基准指导的生成式多模态自动文摘

小编 2024-11-25 论坛 23 0

AAAI 2020 多模态基准指导的生成式多模态自动文摘

作者 | 朱军楠、张家俊

编辑 | 丛末

多模态自动文摘是指利用计算机实现从含有两种或两种以上模态(如图片、文本等)的信息中生成图文式摘要的过程。该技术可以广泛应用于新闻推送、跨境电商、产品描述自动生成等多个领域,具有重要的研究价值和丰富的应用场景。

近年来,随着计算机视觉以及自然语言处理技术的发展,多模态自动文摘技术逐渐成为学术界和工业界研究的热点。当前的多模态自动文摘受限于数据集本身的原因只能采用文本模态的负对数似然损失作为目标函数训练整个网络,同时利用注意力机制来辅助挑选图片。

这种做法容易带来模态偏差的问题,即整个网络会倾向于优化文本生成的质量而忽视了图片的挑选过程,如图1所示。若只考虑文本模态的损失,B摘要是要优于A摘要的,但是很显然B摘要中的图片的人物对应关系不对;而当我们引入图片选择的损失时,我们可以明显的判断出A摘要是优于B摘要的,并且这也符合基本事实。

图 1 模态偏差的示例

论文方法

针对于上述问题,中科院自动化所自然语言处理组博士生朱军楠、周玉研究员、张家俊研究员、宗成庆研究员等提出了多模态基准指导的多模态自动文摘方法。基本想法是优化多模态摘要训练的目标函数,即在文本损失的基础上增加图片选择的损失函数。

如图2所示,该方法由三部分组成:

(1)首先利用数据集本身的特征将只有文本基准的训练数据扩展至多模态基准,主要采用两种方式,即直接使用输入图片的顺序对图片进行排序或者使用图片的文字描述与标准文本摘要参考答案之间的ROUGE值大小对输入图片进行排序;

(2)在模型上添加图片判别器用于训练图片挑选的过程,模型的损失函数也由文本的损失函数及图片挑选的损失函数加权求和而成;

(3)通过数据集中的图片和文本描述构造文本-图片对齐片段从而用来训练能够更好地评价多模态片段的评价模型,具体而言我们将两对图片-描述的文本部分(或图像部分)进行交换去构造两个匹配的多模态片段,如图3所示。

图 2 多模态基准指导的多模态自动文摘框架图

图 3 多模态匹配片段构造示意图

实验结果

目前多模态自动文摘的数据集还比较匮乏,我们之前发布了一个公开数据集MSMO,这项工作也在该数据集上进行实验验证。在对比摘要方法的性能之前,我们首先需要明确应该采用哪种评价指标。

在之前的工作中,图文式摘要的评价关注三个方面的指标:图片准确率(IP)、文本摘要的ROUGE值(ROUGE-L)以及系统输出中图片文本的相关度(Msim)。

在我们的方法中,我们引入一个新的自动评价指标MRmax用来直接度量两个多模态信息之间的相似度(输出和参考答案的最大相似度)。MMAE是对IP、ROUGE和Msim的组合,MMAE++是IP、ROUGE、Msim和MRmax四个自动评价指标的组合。我们利用与人工打分之间的相关度来对比不同的自动评价指标。

表 1 不同评价指标与人工打分之间的相关度(分值越高、性能越好)

表1给出了不同的自动评价指标与人工打分的相关度,可以看出融入了直接测量多模态片段的评价指标MR之后,新的自动评价模型MMAE++相比于MMAE在与人工打分的相关度上有一个显著的提升。

为了衡量我们提出的多模态基准指导的模型,我们同多个强基线模型进行了对比,包括融入全局或者局部视觉特征的多模态注意力机制的生成式自动文摘模型(ATG、ATL)、层次化的多模态自动文摘模型(HAN)以及基于图模型的抽取式自动文摘模型(GR)。

表 2 不同模型生成的图文式摘要的质量对比(MOF表示多模态基准指导的方法、RR表示通过ROUGE值对图片排序,OR表示通过输入图片的顺序对图片排序,enc表示利用编码器隐层状态选择图片,dec表示利用解码器隐层状态选择图片)

表2给出了不同模型生成的图文式摘要的质量对比。可以看出在引入多模态基准指导后,模型的图片挑选质量(IP)得到了显著的改善,并且文本生成质量也有略微改进,从而生成更高质量的图文摘要。相对于使用编码器隐层状态而言,采用解码器隐层状态去进行图片选择效果会更好

另一方面,使用图片描述与文本摘要之间ROUGE值的大小对图片排序获得的多模态基准对于模型的指导作用更加明显。

表 3 图片选择的损失函数的权重大小

我们也对比了不同的图片选择损失函数权重对于模型性能的影响,可以看到当图片和文本的损失函数的权重都相同时,图文摘要的质量是最好的。

表 4 计算图片损失中考虑的图片的数量的影响

我们对比了在计算图片损失中考虑的图片数量(即top-K图片作为gold standard)所带来的影响,并且发现当 K=3的时候,模型取得了最好的效果。

相关细节可参考发表于人工智能顶级学术会议AAAI 2020的论文:

Junnan Zhu, Yu Zhou, Jiajun Zhang, Haoran Li, Chengqing Zong, Changliang Li. Multimodal Summarization with Guidance of Multimodal Reference. AAAI-2020.

AAAI 2020 多模态基准指导的生成式多模态自动文摘

作者 | 朱军楠、张家俊

多模态自动文摘是指利用计算机实现从含有两种或两种以上模态(如图片、文本等)的信息中生成图文式摘要的过程。该技术可以广泛应用于新闻推送、跨境电商、产品描述自动生成等多个领域,具有重要的研究价值和丰富的应用场景。

近年来,随着计算机视觉以及自然语言处理技术的发展,多模态自动文摘技术逐渐成为学术界和工业界研究的热点。当前的多模态自动文摘受限于数据集本身的原因只能采用文本模态的负对数似然损失作为目标函数训练整个网络,同时利用注意力机制来辅助挑选图片。

这种做法容易带来模态偏差的问题,即整个网络会倾向于优化文本生成的质量而忽视了图片的挑选过程,如图1所示。若只考虑文本模态的损失,B摘要是要优于A摘要的,但是很显然B摘要中的图片的人物对应关系不对;而当我们引入图片选择的损失时,我们可以明显的判断出A摘要是优于B摘要的,并且这也符合基本事实。

图 1 模态偏差的示例

论文方法

针对于上述问题,中科院自动化所自然语言处理组博士生朱军楠、周玉研究员、张家俊研究员、宗成庆研究员等提出了多模态基准指导的多模态自动文摘方法。基本想法是优化多模态摘要训练的目标函数,即在文本损失的基础上增加图片选择的损失函数。

如图2所示,该方法由三部分组成:

(1)首先利用数据集本身的特征将只有文本基准的训练数据扩展至多模态基准,主要采用两种方式,即直接使用输入图片的顺序对图片进行排序或者使用图片的文字描述与标准文本摘要参考答案之间的ROUGE值大小对输入图片进行排序;

(2)在模型上添加图片判别器用于训练图片挑选的过程,模型的损失函数也由文本的损失函数及图片挑选的损失函数加权求和而成;

(3)通过数据集中的图片和文本描述构造文本-图片对齐片段从而用来训练能够更好地评价多模态片段的评价模型,具体而言我们将两对图片-描述的文本部分(或图像部分)进行交换去构造两个匹配的多模态片段,如图3所示。

图 2 多模态基准指导的多模态自动文摘框架图

图 3 多模态匹配片段构造示意图

实验结果

目前多模态自动文摘的数据集还比较匮乏,我们之前发布了一个公开数据集MSMO,这项工作也在该数据集上进行实验验证。在对比摘要方法的性能之前,我们首先需要明确应该采用哪种评价指标。在之前的工作中,图文式摘要的评价关注三个方面的指标:图片准确率(IP)、文本摘要的ROUGE值(ROUGE-L)以及系统输出中图片文本的相关度(Msim)。在我们的方法中,我们引入一个新的自动评价指标MRmax用来直接度量两个多模态信息之间的相似度(输出和参考答案的最大相似度)。MMAE是对IP、ROUGE和Msim的组合,MMAE++是IP、ROUGE、Msim和MRmax四个自动评价指标的组合。我们利用与人工打分之间的相关度来对比不同的自动评价指标。

表 1 不同评价指标与人工打分之间的相关度(分值越高、性能越好)

表1给出了不同的自动评价指标与人工打分的相关度,可以看出融入了直接测量多模态片段的评价指标MR之后,新的自动评价模型MMAE++相比于MMAE在与人工打分的相关度上有一个显著的提升。为了衡量我们提出的多模态基准指导的模型,我们同多个强基线模型进行了对比,包括融入全局或者局部视觉特征的多模态注意力机制的生成式自动文摘模型(ATG、ATL)、层次化的多模态自动文摘模型(HAN)以及基于图模型的抽取式自动文摘模型(GR)。

表 2 不同模型生成的图文式摘要的质量对比(MOF表示多模态基准指导的方法、RR表示通过ROUGE值对图片排序,OR表示通过输入图片的顺序对图片排序,enc表示利用编码器隐层状态选择图片,dec表示利用解码器隐层状态选择图片)

表2给出了不同模型生成的图文式摘要的质量对比。可以看出在引入多模态基准指导后,模型的图片挑选质量(IP)得到了显著的改善,并且文本生成质量也有略微改进,从而生成更高质量的图文摘要。相对于使用编码器隐层状态而言,采用解码器隐层状态去进行图片选择效果会更好

。另一方面,使用图片描述与文本摘要之间ROUGE值的大小对图片排序获得的多模态基准对于模型的指导作用更加明显

表 3 图片选择的损失函数的权重大小

我们也对比了不同的图片选择损失函数权重对于模型性能的影响,可以看到当图片和文本的损失函数的权重都相同时,图文摘要的质量是最好的。

表 4 计算图片损失中考虑的图片的数量的影响

我们对比了在计算图片损失中考虑的图片数量(即top-K图片作为gold standard)所带来的影响,并且发现当 K=3的时候,模型取得了最好的效果。

相关细节可参考发表于人工智能顶级学术会议AAAI 2020的论文:

Junnan Zhu, Yu Zhou, Jiajun Zhang, Haoran Li, Chengqing Zong, Changliang Li. Multimodal Summarization with Guidance of Multimodal Reference. AAAI-2020.

雷锋网 AI 科技评论报道。雷锋网雷锋网

相关问答

什么样的app可以发表自己的文章,并通过自己发表的文章赚钱?

如果你是专业的写手,或者有团队,前期要准备大量的工作去吸粉,粉丝和优质的文章是第一要素。后期就可以拉广告拉赞助啦!三、《读者》和《青年文摘》报刊官网...

【怎么构造检索式】作业帮

[回答]TI是英文title:题名的意思.如你所写的是:包括KEY是关键词其实我们还可用一些简单的方法:1.文献类型选择在文献查询页面,“文献类型选择”列出了...

文本挖掘属于什么方向?

文本挖掘是近几年来数据挖掘领域的一个新兴分支,文本挖掘也称为文本数据库中的知识发现。是从大量文本的集合或语料库中抽取事先未知的、可理解的、有潜在实用...

想制作一个用来管理客户档案的软件,用什么工具?

[回答](邮件接收者会同时收到邮件,便于领导人及时传递信息)第二大特色:健全、新颖的保密设置:联系人可进行公私设置,收到的邮件和短信可按联系人的设置自...

一本《读者 文摘 》,能唤起多少人回忆?

一本经典又让人虔诚喜欢的书,记忆回到曾经有梨花片片随风飘下,一地落花的曾经……一个扎着两只乌黑辫子的丫头,坐梨花树下,享受着《读者文摘》的精神食粮。...其...

科技论文写作过程是怎样的? - cherry_boom 的回答 - 懂得

工作单位作者姓名署于题名下方,团体作者的执笔人也可注于首页页脚或文末,作者署名是文责自负和拥有著作权的标志。对作者应标明其工作单...对作...

急文献检索作业题目1模拟集成器件的发展--可编程模拟器件2sop...

[回答]你中北的哇!一样

EI检索大概多长时间能出来?

一般来说,EI检索的时间需要几分钟到几小时不等。如果文献数量比较多,检索时间可能会更长。在提交检索请求后,系统会自动开始检索并在检索完成后将结果返回给用...

我有很多经典的故事材料,想把它们写出来,可是不知怎么连接,无法下笔,该怎么办?

写作有多重用途,这是一项人人必须重视的能力。关于写作能力,有很多书籍从多种角度讲述,我想干脆把这些比较知名的写作指导书籍一起拿来看看,分别从非虚构写...

膜分离过程中原料气流量的控制方法-盖德问答-化工人互助问答社区

该方法成功应用于金陵石化加氢裂化低分气中提取高浓氢的工艺中,验证了这种控制...适用于所有气体膜分离过程中对处理气量的自动控制。[著者文摘]关键词:膜分...