2023年6月21日发(作者:)
赛尔原创|⽤对⽐集成式⽅法理解基于⽂档的对话论⽂名称:A Compare Aggregate Transformer for Understanding Document-grounded Dialogue论⽂作者:马龙轩,张伟男,孙润鑫,刘挺原创作者:马龙轩转载须标注出处:哈⼯⼤SCIR1. 简介以⾮结构化⽂档作为对话上下⽂之外的知识可以提供信息量更丰富的回复。之前的研究主要关注如何利⽤对话对⽂档中的知识进⾏筛选。然⽽,与当前对话不相关的对话历史会在筛选知识时引⼊噪⾳。本⽂提出了⼀种对⽐集成式的结构(Compare Aggregate Transformer,CAT)对历史对话进⾏降噪处理,使⽤降噪后的信息筛选⽂档信息和⽣成回复。我们设计了两类不同的对⽐机制,分别在解码前和解码过程中进⾏降噪处理。此外,我们提出了两个基于词覆盖率的评价⽂档利⽤效率(Knowledge Utilization,KU)的指标。在CMU_DoG数据集上的实验结果表明,我们提出的CAT模型能够⽣成更相关的回复,在⾃动评价和⼈⼯评价上都优于最新⽅法,尤其是在历史对话与当前对话⽆关时。2. 动机我们将多轮对话(轮数设为N)的前N-1轮定义为对话历史,将第N轮定义为当前对话,⽬标是⽣成第N+1轮回复。已有研究表明对⽣成回复影响最⼤的是当前轮[1],⽽对话历史有可能引⼊噪⾳⽽导致⽣成上下⽂不连贯的回复,如表1所⽰:表1. 基于⽂档的对话⽰例红⾊的斜体字与历史相关,在针对该轮对话⽣成回复时,需要考虑对话历史的影响。⿊体字开启了⼀个新的与对话历史⽆关的话题,在针对它⽣成回复时不应该考虑对话历史。针对这个问题,本⽂提出⼀种对⽐集成式模型(CompareAggregate Transformer,CAT)。模型对⽐当前对话和历史对话的内容,⽤当前对话指导对话历史进⾏信息筛选,再与当前对话筛选出的信息进⾏聚合,使⽤聚合后的信息⽣成回复。特别的,本⽂设计了两种不同的聚合信息的⽅法,⼀种在解码前使⽤⾃动学习的权重,另⼀种在解码过程中使⽤注意⼒机制。为了验证提出⽅法的有效性,除在原始CMU_DoG数据集上进⾏实验,我们还构造了⼀个当前对话与对话历史弱相关的新测试集,同时提出两个基于词覆盖率的指标⽤来评价对话中⽂本信息的利⽤效率。在两个测试集上的实验结果表明,与现有的基线模型相⽐,CAT能够⽣成语义更加连贯、知识利⽤率更⾼的回复。在当前对话与对话历史弱相关的测试集上,CAT的优势更加明显。需要指出的是,本⽂不关注在回复中开启新话题的任务[2],只关注对话上下⽂的主题相关性。3. 模型 3.1 任务定义令为由d个词组成的⽂档,对话历史含h个单词,当前对话包含l个词,为包含r个词的回复。基于⽂档的对话任务可被定义为在给定相关⽂档D、对话历史H和当前对话L的条件下,⽣成回复R的概率:其中θ是模型的参数。3.2 模型结构图1. CAT模型结构图如图1所⽰,模型基于Transformer结构[3],编码器和训练时解码器的输⼊是每个词的预训练词向量+位置向量+轮次标注向量。图中的self/utter/doc-attention遵循原论⽂的(Q,K,V)操作,当三个输⼊有两个相同时,不同的⼀个记为Q,相同的两个分别记为K,V。(a)是完整模型⽰意图以及编码部分的结构,编码器分为左右两个分⽀,左分⽀⾸先对对话历史和当前对话执⾏self-attention操作(注意图中省略了对话历史的self-attention),分别得到对话历史的表⽰和当前对话的表⽰。之后利⽤过滤(两部分对话的第⼀次对⽐),使⽤过滤结果对⽂本信息(注意图中也省略了⽂本的self-attention操作)进⾏筛选得到;右侧分⽀直接使⽤当前对话筛选⽂档信息,记为。(b)是第⼀种解码器结构,它是⼀个双层的推敲解码器结构,在解码前⾸先通过⼀个门机制⾃动学习的系数α判断保留多少对话历史进⼊解码器,α平衡编码器左右分⽀的信息和得到作为解码器的输⼊(两部分对话的第⼆次对⽐)。第⼀层的解码器依次融合D^final信息和当前对话信息,得到基于对话上下⽂和筛选信息的初始回复;在此基础上,第⼆层解码器进⼀步融合⽂档信息,对进⾏补充得到最终的回复。的计算过程为:其中、、为参数,max为取极⼤值,[;]为向量的拼接,*为Hadamard积。(c)是第⼆种解码器结构,它替换掉了(b)结构中的第⼀层解码器,直接⽤和作为输⼊,在解码过程中⽤注意⼒机制Merge-attention判断对话历史的影响得到,之后将得到的作为第⼆层解码器的输⼊。此处Merge-attention的做法是:其中是参数,R在训练时为真实回复的self-attention结果,在测试时是模型⽣成回复的self-attention结果,、、为P的softmax结果。3.3 优化⽬标分别对两层解码器计算MLE损失,并采⽤加和的⽅式进⾏联合训练,其公式为:这⾥M为参与训练的样本总数。4. 实验结果针对研究的内容,除CMU_DoG[4]的原始数据(我们借助[5]处理的数据(记为Reduced),但区别是我们直接对整个⽂档进⾏操作)外,我们还构造了⼀个对话历史与当前对话弱相关的测试集(记为Sampled),过滤条件是当前对话与历史对话分别针对⽂档的不同section,⽤来更好地测试当前对话发⽣主题转移时CAT模型的性能。数据统计如图2所⽰。话分别针对⽂档的不同section,⽤来更好地测试当前对话发⽣主题转移时CAT模型的性能。数据统计如图2所⽰。图2. 数据统计同时,针对⽂档的利⽤效率,我们提出了两个基于词覆盖率的评价指标KU-n和QKU-n(n为⽤于计算词覆盖的元组长度),计算回复中使⽤的⽂档信息的数量和质量,KU值越⼤说明回复利⽤的⽂档信息越多,QKU值越⼩说明回复利⽤的⽂档信息质量越⾼。具体计算⽅式请参考论⽂原⽂。实验结果如图3所⽰,CAT-EDD为图1中(c)结构,CAT-DD为图1中(b)结构。图3. 实验结果. 括号外部和内部分别为原始测试集(新构造的测试集)从图中可以得到的结论是:1)在PPL/BLEU/ROUGE/QKU指标上,CAT模型在所有的指标上都优于基线模型。模型分别取得了10%~20%的性能提升。说明模型更好的收敛到了训练⽬标并且利⽤的⽂档信息质量也更⾼。2)KU值超过了所有以Transformer为基础的基线模型,但低于以GRU为基础的VHRED模型,这说明潜变量模型增加了回复的多样性,能够利⽤更多的⽂本信息,但QKU值表明其利⽤信息的质量并不⾼。3)CAT-DD模型⽐CAT-EDD模型有更好的性能,这说明利⽤更早的编码信息进⾏信息过滤的效果⽐在解码过程中过滤更好,原因是早期的编码结果保留了更多的⽂本信息,后期的信息是更抽象的特征,这些特征可能有利于分类任务,但不利于对话⽣成类任务。同时,显⽰的门机制控制可能⽐隐式的权重计算更能发挥作⽤。4)CAT模型在Sampled测试集⽐在Reduced测试集上,相对于基线模型体现了更⼤的优势。这说明我们提出的对⽐集成⽅法的确更好地捕捉到了对话历史与当前对话的相关性。我们同时也随机抽取了不同模型⽣成的回复进⾏了⼈⼯评价,其结果同样显⽰了CAT模型对⽐基线模型的优势。5. 讨论 5.1 消融实验在消融实验部分,我们对⽐了三种CAT-DD模型的变种,(w/o-G)是去除左侧分⽀中和的交互,也即减少最初的对⽐过滤过程;(w/o-left)通过去除图1(a)模型的左侧分⽀,模型退化为单轮对话的模式,显然也就⽆需判断历史对话的影响;(w/o-5,6)通过去除权重部分的公式,模型直接拼接和作为。实验结果如图4所⽰。图4. 消融实验可以看到不同的组成部分都对模型性能有着正向的影响,综合各组件的完整模型能达到最优的效果。5.2 对话历史的权重分析论⽂中有⼀个⾃动学习的权重,我们将其量化如图5所⽰。在Reduced数据上值明显⾼于Sampled值,这说明过滤后的测试集的确降低了对话历史与当前对话的相关性。⽽随着对话轮次的增加,这种相关性逐渐趋于平稳,两部分对话的相关性可以依靠少数轮次确定。同时我们也对⽐了历史轮次增加对实验结果的影响,实验结果有着类似的趋势,在对话轮次从1增加到2时变化明显,随着对话轮次的增长,各种评价指标都趋于平稳。图5. 对话历史权重,横轴为对话轮数,纵轴为值5.3 对话样例分析如表2所⽰,我们从Sampled测试集中随机选取了⼀个例⼦,以较为直观地观察模型的⽣成效果。⾸先可以看到当前对话“Is it a big name cast?”与对话历史的相关度较低,只存在it之间的指代关系。我们对⽐了多个不同模型的⽣成,VHRED(a)和(w/o-(G))模型给出了⽆关回复;TDD给出了通⽤回复;ITDD给出了相对合理的回复但缺少⾜够的⽂档信息;(w/o-(5,6))的回复被对话历史影响了语义连贯性;只有CAT-DD的⽣成同时满⾜信息度和连贯性。但同时也存在明显的缺陷,CAT-DD只是正确的从⽂档中筛选出了信息,并没有将信息进⾏进⼀步的加⼯,⽣成符合⼈类对话的语句。这说明模型仍然有很⼤的改进空间,例如使⽤更能区分双层解码器输出的损失函数,或者设计单独的组件对筛选信息后的⽂本进⾏再次加⼯。表2. Sampled测试集中基于⽂档的对话⽰例6. 结论针对以⽂档为外部知识的对话任务,本⽂提出了基于Transformer的对⽐集成模型,分析对话历史和当前对话的关系,充分发挥当前对话在信息筛选中的指导作⽤。我们设计了两种不同的计算对话历史权重的⽅法,在已有数据集的基础上构造了新的测试样例,并提出了两个新的静态统计指标来测试我们提出⽅法的有效性。实验结果表明与现有的基线模型相⽐,CAT可以更好地理解对话中的主题转移,从⽽⽣成相关性和信息度更好的回复。同时在实验分析中给出了关于模型有效性和进⼀步提升性能的思考。7. 参考⽂献[1] Sankar C, Subramanian S, Pal C, et al. Do Neural Dialog Systems Use the Conversation History Effectively? AnEmpirical Study[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019:32-37.[2] Satoshi Akasaki, Nobuhiro Kaji: Conversation Initiation by Diverse News Contents Introduction. NAACL-HLT (1)2019: 3988-3998[3] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing[3] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processingsystems. 2017: 5998-6008.[4] Zhou K, Prabhumoye S, Black A W. A Dataset for Document Grounded Conversations[C]//Proceedings of the 2018Conference on Empirical Methods in Natural Language Processing. 2018: 708-713.[5]Li Z, Niu C, Meng F, et al. Incremental Transformer with Deliberation Decoder for Document GroundedConversations[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019: 12-21.本期责任编辑:张伟男本期编辑:钟蔚弘主编:车万翔编辑:王若珂,钟蔚弘,彭湃,朱⽂轩,冯晨,杜佳琪,牟虹霖,张馨
2023年6月21日发(作者:)
赛尔原创|⽤对⽐集成式⽅法理解基于⽂档的对话论⽂名称:A Compare Aggregate Transformer for Understanding Document-grounded Dialogue论⽂作者:马龙轩,张伟男,孙润鑫,刘挺原创作者:马龙轩转载须标注出处:哈⼯⼤SCIR1. 简介以⾮结构化⽂档作为对话上下⽂之外的知识可以提供信息量更丰富的回复。之前的研究主要关注如何利⽤对话对⽂档中的知识进⾏筛选。然⽽,与当前对话不相关的对话历史会在筛选知识时引⼊噪⾳。本⽂提出了⼀种对⽐集成式的结构(Compare Aggregate Transformer,CAT)对历史对话进⾏降噪处理,使⽤降噪后的信息筛选⽂档信息和⽣成回复。我们设计了两类不同的对⽐机制,分别在解码前和解码过程中进⾏降噪处理。此外,我们提出了两个基于词覆盖率的评价⽂档利⽤效率(Knowledge Utilization,KU)的指标。在CMU_DoG数据集上的实验结果表明,我们提出的CAT模型能够⽣成更相关的回复,在⾃动评价和⼈⼯评价上都优于最新⽅法,尤其是在历史对话与当前对话⽆关时。2. 动机我们将多轮对话(轮数设为N)的前N-1轮定义为对话历史,将第N轮定义为当前对话,⽬标是⽣成第N+1轮回复。已有研究表明对⽣成回复影响最⼤的是当前轮[1],⽽对话历史有可能引⼊噪⾳⽽导致⽣成上下⽂不连贯的回复,如表1所⽰:表1. 基于⽂档的对话⽰例红⾊的斜体字与历史相关,在针对该轮对话⽣成回复时,需要考虑对话历史的影响。⿊体字开启了⼀个新的与对话历史⽆关的话题,在针对它⽣成回复时不应该考虑对话历史。针对这个问题,本⽂提出⼀种对⽐集成式模型(CompareAggregate Transformer,CAT)。模型对⽐当前对话和历史对话的内容,⽤当前对话指导对话历史进⾏信息筛选,再与当前对话筛选出的信息进⾏聚合,使⽤聚合后的信息⽣成回复。特别的,本⽂设计了两种不同的聚合信息的⽅法,⼀种在解码前使⽤⾃动学习的权重,另⼀种在解码过程中使⽤注意⼒机制。为了验证提出⽅法的有效性,除在原始CMU_DoG数据集上进⾏实验,我们还构造了⼀个当前对话与对话历史弱相关的新测试集,同时提出两个基于词覆盖率的指标⽤来评价对话中⽂本信息的利⽤效率。在两个测试集上的实验结果表明,与现有的基线模型相⽐,CAT能够⽣成语义更加连贯、知识利⽤率更⾼的回复。在当前对话与对话历史弱相关的测试集上,CAT的优势更加明显。需要指出的是,本⽂不关注在回复中开启新话题的任务[2],只关注对话上下⽂的主题相关性。3. 模型 3.1 任务定义令为由d个词组成的⽂档,对话历史含h个单词,当前对话包含l个词,为包含r个词的回复。基于⽂档的对话任务可被定义为在给定相关⽂档D、对话历史H和当前对话L的条件下,⽣成回复R的概率:其中θ是模型的参数。3.2 模型结构图1. CAT模型结构图如图1所⽰,模型基于Transformer结构[3],编码器和训练时解码器的输⼊是每个词的预训练词向量+位置向量+轮次标注向量。图中的self/utter/doc-attention遵循原论⽂的(Q,K,V)操作,当三个输⼊有两个相同时,不同的⼀个记为Q,相同的两个分别记为K,V。(a)是完整模型⽰意图以及编码部分的结构,编码器分为左右两个分⽀,左分⽀⾸先对对话历史和当前对话执⾏self-attention操作(注意图中省略了对话历史的self-attention),分别得到对话历史的表⽰和当前对话的表⽰。之后利⽤过滤(两部分对话的第⼀次对⽐),使⽤过滤结果对⽂本信息(注意图中也省略了⽂本的self-attention操作)进⾏筛选得到;右侧分⽀直接使⽤当前对话筛选⽂档信息,记为。(b)是第⼀种解码器结构,它是⼀个双层的推敲解码器结构,在解码前⾸先通过⼀个门机制⾃动学习的系数α判断保留多少对话历史进⼊解码器,α平衡编码器左右分⽀的信息和得到作为解码器的输⼊(两部分对话的第⼆次对⽐)。第⼀层的解码器依次融合D^final信息和当前对话信息,得到基于对话上下⽂和筛选信息的初始回复;在此基础上,第⼆层解码器进⼀步融合⽂档信息,对进⾏补充得到最终的回复。的计算过程为:其中、、为参数,max为取极⼤值,[;]为向量的拼接,*为Hadamard积。(c)是第⼆种解码器结构,它替换掉了(b)结构中的第⼀层解码器,直接⽤和作为输⼊,在解码过程中⽤注意⼒机制Merge-attention判断对话历史的影响得到,之后将得到的作为第⼆层解码器的输⼊。此处Merge-attention的做法是:其中是参数,R在训练时为真实回复的self-attention结果,在测试时是模型⽣成回复的self-attention结果,、、为P的softmax结果。3.3 优化⽬标分别对两层解码器计算MLE损失,并采⽤加和的⽅式进⾏联合训练,其公式为:这⾥M为参与训练的样本总数。4. 实验结果针对研究的内容,除CMU_DoG[4]的原始数据(我们借助[5]处理的数据(记为Reduced),但区别是我们直接对整个⽂档进⾏操作)外,我们还构造了⼀个对话历史与当前对话弱相关的测试集(记为Sampled),过滤条件是当前对话与历史对话分别针对⽂档的不同section,⽤来更好地测试当前对话发⽣主题转移时CAT模型的性能。数据统计如图2所⽰。话分别针对⽂档的不同section,⽤来更好地测试当前对话发⽣主题转移时CAT模型的性能。数据统计如图2所⽰。图2. 数据统计同时,针对⽂档的利⽤效率,我们提出了两个基于词覆盖率的评价指标KU-n和QKU-n(n为⽤于计算词覆盖的元组长度),计算回复中使⽤的⽂档信息的数量和质量,KU值越⼤说明回复利⽤的⽂档信息越多,QKU值越⼩说明回复利⽤的⽂档信息质量越⾼。具体计算⽅式请参考论⽂原⽂。实验结果如图3所⽰,CAT-EDD为图1中(c)结构,CAT-DD为图1中(b)结构。图3. 实验结果. 括号外部和内部分别为原始测试集(新构造的测试集)从图中可以得到的结论是:1)在PPL/BLEU/ROUGE/QKU指标上,CAT模型在所有的指标上都优于基线模型。模型分别取得了10%~20%的性能提升。说明模型更好的收敛到了训练⽬标并且利⽤的⽂档信息质量也更⾼。2)KU值超过了所有以Transformer为基础的基线模型,但低于以GRU为基础的VHRED模型,这说明潜变量模型增加了回复的多样性,能够利⽤更多的⽂本信息,但QKU值表明其利⽤信息的质量并不⾼。3)CAT-DD模型⽐CAT-EDD模型有更好的性能,这说明利⽤更早的编码信息进⾏信息过滤的效果⽐在解码过程中过滤更好,原因是早期的编码结果保留了更多的⽂本信息,后期的信息是更抽象的特征,这些特征可能有利于分类任务,但不利于对话⽣成类任务。同时,显⽰的门机制控制可能⽐隐式的权重计算更能发挥作⽤。4)CAT模型在Sampled测试集⽐在Reduced测试集上,相对于基线模型体现了更⼤的优势。这说明我们提出的对⽐集成⽅法的确更好地捕捉到了对话历史与当前对话的相关性。我们同时也随机抽取了不同模型⽣成的回复进⾏了⼈⼯评价,其结果同样显⽰了CAT模型对⽐基线模型的优势。5. 讨论 5.1 消融实验在消融实验部分,我们对⽐了三种CAT-DD模型的变种,(w/o-G)是去除左侧分⽀中和的交互,也即减少最初的对⽐过滤过程;(w/o-left)通过去除图1(a)模型的左侧分⽀,模型退化为单轮对话的模式,显然也就⽆需判断历史对话的影响;(w/o-5,6)通过去除权重部分的公式,模型直接拼接和作为。实验结果如图4所⽰。图4. 消融实验可以看到不同的组成部分都对模型性能有着正向的影响,综合各组件的完整模型能达到最优的效果。5.2 对话历史的权重分析论⽂中有⼀个⾃动学习的权重,我们将其量化如图5所⽰。在Reduced数据上值明显⾼于Sampled值,这说明过滤后的测试集的确降低了对话历史与当前对话的相关性。⽽随着对话轮次的增加,这种相关性逐渐趋于平稳,两部分对话的相关性可以依靠少数轮次确定。同时我们也对⽐了历史轮次增加对实验结果的影响,实验结果有着类似的趋势,在对话轮次从1增加到2时变化明显,随着对话轮次的增长,各种评价指标都趋于平稳。图5. 对话历史权重,横轴为对话轮数,纵轴为值5.3 对话样例分析如表2所⽰,我们从Sampled测试集中随机选取了⼀个例⼦,以较为直观地观察模型的⽣成效果。⾸先可以看到当前对话“Is it a big name cast?”与对话历史的相关度较低,只存在it之间的指代关系。我们对⽐了多个不同模型的⽣成,VHRED(a)和(w/o-(G))模型给出了⽆关回复;TDD给出了通⽤回复;ITDD给出了相对合理的回复但缺少⾜够的⽂档信息;(w/o-(5,6))的回复被对话历史影响了语义连贯性;只有CAT-DD的⽣成同时满⾜信息度和连贯性。但同时也存在明显的缺陷,CAT-DD只是正确的从⽂档中筛选出了信息,并没有将信息进⾏进⼀步的加⼯,⽣成符合⼈类对话的语句。这说明模型仍然有很⼤的改进空间,例如使⽤更能区分双层解码器输出的损失函数,或者设计单独的组件对筛选信息后的⽂本进⾏再次加⼯。表2. Sampled测试集中基于⽂档的对话⽰例6. 结论针对以⽂档为外部知识的对话任务,本⽂提出了基于Transformer的对⽐集成模型,分析对话历史和当前对话的关系,充分发挥当前对话在信息筛选中的指导作⽤。我们设计了两种不同的计算对话历史权重的⽅法,在已有数据集的基础上构造了新的测试样例,并提出了两个新的静态统计指标来测试我们提出⽅法的有效性。实验结果表明与现有的基线模型相⽐,CAT可以更好地理解对话中的主题转移,从⽽⽣成相关性和信息度更好的回复。同时在实验分析中给出了关于模型有效性和进⼀步提升性能的思考。7. 参考⽂献[1] Sankar C, Subramanian S, Pal C, et al. Do Neural Dialog Systems Use the Conversation History Effectively? AnEmpirical Study[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019:32-37.[2] Satoshi Akasaki, Nobuhiro Kaji: Conversation Initiation by Diverse News Contents Introduction. NAACL-HLT (1)2019: 3988-3998[3] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing[3] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processingsystems. 2017: 5998-6008.[4] Zhou K, Prabhumoye S, Black A W. A Dataset for Document Grounded Conversations[C]//Proceedings of the 2018Conference on Empirical Methods in Natural Language Processing. 2018: 708-713.[5]Li Z, Niu C, Meng F, et al. Incremental Transformer with Deliberation Decoder for Document GroundedConversations[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019: 12-21.本期责任编辑:张伟男本期编辑:钟蔚弘主编:车万翔编辑:王若珂,钟蔚弘,彭湃,朱⽂轩,冯晨,杜佳琪,牟虹霖,张馨
发布评论