机器阅读理解模型的训练方法与流程-尊龙凯时官方app下载

文档序号:36265762发布日期:2023-12-06 09:22阅读:4来源:国知局
机器阅读理解模型的训练方法与流程
机器阅读理解模型的训练方法、装置及可读存储介质
技术领域
1.本发明涉及机器学习与自然语言处理
(nlp

natural language processing)
技术领域,具体涉及一种机器阅读理解机器阅读理解
(mrc

machine reading comprehension)
模型的训练方法

装置及计算机可读存储介质



背景技术:

2.机器阅读理解能够从相关文章中提取出用户输入问题所匹配的答案,是搜索引擎以及问答系统的重要组成部分

如今,尽管在机器阅读理解任务上神经网络方法所体现的性能有很大发展,但是这些方法存在缺乏鲁棒性的问题

鲁棒性是指抵抗或者克服不利条件或者严格测试的能力

例如,如图1所示,对于一个基于神经网络的机器阅读理解模型,输入的文章为“the past record was held by john elway,who led the broncos to victory in super bowl xxxiii at age 38 and
…”
,问题为“what is the name of the quarterback who was 38 in super bowl xxxiii
?”,该问题对应的正确答案为“john elway”。
通过在文章中加入一个伪造的干扰句子“quarterback jeff dean had jersey number 37 in champ bowl xxxiv”,该模型就会被误导从而输出错误答案“jeff dean”。
3.现有技术提高机器阅读理解鲁棒性的通常方法是:在原始数据集中加入自动生成的对抗样本
(
对抗文章
)
,用这种加入了对抗样本的扩充数据集训练神经网络模型从而使其学习到对抗干扰的能力

然而,这种方法有如下缺点:
1)
人为生成的对抗文章可能是不符合人类语言表达习惯的样本,这些对于人来说并不自然的句子相当于引入了噪声,会对模型性能有负面影响;
2)
如果更换数据集训练模型,则需要重新生成对抗样本

另外,为了得到更好的对抗干扰能力,也有一些比较先进的模型采用了一种迭代的方式,每次迭代中根据当前模型表现生成其所不擅长应付的对抗样本加入数据集,之后再用本次迭代中扩充的数据集训练当前模型

因为需要多次迭代训练,所以该方法的效率很低



技术实现要素:

4.本技术实施例要解决的技术问题是提供一种机器阅读理解模型的训练方法

装置及计算机可读存储介质,能够有效提高机器阅读理解模型的鲁棒性

5.根据本技术的一个方面,至少一个实施例提供了一种机器阅读理解模型的训练方法,包括:
6.获得训练样本集,所述训练样本集包括多个训练样本,所述训练样本包括样本文章

样本问题和所述样本问题对应的样本答案;
7.利用所述训练样本集,重复执行以下训练过程,直至满足预设的训练结束条件,得到训练好的机器阅读理解模型,其中,所述训练过程包括:
8.将所述样本文章和样本问题输入至机器阅读理解模型,利用所述机器阅读理解模型生成所述样本问题对应的第一预测答案,计算所述第一预测答案与所述样本问题对应的样本答案之间的第一损失;利用掩码覆盖所述样本问题得到掩码问题,将所述样本文章和
掩码问题输入至所述机器阅读理解模型,利用所述机器阅读理解模型生成所述掩码问题对应的第二预测答案,计算所述第二预测答案与所述样本问题对应的样本答案之间的第二损失;
9.根据所述第一损失和第二损失计算总损失,以最小化所述总损失为目标,更新所述机器阅读理解模型

10.此外,根据本技术的至少一个实施例,所述利用掩码覆盖所述样本问题得到掩码问题,包括:
11.利用掩码覆盖所述样本问题的全部词,得到第一掩码问题;
12.和
/
或,
13.利用掩码覆盖所述样本问题的部分词,得到第二掩码问题

14.此外,根据本技术的至少一个实施例,所述利用掩码覆盖所述样本问题的部分词,得到第二掩码问题,包括:
15.利用掩码覆盖所述样本问题中除预设疑问词之外的所有词,得到第二掩码问题

16.此外,根据本技术的至少一个实施例,所述总损失与所述第一损失正相关,与第二损失负相关

17.此外,根据本技术的至少一个实施例,所述根据所述第一损失和第二损失计算总损失,包括:
18.利用第一公式计算所述总损失
loss
,其中,
19.在所述掩码问题包括第一掩码问题时,所述第一公式为
loss

α1·
loss
1-β1·
loss
2,1

20.在所述掩码问题包括第二掩码问题时,所述第一公式为
loss

α2·
loss
1-β2·
loss
2,2

21.在所述掩码问题包括第一掩码问题和第二掩码问题的情况下,所述第一公式为
loss

α3·
loss
1-β3·
loss
2,1-β4·
loss
2,2

22.其中,所述
loss1表示第一损失,
loss
2,1
表示第一掩码问题对应的第二预测答案与样本答案之间的第二损失,
loss
2,2
表示第二掩码问题对应的第二预测答案与样本答案之间的第二损失,
α1、
β1、
α2、
β2、
α3、
β3和
β4分别表示预设权重,且均为正值

23.此外,根据本技术的至少一个实施例,所述方法还包括:
24.利用训练得到的机器阅读理解模型,对输入的文章和问题进行答案的预测

25.根据本技术的另一方面,至少一个实施例提供了一种机器阅读理解模型的训练装置,包括:
26.样本获得模块,用于获得训练样本集,所述训练样本集包括多个训练样本,所述训练样本包括样本文章

样本问题和所述样本问题对应的样本答案;
27.模型训练模块,用于利用所述训练样本集,重复执行以下训练过程,直至满足预设的训练结束条件,得到训练好的机器阅读理解模型,其中,所述训练过程包括:
28.将所述样本文章和样本问题输入至机器阅读理解模型,利用所述机器阅读理解模型生成所述样本问题对应的第一预测答案,计算所述第一预测答案与所述样本问题对应的样本答案之间的第一损失;利用掩码覆盖所述样本问题得到掩码问题,将所述样本文章和掩码问题输入至所述机器阅读理解模型,利用所述机器阅读理解模型生成所述掩码问题对
应的第二预测答案,计算所述第二预测答案与所述样本问题对应的样本答案之间的第二损失;
29.根据所述第一损失和第二损失计算总损失,以最小化所述总损失为目标,更新所述机器阅读理解模型

30.此外,根据本技术的至少一个实施例,所述模型训练模块包括:
31.第一生成模块,用于利用掩码覆盖所述样本问题的全部词,得到第一掩码问题;
32.和
/
或,
33.第二生成模块,用于利用掩码覆盖所述样本问题的部分词,得到第二掩码问题

34.此外,根据本技术的至少一个实施例,所述第二生成模块,还用于利用掩码覆盖所述样本问题中除预设疑问词之外的所有词,得到第二掩码问题

35.此外,根据本技术的至少一个实施例,所述总损失与所述第一损失正相关,与第二损失负相关

36.此外,根据本技术的至少一个实施例,所述模型训练模块还包括:
37.第一计算模块,用于利用第一公式计算所述总损失
loss
,其中,
38.在所述掩码问题包括第一掩码问题时,所述第一公式为
loss

α1·
loss
1-β1·
loss
2,1

39.在所述掩码问题包括第二掩码问题时,所述第一公式为
loss

α2·
loss
1-β2·
loss
2,2

40.在所述掩码问题包括第一掩码问题和第二掩码问题的情况下,所述第一公式为
loss

α3·
loss
1-β3·
loss
2,1-β4·
loss
2,2

41.其中,所述
loss1表示第一损失,
loss
2,1
表示第一掩码问题对应的第二预测答案与样本答案之间的第二损失,
loss
2,2
表示第二掩码问题对应的第二预测答案与样本答案之间的第二损失,
α1、
β1、
α2、
β2、
α3、
β3和
β4分别表示预设权重,且均为正值

42.此外,根据本技术的至少一个实施例,还包括:
43.预测模块,用于利用训练得到的机器阅读理解模型,对输入的文章和问题进行答案的预测

44.本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的机器阅读理解模型的训练方法的步骤

45.与现有技术相比,本技术实施例提供的机器阅读理解模型的训练方法

装置及计算机可读存储介质,
46.针对以上问题,本发明提出了一种融合对抗攻击的机器阅读理解方法,通过防止模型使用捷径回答问题,提高了模型的抗干扰能力,改善了机器阅读理解模型的鲁棒性

附图说明
47.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图

48.图1为机器阅读理解模型被误导输出错误答案的一个示例图;
49.图2为本技术实施例的机器阅读理解模型的训练方法的一种流程示意图;
50.图3为本技术实施例中生成第一掩码问题的一个示例图;
51.图4为本技术实施例中生成第二掩码问题的一个示例图;
52.图5为本技术实施例的步骤
22
中的训练过程的一个示例图;
53.图6为本技术实施例的机器阅读理解模型的训练装置的一种结构示意图;
54.图7为本技术实施例的机器阅读理解模型的训练装置的另一结构示意图

具体实施方式
55.为使本技术要解决的技术问题

技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述

在下面的描述中,提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本技术的实施例

因此,本领域技术人员应该清楚,可以对这里描述的实施例进行各种改变和修改而不脱离本技术的范围和精神

另外,为了清楚和简洁,省略了对已知功能和构造的描述

56.应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征

结构或特性包括在本技术的至少一个实施例中

因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例

此外,这些特定的特征

结构或特性可以任意适合的方式结合在一个或多个实施例中

57.在本技术的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定

58.本技术的发明人发现,在输入干扰句子后机器阅读理解模型被误导输出错误答案的一个原因是:在机器阅读理解任务上训练神经网络模型时,神经网络模型学习到了使用捷径回答问题,即完全不使用问题中的信息或者仅使用疑问词信息回答问题

这就导致在加入干扰句子时,神经网络模型没有通过问题中全部信息来寻找答案,从而被误导输出错误答案

59.举例说明,当干扰句子中存在如表示年代的“1980”的时间词时,模型可能因为训练时被大量问及时间相关的问题而直接选“1980”作为答案

这里模型学习到了“时间词更容易被问及,所以只要文章有时间词,就以时间词作为回答”的捷径,而不去阅读完整的输入问题

再例如,当干扰句子和原文章中都存在人名时,模型只阅读了问题中“哪个人”或“谁”的疑问词后,就随机选择了干扰句子中的人名作答

这里模型学习到了“只要问题问

哪个人’或

谁’,就以人名作答”的捷径,而只阅读了输入问题中的疑问词部分

60.因此,如果能够让神经网络模型不使用捷径回答问题,而是充分利用输入问题中的信息来回答的话,就可以在一定程度上防止加入干扰句子时,模型被误导输出错误答案的情况

61.本技术与现有技术不同的是,本技术实施例在机器阅读理解模型
(
神经网络模型
)
本身上做出修改,使得在一般机器阅读理解任务训练的同时能够联合训练一个输入问题被掩码覆盖的机器阅读理解任务以对抗攻击,其目的是通过防止神经网络模型学习到仅根据输入问题中的疑问词或者完全不使用输入问题的信息来回答的捷径,提高模型的鲁棒性

62.请参照图2,本技术实施例提供了一种机器阅读理解模型的训练方法,包括以下步骤:
63.步骤
21
,获得训练样本集,所述训练样本集包括多个训练样本,所述训练样本包括样本文章

样本问题和所述样本问题对应的样本答案

64.这里,训练样本集保存有用于训练机器阅读理解模型的多个训练样本,每个训练样本包括有样本文章

与该样本文章相关的样本问题和该样本问题对应的样本答案

样本答案具体可以是文章中的一个具体的词范围,对应的,机器阅读理解模型生成的预测答案也是文章中的一个词范围

所述机器阅读理解模型是一种基于神经网络的机器阅读理解模型,具体可以是基于一系列预训练语言模型
(

bert、roberta、albert

)
的机器阅读理解模型,也可以是有其它模型构造的模型,例如
qanet


65.步骤
22
,利用所述训练样本集,重复执行以下训练过程,直至满足预设的训练结束条件,得到训练好的机器阅读理解模型,其中,所述训练过程包括:
66.将所述样本文章和样本问题输入至机器阅读理解模型,利用所述机器阅读理解模型生成所述样本问题对应的第一预测答案,计算所述第一预测答案与所述样本问题对应的样本答案之间的第一损失;利用掩码覆盖所述样本问题得到掩码问题,将所述样本文章和掩码问题输入至所述机器阅读理解模型,利用所述机器阅读理解模型生成所述掩码问题对应的第二预测答案,计算所述第二预测答案与所述样本问题对应的样本答案之间的第二损失;
67.根据所述第一损失和第二损失计算总损失,以最小化所述总损失为目标,更新所述机器阅读理解模型

68.本技术实施例在模型训练过程中包括有两个子任务,其中,作为子任务1,在一般机器阅读理解任务上训练神经网络模型,即,将原始的训练数据集中的样本文章和样本问题输入神经网络模型,生成第一预测答案并计算第一损失;作为子任务2,在输入问题被掩码覆盖的机器阅读理解任务上进行对抗训练,即,将样本文章和掩码问题输入神经网络模型,生成第二预测答案并计算第二损失

然后,通过最小化由两个子任务计算得来的总损失来优化神经网络模型的模型参数,更新所述机器阅读理解模型

69.子任务1的训练目的是让模型学习如何正确的回答问题,子任务2的训练目的是防止模型学习到捷径而完全不使用输入问题信息或只使用输入问题中部分信息
(
如疑问词
)
来回答问题

通过联合训练两个任务,保证了模型在达成子任务2的目的的同时不去影响子任务1的效果,使得训练得到的模型具有抗干扰能力,提高了机器阅读理解模型的鲁棒性

70.本技术实施例在训练过程中不需要生成对抗样本,本技术实施例通过对机器阅读理解模型
(
神经网络模型
)
本身进行修改,使得在一般机器阅读理解任务训练的同时能够联合训练一个输入问题被掩码覆盖的机器阅读理解任务以对抗攻击,由于不需要生成对抗样本,从而可以避免引入噪声对模型造成不利影响

另外,本技术实施例在训练过程中也不需要基于生成的对抗样本扩充训练集并进行多次迭代训练,从而可以提高模型的训练效率

71.另外需要说明的是,以上两个子任务之间并无严格的执行顺序的要求,可以先执行子任务1后执行子任务2,也可以是先执行子任务2后执行子任务1,还可以是同时执行子任务1和子任务2,本技术对此不做具体限定

72.在上述步骤
22
,本技术实施例可以通过以下方式中的至少一种,得到掩码问题:
73.方式1:利用掩码覆盖所述样本问题的全部词,得到第一掩码问题

74.方式1获得的第一掩码问题,由于样本问题中的全部词都被掩码覆盖,因此仅存在掩码

图3提供了通过方式1,在样本问题基础上生成全部词都被掩码覆盖的第一掩码问题的一个示例图,得到的第一掩码问题是与样本问题的长度相同的由掩码组成的问题

75.方式2:利用掩码覆盖所述样本问题的部分词,得到第二掩码问题

76.方式2获得的第二掩码问题,样本问题中的部分词被掩码覆盖,剩余部分词仍保留

具体的,本技术实施例可以利用掩码覆盖所述样本问题中除预设疑问词之外的所有词,得到第二掩码问题

77.例如,本技术实施例可以预先设置一个保存有疑问词的疑问词库,在生成第二掩码问题时,通过将样本问题中与该疑问词库进行匹配,确定出疑问词并用掩码覆盖

图4提供了通过方式2,在样本问题基础上生成部分词被掩码覆盖的第二掩码问题的一个示例图,得到的第二掩码问题是与样本问题的长度相同的由掩码组成的问题,可以看出,第二掩码问题包括疑问词和掩码

78.本技术实施例根据所述第一损失和第二损失计算总损失,并以最小化所述总损失为目标,优化机器阅读理解模型参数,更新机器阅读理解模型

其中,所述总损失与所述第一损失正相关,与第二损失负相关

79.这里,所述总损失与所述第一损失正相关是指在第二损失保持不变的情况下,所述总损失随着第一损失的增大而增大,或者,所述总损失随着第一损失的减小而减小

类似的,所述总损失与所述第二损失负相关是指在第一损失保持不变的情况下,所述总损失随着第二损失的增大而减小,或者,所述总损失随着第二损失的减小而增大

80.也就是说,本技术实施例在模型训练过程中,以减少第一损失且增大第二损失为目标,最终使得总损失最小化

减少第一损失可以提高模型预测的准确性,增大第二损失可以避免模型使用捷径方式预测答案

81.本技术实施例可以利用第一公式计算所述总损失
loss
,其中,
82.(1)
在所述掩码问题包括第一掩码问题时,所述第一公式为:
83.loss

α1·
loss
1-β1·
loss
2,1
84.以上公式中,所述
loss1表示第一损失,
loss
2,1
表示第一掩码问题对应的第二预测答案与样本答案之间的第二损失,
α1、
β1分别表示预设权重,且均为正值

作为一种可选实施方式,
α1大于
β1。
85.(2)
在所述掩码问题包括第二掩码问题时,所述第一公式为:
86.loss

α2·
loss
1-β2·
loss
2,2
87.以上公式中,所述
loss1表示第一损失,
loss
2,2
表示第二掩码问题对应的第二预测答案与样本答案之间的第二损失,
α2、
β2分别表示预设权重,且均为正值

作为一种可选实施方式,
α2大于
β2。
88.(3)
在所述掩码问题包括第一掩码问题和第二掩码问题的情况下,所述第一公式为:
89.loss

α3·
loss
1-β3·
loss
2,1-β4·
loss
2,2
90.以上公式中,所述
loss1表示第一损失,
loss
2,1
表示第一掩码问题对应的第二预测答案与样本答案之间的第二损失,
loss
2,2
表示第二掩码问题对应的第二预测答案与样本答
案之间的第二损失,
α3、
β3和
β4分别表示预设权重,且均为正值

作为一种可选实施方式,
α3大于
β3,且
α3大于
β4。
91.需要说明的是,上述预设权重
α1、
β1、
α2、
β2、
α3、
β3和
β4的具体数值,可以是基于经验设置的数值,或者,可以基于不同的权重取值分别训练机器阅读理解模型,根据训练得到的模型的预测准确性和抗干扰能力,选择最优的权重取值,本技术实施例对此不做具体限定

92.图5提供了上述步骤
22
中训练过程的一个示例图,其中:
93.在子任务1中得到第一预测答案在样本文章中的范围,在
s221
中,根据第一预测答案在样本文章中的范围和样本答案在样本文章中的范围,可以计算得到子任务1的第一损失
loss1。
94.在子任务2中得到第二预测答案在样本文章中的范围,在
s222
中,根据第二预测答案在样本文章中的范围和样本答案在样本文章中的范围,可以计算得到子任务2的第二损失,这里以上述的第一掩码问题为例,第二损失表示为
loss
2,1

需要说明的是,
s221
和在
s222
并无严格的执行先后顺序的要求,可以两者同时执行,也可以其中一个先执行另一个后执行

95.在
s223
中,根据第一损失和第二损失,可以计算总损失,如
α1·
loss
1-β1·
loss
2,1
,并在
s224
中通过最小化总损失来优化机器阅读理解模型的神经网络的参数,从而更新机器阅读理解模型

96.通过基于训练样本执行多次训练过程,直至满足预设的训练结束条件,从而得到训练好的机器阅读理解模型

这里,训练结束条件可以是第一损失已满足收敛条件

已执行了预定次数的训练过程

总损失已满足收敛条件等,本技术实施例对此不做具体限定

97.在训练得到机器阅读理解模型,本技术实施例还可以利用训练得到的机器阅读理解模型,对输入的文章和问题进行答案的预测

例如,将文章和问题输入至该模型,模型将输出预测得到的答案在文章中的范围

98.基于以上方法,本技术实施例还提供了实施上述方法的装置,请参考图6,本技术实施例提供的机器阅读理解模型的训练装置包括:
99.样本获得模块
601
,用于获得训练样本集,所述训练样本集包括多个训练样本,所述训练样本包括样本文章

样本问题和所述样本问题对应的样本答案;
100.模型训练模块
602
,用于利用所述训练样本集,重复执行以下训练过程,直至满足预设的训练结束条件,得到训练好的机器阅读理解模型,其中,所述训练过程包括:
101.将所述样本文章和样本问题输入至机器阅读理解模型,利用所述机器阅读理解模型生成所述样本问题对应的第一预测答案,计算所述第一预测答案与所述样本问题对应的样本答案之间的第一损失;利用掩码覆盖所述样本问题得到掩码问题,将所述样本文章和掩码问题输入至所述机器阅读理解模型,利用所述机器阅读理解模型生成所述掩码问题对应的第二预测答案,计算所述第二预测答案与所述样本问题对应的样本答案之间的第二损失;
102.根据所述第一损失和第二损失计算总损失,以最小化所述总损失为目标,更新所述机器阅读理解模型

103.通过以上训练装置,本技术实施例可以提高训练得到的机器阅读理解模型的抗干扰能力,提高鲁棒性

104.可选的,所述模型训练模块包括:
105.第一生成模块,用于利用掩码覆盖所述样本问题的全部词,得到第一掩码问题;
106.和
/
或,
107.第二生成模块,用于利用掩码覆盖所述样本问题的部分词,得到第二掩码问题

108.可选的,所述第二生成模块,还用于利用掩码覆盖所述样本问题中除预设疑问词之外的所有词,得到第二掩码问题

109.可选的,所述总损失与所述第一损失正相关,与第二损失负相关

110.可选的,所述模型训练模块还包括:
111.第一计算模块,用于利用第一公式计算所述总损失
loss
,其中,
112.在所述掩码问题包括第一掩码问题时,所述第一公式为
loss

α1·
loss
1-β1·
loss
2,1

113.在所述掩码问题包括第二掩码问题时,所述第一公式为
loss

α2·
loss
1-β2·
loss
2,2

114.在所述掩码问题包括第一掩码问题和第二掩码问题的情况下,所述第一公式为
loss

α3·
loss
1-β3·
loss
2,1-β4·
loss
2,2

115.其中,所述
loss1表示第一损失,
loss
2,1
表示第一掩码问题对应的第二预测答案与样本答案之间的第二损失,
loss
2,2
表示第二掩码问题对应的第二预测答案与样本答案之间的第二损失,
α1、
β1、
α2、
β2、
α3、
β3和
β4分别表示预设权重,且均为正值

可选的,
α1大于
β1,
α2大于
β2,
α3大于
β3,且
α3大于
β4。
116.可选的,所述装置还包括:
117.预测模块,用于利用训练得到的机器阅读理解模型,对输入的文章和问题进行答案的预测

118.请参考图7,本技术实施例还提供了机器阅读理解模型的训练装置的一种硬件结构框图,如图7所示,该机器阅读理解模型的训练装置
700
包括:
119.处理器
702
;和
120.存储器
704
,在所述存储器
704
中存储有计算机程序指令,
121.其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器
702
执行以下步骤:
122.获得训练样本集,所述训练样本集包括多个训练样本,所述训练样本包括样本文章

样本问题和所述样本问题对应的样本答案;
123.利用所述训练样本集,重复执行以下训练过程,直至满足预设的训练结束条件,得到训练好的机器阅读理解模型,其中,所述训练过程包括:
124.利用机器阅读理解模型生成样本问题对应的第一预测答案,计算所述第一预测答案与所述样本问题对应的样本答案之间的第一损失;利用掩码覆盖所述样本问题得到掩码问题,利用机器阅读理解模型生成掩码问题对应的第二预测答案,计算所述第二预测答案与所述样本问题对应的样本答案之间的第二损失;
125.根据所述第一损失和第二损失计算总损失,以最小化所述总损失为目标,更新所述机器阅读理解模型

126.进一步地,如图7所示,该机器阅读理解模型的训练装置
700
还包括网络接口
701、
输入设备
703、
硬盘
705、
和显示设备
706。
127.上述各个接口和设备之间可以通过总线架构互连

总线架构可以是可以包括任意数量的互联的总线和桥

具体由处理器
702
代表的一个或者多个中央处理器
(cpu)
,以及由存储器
704
代表的一个或者多个存储器的各种电路连接在一起

总线架构还可以将诸如外围设备

稳压器和功率管理电路等之类的各种其它电路连接在一起

可以理解,总线架构用于实现这些组件之间的连接通信

总线架构除包括数据总线之外,还包括电源总线

控制总线和状态信号总线,这些都是本领域所公知的,因此本文不再对其进行详细描述

128.所述网络接口
701
,可以连接至网络
(
如因特网

局域网等
)
,从网络中接收训练图像

待检测的目标图像等数据,并可以将接收到的数据保存在硬盘
705


129.所述输入设备
703
,可以接收操作人员输入的各种指令,并发送给处理器
702
以供执行

所述输入设备
703
可以包括键盘或者点击设备
(
例如,鼠标,轨迹球
(trackball)、
触感板或者触摸屏等

130.所述显示设备
706
,可以将处理器
702
执行指令获得的结果进行显示,例如显示目标图像的分类结果等

131.所述存储器
704
,用于存储操作系统运行所必须的程序和数据,以及处理器
702
计算过程中的中间结果等数据

132.可以理解,本技术实施例中的存储器
704
可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者

其中,非易失性存储器可以是只读存储器
(rom)、
可编程只读存储器
(prom)、
可擦除可编程只读存储器
(eprom)、
电可擦除可编程只读存储器
(eeprom)
或闪存

易失性存储器可以是随机存取存储器
(ram)
,其用作外部高速缓存

本文描述的装置和方法的存储器
704
旨在包括但不限于这些和任意其它适合类型的存储器

133.在一些实施方式中,存储器
704
存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统
7041
和应用程序
7042。
134.其中,操作系统
7041
,包含各种系统程序,例如框架层

核心库层

驱动层等,用于实现各种基础业务以及处理基于硬件的任务

应用程序
7042
,包含各种应用程序,例如浏览器
(browser)
等,用于实现各种应用业务

实现本技术实施例方法的程序可以包含在应用程序
7042


135.本技术上述实施例揭示的方法可以应用于处理器
702
中,或者由处理器
702
实现

处理器
702
可能是一种集成电路芯片,具有信号的处理能力

在实现过程中,上述方法的各步骤可以通过处理器
702
中的硬件的集成逻辑电路或者软件形式的指令完成

上述的处理器
702
可以是通用处理器

数字信号处理器
(dsp)、
专用集成电路
(asic)、
现成可编程门阵列
(fpga)
或者其他可编程逻辑器件

分立门或者晶体管逻辑器件

分立硬件组件,可以实现或者执行本技术实施例中的公开的各方法

步骤及逻辑框图

通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等

结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成

软件模块可以位于随机存储器,闪存

只读存储器,可编程只读存储器或者电可擦写可编程存储器

寄存器等本领域成熟的存储介质中

该存储介质位于存储器
704
,处理器
702
读取存储器
704
中的信息,结合其硬件完成上述方法的步骤

136.可以理解的是,本文描述的这些实施例可以用硬件

软件

固件

中间件

微码或其
组合来实现

对于硬件实现,处理单元可以实现在一个或多个专用集成电路
(asic)、
数字信号处理器
(dsp)、
数字信号处理设备
(dspd)、
可编程逻辑设备
(pld)、
现场可编程门阵列
(fpga)、
通用处理器

控制器

微控制器

微处理器

用于执行本技术所述功能的其它电子单元或其组合中

137.对于软件实现,可通过执行本文所述功能的模块
(
例如过程

函数等
)
来实现本文所述的技术

软件代码可存储在存储器中并通过处理器执行

存储器可以在处理器中或在处理器外部实现

138.具体地,所述计算机程序被处理器
702
执行时还可实现如下步骤:
139.利用掩码覆盖所述样本问题的全部词,得到第一掩码问题;
140.和
/
或,
141.利用掩码覆盖所述样本问题的部分词,得到第二掩码问题

142.具体地,所述计算机程序被处理器
702
执行时还可实现如下步骤:
143.利用掩码覆盖所述样本问题中除预设疑问词之外的所有词,得到第二掩码问题

144.可选的,所述总损失与所述第一损失正相关,与第二损失负相关

145.具体地,所述计算机程序被处理器
702
执行时还可实现如下步骤:
146.利用第一公式计算所述总损失
loss
,其中,
147.在所述掩码问题包括第一掩码问题时,所述第一公式为
loss

α1·
loss
1-β1·
loss
2,1

148.在所述掩码问题包括第二掩码问题时,所述第一公式为
loss

α2·
loss
1-β2·
loss
2,2

149.在所述掩码问题包括第一掩码问题和第二掩码问题的情况下,所述第一公式为
loss

α3·
loss
1-β3·
loss
2,1-β4·
loss
2,2

150.其中,所述
loss1表示第一损失,
loss
2,1
表示第一掩码问题对应的第二预测答案与样本答案之间的第二损失,
loss
2,2
表示第二掩码问题对应的第二预测答案与样本答案之间的第二损失,
α1、
β1、
α2、
β2、
α3、
β3和
β4分别表示预设权重,且均为正值

151.具体地,所述计算机程序被处理器
702
执行时还可实现如下步骤:
152.利用训练得到的机器阅读理解模型,对输入的文章和问题进行答案的预测

153.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件

或者计算机软件和电子硬件的结合来实现

这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件

专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围

154.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统

装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述

155.在本技术所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现

例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行

另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连
接,可以是电性,机械或其它的形式

156.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上

可以根据实际的需要选择其中的部分或者全部单元来实现本技术实施例方案的目的

157.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中

158.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中

基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备
(
可以是个人计算机,服务器,或者网络设备等
)
执行本技术各个实施例所述方法的全部或部分步骤

而前述的存储介质包括:u盘

移动硬盘
、rom、ram、
磁碟或者光盘等各种可以存储程序代码的介质

159.以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内

因此,本技术的保护范围应以权利要求的保护范围为准

当前第1页1  
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
网站地图