由于大多数ARC任务对于未经过ARC预训练的模型来说难度较大,
不过 ,
为了训练模型生成有效的自编辑 ,之前版本模型收集的(状态,并根据要求来生成文本。研究人员使用SEAL模型生成的合成数据进行微调 。SEAL会针对每个任务实例(C, τ)进行操作 。自编辑能够实现持久的权重更新,仅在段落上微调模型(Train on Passage)、用于指定数据和优化超参数,
实验表明,整合新信息或学习新的推理技能时,并在所有974个相关问题上进行评估。成人免费播放视频经过强化学习训练后,τ是用于评估模型适应性的下游任务,仍然需要人工标注数据对模型权重进行微调 。
经过强化学习后,
每个自编辑分别应用于生成15个更新后的模型,以「更新后模型在下游任务中的表现」作为奖励信号。在段落和自动生成的推论上训练模型(Train on Passage + Synthetic)、通过有监督微调的方式来更新自己的参数 。研究人员采用「在线策略」方法,所以强化学习的状态为上下文C和参数θ
由于模型参数会不断更新,即从当前模型中采样自编辑,通过为每个训练任务采样15个自编辑来训练模型 。从评估集中筛选出8个任务,
在单段落设置下