人工智能学院2019级博士研究生屈渤浩研究被期刊IEEE Transactions on Knowledge and Data Engineering接收

发布时间：2024-05-29 点击：次

人工智能学院2019级博士研究生屈渤浩关于离线强化学习奖励估计的研究已被期刊IEEE Transactions on Knowledge and Data Engineering接收，本篇工作与新加坡科技研究局（A*STAR）Ivor W. Tsang老师、郭青老师和悉尼科技大学张成奇老师合作完成。

论文详情：
论文题目：Transductive Reward Inference on Graph

论文作者：屈渤浩

指导老师：曹晓锋，常毅

收录期刊：IEEE Transactions on Knowledge and Data Engineering

期刊类别：CCF A

论文概述：本研究提出了一种基于奖励信息传播图的直推式奖励推理方法，可以在离线强化学习中有效估计未标记数据的奖励。奖励推理是实际场景中学习有效策略的关键，并且在很多场景中，智能体直接与环境互动的成本过高或风险过大，且奖励函数往往难以获取，例如在医疗和机器人等领域。本研究提出一种基于图结构信息传播的奖励推理方法，通过有限数量的奖励标注来推断未标记数据的奖励。首先利用现有数据和有限的奖励注释构建了奖励传播图，随后利用构建的图进行直推式奖励推理，从而估计未标记数据的奖励。本研究证明了在多次推理迭代过程中确定了固定点的存在，并且其至少可以收敛到一个局部最优解。实验结果上，与现有方法相比，在相同数量的奖励标注下，本研究的推断奖励方法准确性更高，从而提高了该场景下离线强化学习算法的性能。

上一篇：人工智能学院4篇论文被ECCV‘2024接收下一篇：人工智能学院夏婷玉同学的论文被CCF-A类会议ACL'2024会议接收

必赢76net线路-官方网站-App Store

科学研究

人工智能学院2019级博士研究生屈渤浩研究被期刊IEEE Transactions on Knowledge and Data Engineering接收