Posted 2025-11-19Updated 2026-01-07Artificial Intelligence2 minutes read (About 225 words)RL Next: Meta-Learning 导言 背景问题:传统RL的算法和奖励都要特殊设计,并且不同领域迁移性很差; 想法: 能不能系统自己迭代产生适合的RL算法 构建一个能够表征广泛强化学习规则的搜索空间,让系统通过多代智能体在复杂环境中的交互经验,元学习(Meta-Learning)出最优的强化学习更新规则。[^1] 参考文献RL Next: Meta-Learninghttp://icarus.shaojiemike.top/2025/11/19/Work/Artificial Intelligence/Training/PostTrain/MetaLearning/AuthorShaojie TanPosted on2025-11-19Updated on2026-01-07Licensed under#RL
导言 背景问题:传统RL的算法和奖励都要特殊设计,并且不同领域迁移性很差; 想法: 能不能系统自己迭代产生适合的RL算法 构建一个能够表征广泛强化学习规则的搜索空间,让系统通过多代智能体在复杂环境中的交互经验,元学习(Meta-Learning)出最优的强化学习更新规则。[^1]