【论文笔记】汇总

Author： DarkDawn
发布时间：July 21, 2022
7161 views
5 comments
2781 words
Categories：论文笔记

多任务强化学习 Multi-Task RL

Gradient

PCGrad: Gradient Surgery for Multi-Task Learning (NeurIPS 2020)
- 提出一种“梯度手术”的缓解梯度冲突方法
- http://darkdawn.top/index.php/archives/18/

Modularization

SM: Multi-Task Reinforcement Learning with Soft Modularization (NeurIPS 2020)
- 通过软模块化方法实现隐式的不同任务的模块共享
- http://darkdawn.top/index.php/archives/22/
PaCo: Parameter-Compositional Multi-Task Reinforcement Learning (NeurIPS 2022)
- 提出参数组合方法，将参数划分为任务共享和任务独享两类，同时稳定训练过程
- http://darkdawn.top/index.php/archives/38/

Task Representation

CARE: Multi-Task Reinforcement Learning with Context-based Representations (ICML 2021)
- 引入任务元数据（即人物的自然语言描述）并使用预训练模型进行编码，帮助表征状态提取
- http://darkdawn.top/index.php/archives/19/
Multi-task Reinforcement Learning with Task Representation Method (ICLR2022 Workshop)
- 利用Task Embedding网络缓解多任务更新间的负影响
- http://darkdawn.top/index.php/archives/29/

Curriculum Learning

CAMRL: Curriculum-based Asymmetric Multi-task Reinforcement Learning (TPAMI 2022)
- 通过「训练模式转换机制」和「多个可微分排名函数构成的组合损失」学习任务参数迁移矩阵
- http://darkdawn.top/index.php/archives/40/

Offline & Transformer

GATO: A Generalist Agent (DeepMind 2022)
- 同一网络、统一参数的模型使用监督学习训练完成604种不同的任务
- http://darkdawn.top/index.php/archives/20/
MGDT: Multi-Game Decision Transformers (Google Research 2022)
- 使用专家数据和非专家数据训练基于Transformer的单一模型完成46个Atari游戏
- http://darkdawn.top/index.php/archives/28/
AD: In-context Reinforcement Learning with Algorithm Distillation (DeepMind 2022)
- 将任务的学习过程（跨episode）用Transformer建模，使模型offline训练后，在新任务上可以online策略提升
- http://darkdawn.top/index.php/archives/37/
Uni[MASK]: Unified Inference in Sequential Decision Problems (NeurIPS 2022)
- 构建统一的Transformer架构用于不同的序列决策任务（IL, offline RL, goal-conditioned RL等），并验证随机Mask的效果
- http://darkdawn.top/index.php/archives/39/

多目标强化学习 Multi-Goal RL

UVFA: Universal Value Function Approximators (ICML 2015)
- 引入目标空间概念，提出新的广义价值函数$V(s,g;\theta)$，及其函数逼近器UVFA
- http://darkdawn.top/index.php/archives/23/
HER: Hindsight Experience Replay (NeurIPS 2017)
- 提出了一种新技术"事后诸葛亮"（HER），即人为对transition进行额外修改，以解决稀疏奖励问题，优化采样效率
- http://darkdawn.top/index.php/archives/24/
GoalGAN: Automatic Goal Generation for Reinforcement Learning Agents (ICML 2018)
- 让智能体自动发现可执行的任务范围，利用GAN自动进行课程学习，即不断生成难度适中的目标供智能体进行学习
- http://darkdawn.top/index.php/archives/25/
VisualHER: Addressing Sample Complexity in Visual Tasks Using HER and Hallucinatory GANs (NeurIPS 2019)
- 和CV的融合，将HER应用于视觉轨迹任务中
- http://darkdawn.top/index.php/archives/26/
CURIOUS: Intrinsically Motivated Modular Multi-goal Reinforcement Learning (ICML 2019)
- 多目标模块化（多任务）学习，将HER同时应用于任务层面和目标层面
- http://darkdawn.top/index.php/archives/27/

Last modification：December 25, 2022

如果觉得我的文章对你有用，请随意赞赏

5 comments

鍗庣撼鍏徃鍚堜綔寮€鎴锋墍闇€鏉愭枡锛熺數璇濆彿鐮?5587291507 寰俊STS5099
November 21st, 2025 at 01:20 am

华纳圣淘沙公司开户新手教程
零基础学会（183-8890-9465薇-STS5099）
华纳圣淘沙公司开户
华纳圣淘沙公司开户保姆级教程（183-8890-9465薇-STS5099）
一步步教你开通华纳圣淘沙公司账户（183-8890-9465薇-STS5099）
华纳圣淘沙公司开户分步图解
首次开户必看：（183-8890-9465薇-STS5099）
华纳圣淘沙全攻略
华纳圣淘沙公司开户实操手册（183-8890-9465薇-STS5099）
华纳圣淘沙开户流程视频教程
手把手教学：（183-8890-9465薇-STS5099）
华纳圣淘沙公司开户
华纳圣淘沙公司开户完全指南（183-8890-9465薇-STS5099）

Reply
鍗庣撼鍏徃鍚堜綔寮€鎴锋墍闇€鏉愭枡锛熺數璇濆彿鐮?5587291507 寰俊STS5099
November 8th, 2025 at 10:52 pm

果博东方客服开户联系方式【182-8836-2750—】?薇- cxs20250806】
果博东方公司客服电话联系方式【182-8836-2750—】?薇- cxs20250806】
果博东方开户流程【182-8836-2750—】?薇- cxs20250806】
果博东方客服怎么联系【182-8836-2750—】?薇- cxs20250806】

Reply
我爱你
October 14th, 2025 at 04:50 pm

██ 㸔 ِ黃 ِ魸【 T55V.CC 】偸⚡啪【 T55V.CC 】綄整版 ██

Reply
wsrcxljgut
October 7th, 2025 at 06:48 pm

2025年10月新盘做第一批吃螃蟹的人coinsrore.com
新车新盘嘎嘎稳嘎嘎靠谱coinsrore.com
新车首发，新的一年，只带想赚米的人coinsrore.com
新盘上车集合留下我要发发立马进裙coinsrore.com
做了几十年的项目我总结了最好的一个盘（纯干货）coinsrore.com
新车上路，只带前10个人coinsrore.com
新盘首开新盘首开征召客户！！！coinsrore.com
新项目准备上线，寻找志同道合的合作伙伴coinsrore.com
新车即将上线真正的项目，期待你的参与coinsrore.com
新盘新项目，不再等待，现在就是最佳上车机会！coinsrore.com
新盘新盘这个月刚上新盘新车第一个吃螃蟹！coinsrore.com

Reply
tzxsjrexhn
October 6th, 2025 at 04:07 pm

新车即将上线真正的项目，期待你的参与

Reply

【论文笔记】汇总

多任务强化学习 Multi-Task RL

Gradient

Modularization

Task Representation

Curriculum Learning

Offline & Transformer

多目标强化学习 Multi-Goal RL

5 comments