【论文笔记MTRL】CAMRL: Curriculum-based Asymmetric Multi-task Reinforcement Learning

Author： DarkDawn
发布时间：December 25, 2022
488 views
No comments
10690 words
Categories：论文笔记

TPAMI

摘要

We introduce CAMRL, the first curriculum-based asymmetric multi-task learning (AMTL) algorithm for dealing with multiple reinforcement learning (RL) tasks altogether. To mitigate the negative influence of customizing the one-off training order in curriculum-based AMTL, CAMRL switches its training mode between parallel single-task RL and asymmetric multi-task RL (MTRL), according to an indicator regarding the training time, the overall performance, and the performance gap among tasks. To leverage the multi-sourced prior knowledge flexibly and to reduce negative transfer in AMTL, we customize a composite loss with multiple differentiable ranking functions and optimize the loss through alternating optimization and the Frank-Wolfe algorithm. The uncertainty-based automatic adjustment of hyper-parameters is also applied to eliminate the need of laborious hyper-parameter analysis during optimization. By optimizing the composite loss, CAMRL predicts the next training task and continuously revisits the transfer matrix and network weights. We have conducted experiments on a wide range of benchmarks in multi-task RL, covering Gym-minigrid, Meta-world, Atari video games, vision-based PyBullet tasks, and RLBench, to show the improvements of CAMRL over the corresponding single-task RL algorithm and state-of-the-art MTRL algorithms. The code is available at: https://github.com/huanghanchi/CAMRL

我们介绍了CAMRL，这是第一个基于课程的非对称多任务学习（AMTL）算法，用于完全处理多个强化学习（RL）任务。为了减轻基于课程的AMTL中指定一次性训练顺序的负面影响，CAMRL根据训练时间、整体性能和任务间性能差距的指标，在并行单任务RL和非对称多任务RL（MTRL）之间切换其训练模式。为了灵活地利用多源先验知识并减少AMTL中的负迁移，我们定制了一个复合损失函数，其具有多个可微分排名函数，并通过交替优化和Frank-Wolfe算法进行优化。基于不确定性的超参数自动调整也被应用，以消除优化过程中费力的超参数分析的需要。通过优化综合损失，CAMRL预测下一个训练任务，并不断重新审视传输矩阵和网络权重。我们在多任务RL的各种基准上进行了实验，包括Gym-minigrid、Meta-world、Atari视频游戏、基于视觉的PyBullet任务和RLBench，以显示CAMRL比相应的单任务RL算法和最先进的MTRL算法的改进。

研究动机

在MTL中，不是所有的任务都能从联合学习中受益，所以可能会出现负迁移
核心想法是通过基于课程的非对称多任务学习（AMTL）模式学习每个两个任务之间的稀疏加权定向正规化图
若缺乏对RL任务属性的先验知识，直接采用基于课程的AMTL来逐一训练任务，不当的训练顺序可能导致学到一个糟糕的正则化图
现有的关于AMTL的工作忽略了一些重要的因素，如代表相对训练进度的指标，任务之间的转移性能，以及描述行为的多样性，以便灵活地进行任务之间的转移和避免负迁移

主要贡献

提出的CAMRL算法主要包含「训练模式转换机制」和「多个可微分排名函数构成的组合损失」
CAMRL可以与其他RL算法以及训练模式相结合，包括引入先验知识等。通过自动参数调节可以适应新的任务
在多个Benchmark上进行了实验

方法描述

CAMRL整体架构

整体架构
- 一个学习进度指标选择训练模式：在每个epoch开始前选择用parallel single-task training or curriculum-based AMTL
- 如果使用curriculum-based AMTL，则使用一个综合loss来学习任务迁移
- 使用交替优化和Frank-Wolfe算法来决定下一个训练任务和更新迁移矩阵
- 超参数根据每轮的历史不确定性自动调整
- 当有新任务时，可以通过调整迁移矩阵快速适应

算法解析
- 每个任务 $t \in [T]$ 对应一个独立的SAC网络 $SAC_t$，其网络参数为$w_t$
- 首先独立对每个任务进行N个epoch的训练，各任务互不影响
- 之后计算指标 $I_{mul} = \frac{(i)+(ii)+(iii)}{3}$ 用于选择下一个epoch的训练模式
 - (i)：$\exp(-n/a)$：为加大在早期进行多任务训练的可能性，以便使难训练的任务尽早受益于易训练的任务
 - $n$：当前的epoch数
 - (ii)：$\exp(-\mathcal{L}_{nor}*b)$：如果整体训练表现较差，即$\mathcal{L}_{nor}$较大，则执行任务迁移的可能性往往较小。
 - $\mathcal{L}_{nor}=\frac{policy\_loss-average_{policy\_loss}}{std_{policy\_loss}}$：上一个epoch所有任务的平均归一化policy损失
 - (iii)：最后一个epoch的平均归一化奖励不在$[\mathcal{R}_{nor}-c*std_{nor},\mathcal{R}_{nor}+c*std_{nor}]$区间的任务百分比
 - $std_{nor}$：所有任务的归一化奖励标准偏差
 - 任务之间的学习过程差距越大，执行多任务训练的可能性就越大。
- 如果 $u \sim Uniform([0,1]) < I_{mul}$ 则暂时在下一个epoch使用curriculum-based AMTL训练；否则使用单任务训练
 - ==与算法描述冲突，根据理解，此处描述为正确，算法表示错误==
课程多任务学习
- $B$：一个 $T \times T$ 的矩阵表示任意两个任务之间的迁移数量？
- 任务 $t$ 的SAC网络参数：$w_t \approx \sum_{s=1}^TB_{st}w_s$
  - $B_{st}$：用基础参数 $w_s$ 表示目标参数 $w_t$ 的权重
  - $W := (w_1,w_2,\dots,w_T)$
- 复合损失函数：$\mathcal{L}(W,B)=\sum_{t=1}^T\{(1+mu\|b_t^o\|_1)\mathcal{L}(w_t)+\lambda\|w_t-\sum_{s \neq t}B_{st}w_s\|_2^2\}$
  - $b_t^o=(B_{t1},\dots,B_{t(t-1)},B_{t(t+1)},\dots, B_{tT})^\top \in \mathbb{R}^{T-1}$ ，$\|b_t^o\|_1$ 表示任务 $t$ 迁移到其他任务的稀疏度计数
  - $\mathcal{L}(w_t)$ 表示任务 $t$ 在权重 $w_t$ 下计算的SAC policy loss
  - $(\lambda,\mu)$ 为两个权重超参数
- 考虑课程学习的损失函数：$\min _{\pi \in \mathcal{S}, W, B \geq 0} \sum_{i=1}^T\left\{\left(1+\mu\left\|b_{\pi(i)}^o\right\|_1\right) \mathcal{L}\left(w_{\pi(i)}\right)+\lambda\left\|w_{\pi(i)}-\sum_{j=1}^{i-1} B_{\pi(j) \pi(i)} w_{\pi(j)}\right\|_2^2\right\}$
  - 同时优化 $W$ 和 $B$ 可能导致严重的负迁移和维数灾难，所以希望以最佳的顺序依次优化 $b_t^o$ 和 $w_t$
  - $\mathcal{S}$ 表示 $T$ 个元素的置换空间；对任意 $\pi \in S$，$\pi(i)$ 表示置换的第 $i$ 个元素
  - 令 $\mathcal{T}:= \{\pi(1), \dots, \pi(i-1)\}$ 表示前 $i-1$ 个已经训练的任务；$\mathcal{U} := \{1,\dots,T\}-\mathcal{S}$ 表示还未训练的任务
  - 每次训练在 $\mathcal{U}$ 中选择任务 $t$ 并对 $b_t^o$ 进行训练：$\left(t, b_t^o\right) \leftarrow \underset{t \in \mathcal{U}, b_t^o}{\arg \min }\left\{\left(1+\mu\left\|b_t^o\right\|_1\right) \mathcal{L}\left(w_t\right)+\lambda \sum_{s \in \mathcal{U}-t}\left\|w_s-\sum_{j=1}^{i-1} B_{\pi(j) s} w_{\pi(j)}-B_{t s} w_t\right\|_2^2\right\}$
    - 即寻找当下能进行最大程度优化的任务
  - 再对 $w_t$ 进行优化：$w_t \leftarrow \underset{w_t}{\arg \min }\left\{\left(1+\mu\left\|b_t^o\right\|_1\right) \mathcal{L}\left(w_t\right)+\lambda\left\|w_t-\sum_{j=1}^{i-1} B_{\pi(j) t} w_{\pi(j)}\right\|_2^2\right\}$
其他Loss设计
- 为合理计数每两个任务之间的迁移，并避免过多的负迁移，提出3个期望，并对应更改损失函数
- [Expectation 1]: Ranking Loss 1
  - 如果测试迁移率性能满足 $p_{t,i_1} > p_{t,i_2} > \dots > p_{t,i_q}$，则期望迁移矩阵满足 $B_{t,i_1} > B_{t,i_2} > \dots > B_{t,i_q}$
    - $p_{t,i}$：将在任务 $t$ 上训练的网络在任务 $i$ 上测试的平均奖励作为性能指标
    - 某任务在其他任务上的评估性能更好，则该任务的迁移数量越大
  - 所以该期望损失表示为最小化 $\sum_{j=1}^q(j-y_{i_j})^2$
    - 其中 $j$ 表示 $p_{t,i_j}$ 在 $p_{t,i_1} > p_{t,i_2} > \dots > p_{t,i_q}$ 中的排名；$y_{i_j}$ 表示 $B_{t,i_j}$ 对应的排名
  - 由于 $y_{i_j}$ 不可微分，所以构建了一个可微分排名函数：$y_{i_j}'=q+1-\sum_{s=1}^q\{0.5*\tanh[d(B_{t,i_j}-B_{t,i_s})]+0.5\}$
    - 即用一个复合tanh函数构建一个可微的阶梯函数
    - 不同超参数 $d$ 生成的函数对应如下
  - 性能指标也可以融入其他先验知识或训练指标
  - 在每训练 $K$ 个epoch之后随机选择部分任务对性能 $p_{i,j}$ 进行更新
- [Expectation 2]: Ranking Loss 2
  - 如果任务 $i$ 是easy-to-train（即 $\mathcal{L}(w_i)$ 很小），则期望其不大需要其他任务的迁移
  - 所以该期望损失表示为最小化两项：$ -(b_t^o)^\top l_t^o$ 和 $\sum_{j \in [T]}(rank_j^{(1)}-y''_j)^2$
    - 其中 $l_t^o = (\mathcal{L}(w_1),\dots,\mathcal{L}(w_{t-1}),\mathcal{L}(w_{t+1}),\dots,\mathcal{L}(w_T))$；$rank_j^{(1)}$ 表示 $\mathcal{L}(w_j)$ 的排名；$y_j''$ 表示 $B_{t,j}$ 的排名
    - 最大化 $(b_t^o)^\top l_t^o$ 即期望 $\mathcal{L}(w_i)$ 大的 $B_{t,i}$ 大，反之亦然；即符合期望2
- [Expectation 3]: Ranking Loss 2
  - 如果任务 $i$ 和任务 $t$ 很相似，则期望这两个任务间的迁移越大
  - 所以该期望损失表示为最小化 $\sum_{j \in [T]}(rank_j^{(2)}-y''_j)^2$
    - 其中 $rank_j^{(2)}$ 表示 $s_{j,t}$ 的排名，$s_{j,t}$ 表示任务 $j$ 和 $t$ 的相似度
  - 相似度计算共提出三种方案
    1. critic网络的cosine相似度（实验验证该方案最佳）
    2. policy网络的cosine相似度
    3. 状态空间中的embedding负距离
      - 计算 $s_{i,j}$ 的具体做法：先采样100个状态；分别使用任务 $i$ 和 $j$ 的embedding层获得向量 $e_{i,1},\dots,e_{i,100}$ 和 $e_{j,1},\dots,e_{j,100}$；最后计算负距离 $-\sqrt{\frac{1}{100} \sum_{m=1}^{100}\left\|e_{i, m}-e_{j, m}\right\|_2^2}$ 表示相似度
- 所以对于 $b_t^o$ 的训练变更为：
  - 先固定 $b_t^o$ 和 $W$ 选择最小化该目标的下一个训练任务 $t$
  - 然后固定 $t$ 和 $W$ 使用Frank-Wolfe优化参数 $b_t^o$
  - 最后固定 $t$ 和 $b_t^o$ 训练任务 $t$ 的policy参数 $w_t$

$$ \begin{aligned} \left(t, b_t^o\right) & \leftarrow \underset{t \in \mathcal{U}, b_t^o}{\arg \min }\left\{\lambda_0\left[\left(1+\mu_1\left\|b_t^o\right\|_1\right) \mathcal{L}\left(w_t\right)-\mu_2\left(b_t^o\right)^{\top} l_t^o\right]\right. \\ &+\lambda_1 \sum_{s \in \mathcal{U}-t}\left\|w_s-\sum_{j=1}^{i-1} B_{\pi(j) s} w_{\pi(j)}-B_{t s} w_t\right\|_2^2+\lambda_2 \sum_{j \in[q]}\left(j-y i_{i_j}\right)^2 \\ &\left.+\lambda_3 \sum_{j \in[T]}\left(r a n k_j^{(1)}-y \prime_j\right)^2+\lambda_4 \sum_{j \in[T]}\left(r a n k_j^{(2)}-y \prime_j\right)^2\right\} \end{aligned} $$

loss优化
- 优化 $b_t^o$：为使loss可微以及保证迁移矩阵 $B$ 的稀疏型，用 $\mu_1 \sum_{j \in [T]-\{t\}}B_{tj}$ 代替 $\mu_1\left\|b_t^o\right\|_1$
 - 加入限制条件：$b_t^o \ge 0, \quad \|b_t^o\|_1 \le radius < \frac{1}{2}$，其中 $radius$ 是 $\|b_t^o\|_1(t \in [T])$ 的上界
 - 所以 $b_t^o$ 的优化函数转化为：$\min _{b_t^o \geq 0,\left\|b_t^o\right\|_1 \leq radius} f\left(b_t^o\right)$

$$ \begin{aligned} f\left(b_t^o\right) & = \lambda_0\left[\left(1+\mu_1 \sum_{j \in [T]-\{t\}}B_{tj}\right) \mathcal{L}\left(w_t\right)-\mu_2\left(b_t^o\right)^{\top} l_t^o\right] \\ &+\lambda_1 \sum_{s \in \mathcal{U}-t}\left\|w_s-\sum_{j=1}^{i-1} B_{\pi(j) s} w_{\pi(j)}-B_{t s} w_t\right\|_2^2+\lambda_2 \sum_{j \in[q]}\left(j-y i_{i_j}\right)^2 \\ &\left.+\lambda_3 \sum_{j \in[T]}\left(r a n k_j^{(1)}-y \prime_j\right)^2+\lambda_4 \sum_{j \in[T]}\left(r a n k_j^{(2)}-y \prime_j\right)^2\right\} \end{aligned} $$

超参数动态调节：根据历史epoch每项对应的标准差自动调节 $\{\lambda_i\}_{i=0}^4$
- 具体表示为：$\lambda_i = \frac{1}{4\sigma_i^0+\epsilon}(i \in [4])$ 和 $\lambda_0 = \frac{1}{2\sigma_0^0+\epsilon}$
- 其中 $\sigma_i$ 表示 $\lambda_i$ 对应项损失的标准差；$\epsilon(=10^{-2})$ 为避免分母为0
- 第0项权重较大是因为其为主要优化目标

理论分析

Convergence of Vanilla Frank-Wolfe Algorithm（==TODO还没仔细看==）
- 对于原式：

对于 $\left(1+\mu_1 \sum_{j \in [T]-\{t\}}B_{tj}\right) \mathcal{L}\left(w_t\right)-\mu_2\left(b_t^o\right)^{\top} l_t^o$ 为 $\left(\mu_1+\mu_2\right) D_1T$-Lipschitz
对于 $\lambda_1 \sum_{s \in \mathcal{U}-t}\left\|w_s-\sum_{j=1}^{i-1} B_{\pi(j) s} w_{\pi(j)}-B_{t s} w_t\right\|_2^2$ 为 $\lambda_1 D_2^2T$-Lipschitz
因为 $[\tanh(x)]'=1-(\tanh(x))^2$，所以对于 $lambda_2 sum_{j in[q]}left(j-y i_{i_j}right)^2
+lambda_3 sum_{j in[T]}left(r a n k_j^{(1)}-y prime_jright)^2+lambda_4 sum_{j in[T]}left(r a n k_j^{(2)}-y prime_jright)^2$ 为 $2left(lambda_2+lambda_3+lambda_4right) d T^2$-Lipschitz
所以原式为 $\left\{\lambda_0\left(\mu_1+\mu_2\right) D_1+\lambda_1 D_2^2+2\left(\lambda_2+\lambda_3+\lambda_4\right) d T\right\} T$-Lipschitz
令 $x_m$ 为vanilla Frank–Wolfe迭代m轮的结果

$$ \begin{aligned} &\min _{1 \leq j \leq m,s \geq 0,\|s\|_1 \leq \text { radius }}\left\langle\nabla f\left(x_m\right), x_m-s\right\rangle \leq \frac{\max \left\{2 h_0, 4\left\{\lambda_0\left(\mu_1+\mu_2\right) D_1+\lambda_1 D_2^2+2\left(\lambda_2+\lambda_3+\lambda_4\right) d T\right\} T\right\}}{\sqrt{m+1}} \end{aligned} $$

其中 $h_0=f\left(x_0\right)-\min _{x \geq 0,\|x\|_1<\text { radius }} f(x)$，$D_1$ 为 $\{|\mathcal{L}(w_i)|\}_{i\in[T]}$ 的上界，$D_2$ 为网络参数L2-norm的上界
在实验中 $D_2 \le 20$
如果 $f$ 可微且收敛，则

$$ \begin{aligned} &\min _{1 \leq j \leq m, s \geq 0,\|s\|_1 \leq \text { radius }}\left\langle\nabla f\left(x_m\right), x_m-s\right\rangle \leq \frac{8\left\{\lambda_0\left(\mu_1+\mu_2\right) D_1+\lambda_1 D_2^2+2\left(\lambda_2+\lambda_3+\lambda_4\right) d T\right\} T}{m+1} \end{aligned} $$

所以$\min _{b_t^o \geq 0,\left\|b_t^o\right\|_1 \leq radius} f\left(b_t^o\right)$ 的收敛率介于 $\frac{1}{m}$ 和 $\frac{1}{\sqrt{m}}$ 之间

实验验证

实验环境
- Gym-minigrid：局部可观测的网格类环境，agent需要找到钥匙打开门
  - 通过设置不同的障碍物和不同的要求，生成任务DistShift、Doorkey、DynamicObstacles等
  - 每个环境都可以通过调节大小和复杂性生成不同难度的任务，并构成课程学习
  - 随机选择9个环境，每个环境包含至少3个难度的任务
  - https://github.com/maximecb/gym-minigrid
- Meta-world：
  - 50个与模拟机械臂操纵相关的任务
  - MT1、MT10和MT50分别具有1、10和50个任务
  - https://github.com/RchalYang/metaworld
- Atari：
  - Arcade Learning Environment (ALE) 是Atari 2600 games的一个实验框架
    - ==原文作者好像写错了名字，不是Atari，而是Arcade，虽然本质上是Atari游戏==
  - Atari游戏包含了探索、规划、快速反应和复杂的视觉输入
  - 随机选择的十个环境为：YarsRevenge， Jamesbond，FishingDerby，Venture，DoubleDunk，Kangaroo，IceHockey，ChopperCommand，Krull和 Robotank
  - https://github.com/mgbellemare/Arcade-Learning-Environment
- Ravens：
  - 基于PyBullet实现的基于视觉的机器人操纵环境
  - 选择十个典型的离散时间桌面操纵任务：lock-insertion，Place-red-in-green，Towers-of-hanoi， Align-box-corner， Stack-block-pyramid， Palletizing-boxes， Assembling-kits， Packing-boxes， Manipulating-rope和 Sweeping-piles
  - 通过Ravens提供的oracle为每项任务生成1000个专家示范进行模仿学习。之后再进行10000 epoch的无示范训练，比较平均成功率
  - https://github.com/google-research/ravens
- RLBench：
  - 为加快视觉引导下的操纵研究设计的大规模环境
  - 十个典型RLBench任务：Reach Target，Push Button，Pick And Lift，Pick Up Cup， Put Knife on Chopping Board， Take Money Out Safe， PutMoneyInSafe，PickUpUmbrella，StackWine和Slide Block To Target.
  - https://github.com/stepjam/RLBench
Baseline：
- AC：Single AC
- SAC：Single SAC
- MRCL：Mastering rate based curriculum learning
  - https://arxiv.org/abs/2008.06456
- YOLOR：You only learn one representation: Unified network for multiple tasks
  - https://arxiv.org/abs/2105.04206
  - https://github.com/WongKinYiu/yolor
- Distral：Robust multitask reinforcement learning
  - https://arxiv.org/abs/1707.04175
- PCGrad：Gradient Surgery
- SM：Soft Modularization
评估指标
- Reward指标：Gym-minigrid、Meta-World、Atari
- success rate指标：Ravens、RLBench
实验结果
- Results on gym-minigrid

Results on gym-minigrid

Results on MT10 and MT50

Results on MT10

Results on MT50

Results on Atari

Results on Atari

Results on Ravens

Results on Ravens

Results on RLBench

Results on RLBench

Analysis on the transfer matrix $B$
- $PR$：[Expectation 1] 对应的迁移性能排名；即 $PR_{s,t}$ 表示在任务 $s$ 上训练10k episode后在任务 $t$ 上的测试reward

Analysis on the transfer matrix

Incorporation of prior knowledge
- 使用现有state-of-the-arts方法判断任务的公开表现：任务越简单，则任务表现越好，任务收到的迁移越少
- 使用该相对排名替换掉tanh-based的可微ranking loss
- 实验结果显示在某些任务上表现更好，详细实验结果在文章附录，内容较多此处不展示了
Changes of each term in $I_{mul}$
- 可视化训练过程 $I_{mul}$ 中三项的动态变化过程

Changes of each term

Hyper-parameter analysis
- $\lambda_0=1, \mu_1=\mu_2=\lambda_1=\lambda_2=\lambda_3=\lambda_4=0.01,a=1000,b=\frac{1}{40},c=2,d=200,radius=0.05$
  - 因为本文超参数太多了这里再说明一下各个超参数的来源
    - $\lambda_0, \mu_i(i\in[2]),\lambda_j(j\in[4])$ 为损失函数对应的超参数
    - $a,b,c$ 为计算 $I_{mul}$ 对应的三个超参数（用于判断下一个epoch的训练方式）
    - $d$ 为构建的tanh可微分排名函数对应的超参数
    - $radius$ 为人为对迁移矩阵稀疏度的限制条件 $\|b_t^o\|_1 \le radius$
- 实验表明上述参数为最佳，实验方法均为固定其他的修改单一超参数，详细图示见原文附录
  - ==但原文附录Fig.8好像少了一幅图==
Ablation study
- 对添加的一些模块做消融实验，直接通过超参数配置即可完成

Ablation study

其他思考

很庆幸同时读了两篇比较类似的文章PaCo在之前有分享过，这里简单对比一下两个算法
- 两个算法的核心部分很类似，用于每个任务的SAC网络参数可以看作是一个参数组合
  - PaCo：$\theta_{\tau} = \Phi \mathbf{w}_\tau$；CAMRL：$w_t \approx \sum_{s=1}^TB_{st}w_s$
- 但两个算法对于这个参数组合的解释，或者motivation不太一样
  - PaCo：参数共享角度，将参数区分为共享参数 $\Phi$ 和独立参数 $w_\tau$
  - CAMRL：参数被区分为任务基础参数 $w_s$ 和实际参数 $w_t$，实际参数看作是基础参数的迁移
- 由于两个算法的motivation不一样，所以对应的训练方式和损失函数就完全不同
- 最后简单谈一下对fast-adaption的区别（这里fast-adaption不一定准确，主要针对新的任务如何适应）
  - PaCo：共享参数不变，学习独立参数，如果独立参数不足以满足，则新增共享参数
  - CAMRL：会新建一个该任务的基础参数，新的任务通过课程学习学习迁移权重
本文在很多MTRL的Benchmark上进行了实验，实验量是非常大的，也对该领域的常用环境进行了一个汇总。可惜代码并没有提供一套统一的框架去对接不同的环境，只是简单的提供了不同算法的单一py文件。
本文不确定是不是有很多先前工作进行的融合，但好像没了解到类似工作的发表。毕竟第一次遇到12个超参数的网络，这个数量有点过于庞大了，个人感觉不太友好。而且可以看到每一个辅助loss其实设计都非常简单，都是一个L2 loss，就我个人而言这种rank排序对齐的方法说服力不强。而且本文提出的自动调参方法比较局限。
最后简单吐槽一下，发表在TPAMI这种顶刊上的文章感觉还是有不少的错误表述，甚至有少图的情况，emmm不过多评论

原文链接：https://arxiv.org/abs/2211.03352

Code：https://github.com/huanghanchi/CAMRL

Last modification：December 25, 2022

如果觉得我的文章对你有用，请随意赞赏

【论文笔记MTRL】CAMRL: Curriculum-based Asymmetric Multi-task Reinforcement Learning

DarkDawn • 2022 年 12 月 25 日

<blockquote>TPAMI</blockquote><h3>摘要</h3><blockquote>We introduce CAMRL, the first curriculum-based asymmetric multi-task learning (AMTL) algorithm for dealing with multiple reinforcement learning (RL) tasks altogether. To mitigate the negative influence of customizing the one-off training order in curriculum-based AMTL, CAMRL switches its training mode between parallel single-task RL and asymmetric multi-task RL (MTRL), according to an indicator regarding the training time, the overall performance, and the performance gap among tasks. To leverage the multi-sourced prior knowledge flexibly and to reduce negative transfer in AMTL, we customize a composite loss with multiple differentiable ranking functions and optimize the loss through alternating optimization and the Frank-Wolfe algorithm. The uncertainty-based automatic adjustment of hyper-parameters is also applied to eliminate the need of laborious hyper-parameter analysis during optimization. By optimizing the composite loss, CAMRL predicts the next training task and continuously revisits the transfer matrix and network weights. We have conducted experiments on a wide range of benchmarks in multi-task RL, covering Gym-minigrid, Meta-world, Atari video games, vision-based PyBullet tasks, and RLBench, to show the improvements of CAMRL over the corresponding single-task RL algorithm and state-of-the-art MTRL algorithms. The code is available at: <a class="no-external-link" href="https://github.com/huanghanchi/CAMRL" target="_blank">https://github.com/huanghanchi/CAMRL</a></blockquote>我们介绍了CAMRL，这是第一个基于课程的非对称多任务学习（AMTL）算法，用于完全处理多个强化学习（RL）任务。为了减轻基于课程的AMTL中指定一次性训练顺序的负面影响，CAMRL根据训练时间、整体性能和任务间性能差距的指标，在并行单任务RL和非对称多任务RL（MTRL）之间切换其训练模式。为了灵活地利用多源先验知识并减少AMTL中的负迁移，我们定制了一个复合损失函数，其具有多个可微分排名函数，并通过交替优化和Frank-Wolfe算法进行优化。基于不确定性的超参数自动调整也被应用，以消除优化过程中费力的超参数分析的需要。通过优化综合损失，CAMRL预测下一个训练任务，并不断重新审视传输矩阵和网络权重。我们在多任务RL的各种基准上进行了实验，包括Gym-minigrid、Meta-world、Atari视频游戏、基于视觉的PyBullet任务和RLBench，以显示CAMRL比相应的单任务RL算法和最先进的MTRL算法的改进。<h3>研究动机</h3><ul><li>在MTL中，不是所有的任务都能从联合学习中受益，所以可能会出现负迁移</li><li>核心想法是通过基于课程的非对称多任务学习（AMTL）模式学习每个两个任务之间的稀疏加权定向正规化图</li><li>若缺乏对RL任务属性的先验知识，直接采用基于课程的AMTL来逐一训练任务，不当的训练顺序可能导致学到一个糟糕的正则化图</li><li>现有的关于AMTL的工作忽略了一些重要的因素，如代表相对训练进度的指标，任务之间的转移性能，以及描述行为的多样性，以便灵活地进行任务之间的转移和避免负迁移</li></ul><h3>主要贡献</h3><ul><li>提出的CAMRL算法主要包含「训练模式转换机制」和「多个可微分排名函数构成的组合损失」</li><li>CAMRL可以与其他RL算法以及训练模式相结合，包括引入先验知识等。通过自动参数调节可以适应新的任务</li><li>在多个Benchmark上进行了实验</li></ul><h3>方法描述</h3><img src="https://darkdawn-typora-img.oss-cn-beijing.aliyuncs.com/img202211211613015.png" alt="CAMRL整体架构" title="CAMRL整体架构"style=""><ul><li>整体架构<ul><li>一个学习进度指标选择训练模式：在每个epoch开始前选择用parallel single-task training or curriculum-based AMTL</li><li>如果使用curriculum-based AMTL，则使用一个综合loss来学习任务迁移</li><li>使用交替优化和Frank-Wolfe算法来决定下一个训练任务和更新迁移矩阵</li><li>超参数根据每轮的历史不确定性自动调整</li><li>当有新任务时，可以通过调整迁移矩阵快速适应</li></ul></li></ul><img src="https://darkdawn-typora-img.oss-cn-beijing.aliyuncs.com/img202211211730738.png" alt="算法" title="算法"style=""><ul><li>算法解析<ul><li>每个任务 $t \in [T]$ 对应一个独立的SAC网络 $SAC_t$，其网络参数为$w_t$</li><li>首先独立对每个任务进行N个epoch的训练，各任务互不影响</li><li>之后计算指标 $I_{mul} = \frac{(i)+(ii)+(iii)}{3}$ 用于选择下一个epoch的训练模式<ul><li>(i)：$\exp(-n/a)$：为加大在早期进行多任务训练的可能性，以便使难训练的任务尽早受益于易训练的任务<ul><li>$n$：当前的epoch数</li></ul></li><li>(ii)：$\exp(-\mathcal{L}_{nor}*b)$：如果整体训练表现较差，即$\mathcal{L}_{nor}$较大，则执行任务迁移的可能性往往较小。<ul><li>$\mathcal{L}_{nor}=\frac{policy\_loss-average_{policy\_loss}}{std_{policy\_loss}}$：上一个epoch所有任务的平均归一化policy损失</li></ul></li><li>(iii)：最后一个epoch的平均归一化奖励不在$[\mathcal{R}_{nor}-c*std_{nor},\mathcal{R}_{nor}+c*std_{nor}]$区间的任务百分比<ul><li>$std_{nor}$：所有任务的归一化奖励标准偏差</li><li>任务之间的学习过程差距越大，执行多任务训练的可能性就越大。</li></ul></li></ul></li><li>如果 $u \sim Uniform([0,1]) &lt; I_{mul}$ 则暂时在下一个epoch使用curriculum-based AMTL训练；否则使用单任务训练<ul><li>==与算法描述冲突，根据理解，此处描述为正确，算法表示错误==</li></ul></li></ul></li><li>课程多任务学习<ul><li>$B$：一个 $T \times T$ 的矩阵表示任意两个任务之间的迁移数量？</li><li>任务 $t$ 的SAC网络参数：$w_t \approx \sum_{s=1}^TB_{st}w_s$<ul><li>$B_{st}$：用基础参数 $w_s$ 表示目标参数 $w_t$ 的权重</li><li>$W := (w_1,w_2,\dots,w_T)$</li></ul></li><li>复合损失函数：$\mathcal{L}(W,B)=\sum_{t=1}^T\{(1+mu\|b_t^o\|_1)\mathcal{L}(w_t)+\lambda\|w_t-\sum_{s \neq t}B_{st}w_s\|_2^2\}$<ul><li>$b_t^o=(B_{t1},\dots,B_{t(t-1)},B_{t(t+1)},\dots, B_{tT})^\top \in \mathbb{R}^{T-1}$ ，$\|b_t^o\|_1$ 表示任务 $t$ 迁移到其他任务的稀疏度计数</li><li>$\mathcal{L}(w_t)$ 表示任务 $t$ 在权重 $w_t$ 下计算的SAC policy loss</li><li>$(\lambda,\mu)$ 为两个权重超参数</li></ul></li><li>考虑课程学习的损失函数：$\min _{\pi \in \mathcal{S}, W, B \geq 0} \sum_{i=1}^T\left\{\left(1+\mu\left\|b_{\pi(i)}^o\right\|_1\right) \mathcal{L}\left(w_{\pi(i)}\right)+\lambda\left\|w_{\pi(i)}-\sum_{j=1}^{i-1} B_{\pi(j) \pi(i)} w_{\pi(j)}\right\|_2^2\right\}$<ul><li>同时优化 $W$ 和 $B$ 可能导致严重的负迁移和维数灾难，所以希望以最佳的顺序依次优化 $b_t^o$ 和 $w_t$</li><li>$\mathcal{S}$ 表示 $T$ 个元素的置换空间；对任意 $\pi \in S$，$\pi(i)$ 表示置换的第 $i$ 个元素</li><li>令 $\mathcal{T}:= \{\pi(1), \dots, \pi(i-1)\}$ 表示前 $i-1$ 个已经训练的任务；$\mathcal{U} := \{1,\dots,T\}-\mathcal{S}$ 表示还未训练的任务</li><li>每次训练在 $\mathcal{U}$ 中选择任务 $t$ 并对 $b_t^o$ 进行训练：$\left(t, b_t^o\right) \leftarrow \underset{t \in \mathcal{U}, b_t^o}{\arg \min }\left\{\left(1+\mu\left\|b_t^o\right\|_1\right) \mathcal{L}\left(w_t\right)+\lambda \sum_{s \in \mathcal{U}-t}\left\|w_s-\sum_{j=1}^{i-1} B_{\pi(j) s} w_{\pi(j)}-B_{t s} w_t\right\|_2^2\right\}$<ul><li>即寻找当下能进行最大程度优化的任务</li></ul></li><li>再对 $w_t$ 进行优化：$w_t \leftarrow \underset{w_t}{\arg \min }\left\{\left(1+\mu\left\|b_t^o\right\|_1\right) \mathcal{L}\left(w_t\right)+\lambda\left\|w_t-\sum_{j=1}^{i-1} B_{\pi(j) t} w_{\pi(j)}\right\|_2^2\right\}$</li></ul></li></ul></li><li>其他Loss设计<ul><li>为合理计数每两个任务之间的迁移，并避免过多的负迁移，提出3个期望，并对应更改损失函数</li><li>[Expectation 1]: Ranking Loss 1<ul><li>如果测试迁移率性能满足 $p_{t,i_1} &gt; p_{t,i_2} &gt; \dots &gt; p_{t,i_q}$，则期望迁移矩阵满足 $B_{t,i_1} &gt; B_{t,i_2} &gt; \dots &gt; B_{t,i_q}$<ul><li>$p_{t,i}$：将在任务 $t$ 上训练的网络在任务 $i$ 上测试的平均奖励作为性能指标</li><li>某任务在其他任务上的评估性能更好，则该任务的迁移数量越大</li></ul></li><li>所以该期望损失表示为最小化 $\sum_{j=1}^q(j-y_{i_j})^2$<ul><li>其中 $j$ 表示 $p_{t,i_j}$ 在 $p_{t,i_1} &gt; p_{t,i_2} &gt; \dots &gt; p_{t,i_q}$ 中的排名；$y_{i_j}$ 表示 $B_{t,i_j}$ 对应的排名</li></ul></li><li>由于 $y_{i_j}$ 不可微分，所以构建了一个可微分排名函数：$y_{i_j}'=q+1-\sum_{s=1}^q\{0.5*\tanh[d(B_{t,i_j}-B_{t,i_s})]+0.5\}$<ul><li>即用一个复合tanh函数构建一个可微的阶梯函数</li><li>不同超参数 $d$ 生成的函数对应如下</li></ul></li></ul><img src="https://darkdawn-typora-img.oss-cn-beijing.aliyuncs.com/img202211221511453.png" alt="排名函数可视化" style="zoom:50%;" style=""><ul><li>性能指标也可以融入其他先验知识或训练指标</li><li>在每训练 $K$ 个epoch之后随机选择部分任务对性能 $p_{i,j}$ 进行更新</li></ul></li><li>[Expectation 2]: Ranking Loss 2<ul><li>如果任务 $i$ 是easy-to-train（即 $\mathcal{L}(w_i)$ 很小），则期望其不大需要其他任务的迁移</li><li>所以该期望损失表示为最小化两项：$ -(b_t^o)^\top l_t^o$ 和 $\sum_{j \in [T]}(rank_j^{(1)}-y''_j)^2$<ul><li>其中 $l_t^o = (\mathcal{L}(w_1),\dots,\mathcal{L}(w_{t-1}),\mathcal{L}(w_{t+1}),\dots,\mathcal{L}(w_T))$；$rank_j^{(1)}$ 表示 $\mathcal{L}(w_j)$ 的排名；$y_j''$ 表示 $B_{t,j}$ 的排名</li><li>最大化 $(b_t^o)^\top l_t^o$ 即期望 $\mathcal{L}(w_i)$ 大的 $B_{t,i}$ 大，反之亦然；即符合期望2</li></ul></li></ul></li><li>[Expectation 3]: Ranking Loss 2<ul><li>如果任务 $i$ 和任务 $t$ 很相似，则期望这两个任务间的迁移越大</li><li>所以该期望损失表示为最小化 $\sum_{j \in [T]}(rank_j^{(2)}-y''_j)^2$<ul><li>其中 $rank_j^{(2)}$ 表示 $s_{j,t}$ 的排名，$s_{j,t}$ 表示任务 $j$ 和 $t$ 的相似度</li></ul></li><li>相似度计算共提出三种方案<ol><li>critic网络的cosine相似度（实验验证该方案最佳）</li><li>policy网络的cosine相似度</li><li>状态空间中的embedding负距离<ul><li>计算 $s_{i,j}$ 的具体做法：先采样100个状态；分别使用任务 $i$ 和 $j$ 的embedding层获得向量 $e_{i,1},\dots,e_{i,100}$ 和 $e_{j,1},\dots,e_{j,100}$；最后计算负距离 $-\sqrt{\frac{1}{100} \sum_{m=1}^{100}\left\|e_{i, m}-e_{j, m}\right\|_2^2}$ 表示相似度</li></ul></li></ol></li></ul></li><li>所以对于 $b_t^o$ 的训练变更为：<ul><li>先固定 $b_t^o$ 和 $W$ 选择最小化该目标的下一个训练任务 $t$</li><li>然后固定 $t$ 和 $W$ 使用Frank-Wolfe优化参数 $b_t^o$</li><li>最后固定 $t$ 和 $b_t^o$ 训练任务 $t$ 的policy参数 $w_t$</li></ul></li></ul></li></ul> $$
 \begin{aligned}
 \left(t, b_t^o\right) &amp; \leftarrow \underset{t \in \mathcal{U}, b_t^o}{\arg \min }\left\{\lambda_0\left[\left(1+\mu_1\left\|b_t^o\right\|_1\right) \mathcal{L}\left(w_t\right)-\mu_2\left(b_t^o\right)^{\top} l_t^o\right]\right. \\
 &amp;+\lambda_1 \sum_{s \in \mathcal{U}-t}\left\|w_s-\sum_{j=1}^{i-1} B_{\pi(j) s} w_{\pi(j)}-B_{t s} w_t\right\|_2^2+\lambda_2 \sum_{j \in[q]}\left(j-y i_{i_j}\right)^2 \\
 &amp;\left.+\lambda_3 \sum_{j \in[T]}\left(r a n k_j^{(1)}-y \prime_j\right)^2+\lambda_4 \sum_{j \in[T]}\left(r a n k_j^{(2)}-y \prime_j\right)^2\right\}
 \end{aligned}
 $$<ul><li>loss优化<ul><li>优化 $b_t^o$：为使loss可微以及保证迁移矩阵 $B$ 的稀疏型，用 $\mu_1 \sum_{j \in [T]-\{t\}}B_{tj}$ 代替 $\mu_1\left\|b_t^o\right\|_1$<ul><li>加入限制条件：$b_t^o \ge 0, \quad \|b_t^o\|_1 \le radius &lt; \frac{1}{2}$，其中 $radius$ 是 $\|b_t^o\|_1(t \in [T])$ 的上界</li><li>所以 $b_t^o$ 的优化函数转化为：$\min _{b_t^o \geq 0,\left\|b_t^o\right\|_1 \leq radius} f\left(b_t^o\right)$</li></ul></li></ul></li></ul> $$
 \begin{aligned}
 f\left(b_t^o\right) &amp; = \lambda_0\left[\left(1+\mu_1 \sum_{j \in [T]-\{t\}}B_{tj}\right) \mathcal{L}\left(w_t\right)-\mu_2\left(b_t^o\right)^{\top} l_t^o\right] \\
 &amp;+\lambda_1 \sum_{s \in \mathcal{U}-t}\left\|w_s-\sum_{j=1}^{i-1} B_{\pi(j) s} w_{\pi(j)}-B_{t s} w_t\right\|_2^2+\lambda_2 \sum_{j \in[q]}\left(j-y i_{i_j}\right)^2 \\
 &amp;\left.+\lambda_3 \sum_{j \in[T]}\left(r a n k_j^{(1)}-y \prime_j\right)^2+\lambda_4 \sum_{j \in[T]}\left(r a n k_j^{(2)}-y \prime_j\right)^2\right\}
 \end{aligned}
 $$<ul><li>超参数动态调节：根据历史epoch每项对应的标准差自动调节 $\{\lambda_i\}_{i=0}^4$<ul><li>具体表示为：$\lambda_i = \frac{1}{4\sigma_i^0+\epsilon}(i \in [4])$ 和 $\lambda_0 = \frac{1}{2\sigma_0^0+\epsilon}$</li><li>其中 $\sigma_i$ 表示 $\lambda_i$ 对应项损失的标准差；$\epsilon(=10^{-2})$ 为避免分母为0</li><li>第0项权重较大是因为其为主要优化目标</li></ul></li></ul><h3>理论分析</h3><ul><li>Convergence of Vanilla Frank-Wolfe Algorithm（==TODO还没仔细看==）<ul><li>对于原式：</li></ul></li></ul> $$
 \begin{aligned}
 f\left(b_t^o\right) &amp; = \lambda_0\left[\left(1+\mu_1 \sum_{j \in [T]-\{t\}}B_{tj}\right) \mathcal{L}\left(w_t\right)-\mu_2\left(b_t^o\right)^{\top} l_t^o\right] \\
 &amp;+\lambda_1 \sum_{s \in \mathcal{U}-t}\left\|w_s-\sum_{j=1}^{i-1} B_{\pi(j) s} w_{\pi(j)}-B_{t s} w_t\right\|_2^2+\lambda_2 \sum_{j \in[q]}\left(j-y i_{i_j}\right)^2 \\
 &amp;\left.+\lambda_3 \sum_{j \in[T]}\left(r a n k_j^{(1)}-y \prime_j\right)^2+\lambda_4 \sum_{j \in[T]}\left(r a n k_j^{(2)}-y \prime_j\right)^2\right\}
 \end{aligned}
 $$<ul><li>对于 $\left(1+\mu_1 \sum_{j \in [T]-\{t\}}B_{tj}\right) \mathcal{L}\left(w_t\right)-\mu_2\left(b_t^o\right)^{\top} l_t^o$ 为 $\left(\mu_1+\mu_2\right) D_1T$-Lipschitz</li><li>对于 $\lambda_1 \sum_{s \in \mathcal{U}-t}\left\|w_s-\sum_{j=1}^{i-1} B_{\pi(j) s} w_{\pi(j)}-B_{t s} w_t\right\|_2^2$ 为 $\lambda_1 D_2^2T$-Lipschitz</li><li>因为 $[\tanh(x)]'=1-(\tanh(x))^2$，所以对于 $lambda_2 sum_{j in[q]}left(j-y i_{i_j}right)^2 +lambda_3 sum_{j in[T]}left(r a n k_j^{(1)}-y prime_jright)^2+lambda_4 sum_{j in[T]}left(r a n k_j^{(2)}-y prime_jright)^2$ 为 $2left(lambda_2+lambda_3+lambda_4right) d T^2$-Lipschitz</li><li>所以原式为 $\left\{\lambda_0\left(\mu_1+\mu_2\right) D_1+\lambda_1 D_2^2+2\left(\lambda_2+\lambda_3+\lambda_4\right) d T\right\} T$-Lipschitz</li><li>令 $x_m$ 为vanilla Frank–Wolfe迭代m轮的结果</li></ul> $$
 \begin{aligned}
 &amp;\min _{1 \leq j \leq m,s \geq 0,\|s\|_1 \leq \text { radius }}\left\langle\nabla f\left(x_m\right), x_m-s\right\rangle
 \leq \frac{\max \left\{2 h_0, 4\left\{\lambda_0\left(\mu_1+\mu_2\right) D_1+\lambda_1 D_2^2+2\left(\lambda_2+\lambda_3+\lambda_4\right) d T\right\} T\right\}}{\sqrt{m+1}}
 \end{aligned}
 $$<ul><li>其中 $h_0=f\left(x_0\right)-\min _{x \geq 0,\|x\|_1&lt;\text { radius }} f(x)$，$D_1$ 为 $\{|\mathcal{L}(w_i)|\}_{i\in[T]}$ 的上界，$D_2$ 为网络参数L2-norm的上界</li><li>在实验中 $D_2 \le 20$</li><li>如果 $f$ 可微且收敛，则</li></ul> $$
 \begin{aligned}
 &amp;\min _{1 \leq j \leq m, s \geq 0,\|s\|_1 \leq \text { radius }}\left\langle\nabla f\left(x_m\right), x_m-s\right\rangle
 \leq \frac{8\left\{\lambda_0\left(\mu_1+\mu_2\right) D_1+\lambda_1 D_2^2+2\left(\lambda_2+\lambda_3+\lambda_4\right) d T\right\} T}{m+1}
 \end{aligned}
 $$<ul><li>所以$\min _{b_t^o \geq 0,\left\|b_t^o\right\|_1 \leq radius} f\left(b_t^o\right)$ 的收敛率介于 $\frac{1}{m}$ 和 $\frac{1}{\sqrt{m}}$ 之间</li></ul><h3>实验验证</h3><ul><li>实验环境<ul><li>Gym-minigrid：局部可观测的网格类环境，agent需要找到钥匙打开门<ul><li>通过设置不同的障碍物和不同的要求，生成任务<code>DistShift</code>、<code>Doorkey</code>、<code>DynamicObstacles</code>等</li><li>每个环境都可以通过调节大小和复杂性生成不同难度的任务，并构成课程学习</li><li>随机选择9个环境，每个环境包含至少3个难度的任务</li><li><a class="no-external-link" href="https://github.com/maximecb/gym-minigrid" target="_blank">https://github.com/maximecb/gym-minigrid</a></li></ul></li><li>Meta-world：<ul><li>50个与模拟机械臂操纵相关的任务</li><li>MT1、MT10和MT50分别具有1、10和50个任务</li><li><a class="no-external-link" href="https://github.com/RchalYang/metaworld" target="_blank">https://github.com/RchalYang/metaworld</a></li></ul></li><li>Atari：<ul><li>Arcade Learning Environment (ALE) 是Atari 2600 games的一个实验框架<ul><li>==原文作者好像写错了名字，不是Atari，而是Arcade，虽然本质上是Atari游戏==</li></ul></li><li>Atari游戏包含了探索、规划、快速反应和复杂的视觉输入</li><li>随机选择的十个环境为：<code>YarsRevenge</code>， <code>Jamesbond</code>，<code>FishingDerby</code>，<code>Venture</code>，<code>DoubleDunk</code>，<code>Kangaroo</code>，<code>IceHockey</code>，<code>ChopperCommand</code>，<code>Krull</code>和 <code>Robotank</code></li><li><a class="no-external-link" href="https://github.com/mgbellemare/Arcade-Learning-Environment" target="_blank">https://github.com/mgbellemare/Arcade-Learning-Environment</a></li></ul></li><li>Ravens：<ul><li>基于PyBullet实现的基于视觉的机器人操纵环境</li><li>选择十个典型的离散时间桌面操纵任务：<code>lock-insertion</code>，<code>Place-red-in-green</code>，<code>Towers-of-hanoi</code>，<code> Align-box-corner</code>，<code> Stack-block-pyramid</code>，<code> Palletizing-boxes</code>，<code> Assembling-kits</code>，<code> Packing-boxes</code>，<code> Manipulating-rope</code>和<code> Sweeping-piles</code></li><li>通过Ravens提供的oracle为每项任务生成1000个专家示范进行模仿学习。之后再进行10000 epoch的无示范训练，比较平均成功率</li><li><a class="no-external-link" href="https://github.com/google-research/ravens" target="_blank">https://github.com/google-research/ravens</a></li></ul></li><li>RLBench：<ul><li>为加快视觉引导下的操纵研究设计的大规模环境</li><li>十个典型RLBench任务：<code>Reach Target</code>，<code>Push Button</code>，<code>Pick And Lift</code>，<code>Pick Up Cup</code>，<code> Put Knife on Chopping Board</code>，<code> Take Money Out Safe</code>，<code> PutMoneyInSafe</code>，<code>PickUpUmbrella</code>，<code>StackWine</code>和<code>Slide Block To Target</code>.</li><li><a class="no-external-link" href="https://github.com/stepjam/RLBench" target="_blank">https://github.com/stepjam/RLBench</a></li></ul></li></ul></li><li>Baseline：<ul><li>AC：Single AC</li><li>SAC：Single SAC</li><li>MRCL：Mastering rate based curriculum learning<ul><li><a class="no-external-link" href="https://arxiv.org/abs/2008.06456" target="_blank">https://arxiv.org/abs/2008.06456</a></li></ul></li><li>YOLOR：You only learn one representation: Unified network for multiple tasks<ul><li><a class="no-external-link" href="https://arxiv.org/abs/2105.04206" target="_blank">https://arxiv.org/abs/2105.04206</a></li><li><a class="no-external-link" href="https://github.com/WongKinYiu/yolor" target="_blank">https://github.com/WongKinYiu/yolor</a></li></ul></li><li>Distral：Robust multitask reinforcement learning<ul><li><a class="no-external-link" href="https://arxiv.org/abs/1707.04175" target="_blank">https://arxiv.org/abs/1707.04175</a></li></ul></li><li>PCGrad：Gradient Surgery</li><li>SM：Soft Modularization</li></ul></li><li>评估指标<ul><li>Reward指标：Gym-minigrid、Meta-World、Atari</li><li>success rate指标：Ravens、RLBench</li></ul></li><li>实验结果<ul><li>Results on gym-minigrid</li></ul></li></ul><img src="https://darkdawn-typora-img.oss-cn-beijing.aliyuncs.com/img202211231030176.png" alt="Results on gym-minigrid" title="Results on gym-minigrid"style=""><ul><li>Results on MT10 and MT50</li></ul><img src="https://darkdawn-typora-img.oss-cn-beijing.aliyuncs.com/img202211231031258.png" alt="Results on MT10" title="Results on MT10"style=""><img src="https://darkdawn-typora-img.oss-cn-beijing.aliyuncs.com/img202211231032159.png" alt="Results on MT50" title="Results on MT50"style=""><ul><li>Results on Atari</li></ul><img src="https://darkdawn-typora-img.oss-cn-beijing.aliyuncs.com/img202211231033961.png" alt="Results on Atari" title="Results on Atari"style=""><ul><li>Results on Ravens</li></ul><img src="https://darkdawn-typora-img.oss-cn-beijing.aliyuncs.com/img202211231033871.png" alt="Results on Ravens" title="Results on Ravens"style=""><ul><li>Results on RLBench</li></ul><img src="https://darkdawn-typora-img.oss-cn-beijing.aliyuncs.com/img202211231034663.png" alt="Results on RLBench" title="Results on RLBench"style=""><ul><li>Analysis on the transfer matrix $B$<ul><li>$PR$：[Expectation 1] 对应的迁移性能排名；即 $PR_{s,t}$ 表示在任务 $s$ 上训练10k episode后在任务 $t$ 上的测试reward</li></ul></li></ul><img src="https://darkdawn-typora-img.oss-cn-beijing.aliyuncs.com/img202211231036410.png" alt="Analysis on the transfer matrix" title="Analysis on the transfer matrix"style=""><ul><li>Incorporation of prior knowledge<ul><li>使用现有state-of-the-arts方法判断任务的公开表现：任务越简单，则任务表现越好，任务收到的迁移越少</li><li>使用该相对排名替换掉tanh-based的可微ranking loss</li><li>实验结果显示在某些任务上表现更好，详细实验结果在文章附录，内容较多此处不展示了</li></ul></li><li>Changes of each term in $I_{mul}$<ul><li>可视化训练过程 $I_{mul}$ 中三项的动态变化过程</li></ul></li></ul><img src="https://darkdawn-typora-img.oss-cn-beijing.aliyuncs.com/img202211231130734.png" alt="Changes of each term" title="Changes of each term"style=""><ul><li>Hyper-parameter analysis<ul><li>$\lambda_0=1, \mu_1=\mu_2=\lambda_1=\lambda_2=\lambda_3=\lambda_4=0.01,a=1000,b=\frac{1}{40},c=2,d=200,radius=0.05$<ul><li>因为本文超参数太多了这里再说明一下各个超参数的来源<ul><li>$\lambda_0, \mu_i(i\in[2]),\lambda_j(j\in[4])$ 为损失函数对应的超参数</li><li>$a,b,c$ 为计算 $I_{mul}$ 对应的三个超参数（用于判断下一个epoch的训练方式）</li><li>$d$ 为构建的tanh可微分排名函数对应的超参数</li><li>$radius$ 为人为对迁移矩阵稀疏度的限制条件 $\|b_t^o\|_1 \le radius$</li></ul></li></ul></li><li>实验表明上述参数为最佳，实验方法均为固定其他的修改单一超参数，详细图示见原文附录<ul><li>==但原文附录Fig.8好像少了一幅图==</li></ul></li></ul></li><li>Ablation study<ul><li>对添加的一些模块做消融实验，直接通过超参数配置即可完成</li></ul></li></ul><img src="https://darkdawn-typora-img.oss-cn-beijing.aliyuncs.com/img202211231611104.png" alt="Ablation study" title="Ablation study"style=""><h3>其他思考</h3><ul><li>很庆幸同时读了两篇比较类似的文章PaCo在之前有分享过，这里简单对比一下两个算法<ul><li>两个算法的核心部分很类似，用于每个任务的SAC网络参数可以看作是一个参数组合<ul><li>PaCo：$\theta_{\tau} = \Phi \mathbf{w}_\tau$；CAMRL：$w_t \approx \sum_{s=1}^TB_{st}w_s$</li></ul></li><li>但两个算法对于这个参数组合的解释，或者motivation不太一样<ul><li>PaCo：参数共享角度，将参数区分为共享参数 $\Phi$ 和独立参数 $w_\tau$</li><li>CAMRL：参数被区分为任务基础参数 $w_s$ 和实际参数 $w_t$，实际参数看作是基础参数的迁移</li></ul></li><li>由于两个算法的motivation不一样，所以对应的训练方式和损失函数就完全不同</li><li>最后简单谈一下对fast-adaption的区别（这里fast-adaption不一定准确，主要针对新的任务如何适应）<ul><li>PaCo：共享参数不变，学习独立参数，如果独立参数不足以满足，则新增共享参数</li><li>CAMRL：会新建一个该任务的基础参数，新的任务通过课程学习学习迁移权重</li></ul></li></ul></li><li>本文在很多MTRL的Benchmark上进行了实验，实验量是非常大的，也对该领域的常用环境进行了一个汇总。可惜代码并没有提供一套统一的框架去对接不同的环境，只是简单的提供了不同算法的单一py文件。</li><li>本文不确定是不是有很多先前工作进行的融合，但好像没了解到类似工作的发表。毕竟第一次遇到12个超参数的网络，这个数量有点过于庞大了，个人感觉不太友好。而且可以看到每一个辅助loss其实设计都非常简单，都是一个L2 loss，就我个人而言这种rank排序对齐的方法说服力不强。而且本文提出的自动调参方法比较局限。</li><li>最后简单吐槽一下，发表在TPAMI这种顶刊上的文章感觉还是有不少的错误表述，甚至有少图的情况，emmm不过多评论</li></ul>原文链接：<a class="no-external-link" href="https://arxiv.org/abs/2211.03352" target="_blank">https://arxiv.org/abs/2211.03352</a>Code：<a class="no-external-link" href="https://github.com/huanghanchi/CAMRL" target="_blank">https://github.com/huanghanchi/CAMRL</a>

【论文笔记MTRL】CAMRL: Curriculum-based Asymmetric Multi-task Reinforcement Learning

摘要

研究动机

主要贡献

方法描述

理论分析

实验验证

其他思考

Leave a Comment Cancel reply
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

致22岁的自己

代码情诗【持续更新...

【竞赛经历】2019ICPC南京赛站总结

【影评】误杀

【论文笔记 MTRL】PCGrad: Gradient Surgery for Multi-Task Learning

致22岁的自己

【论文笔记MGRL】UVFA: Universal Value Function Approximators

【论文笔记MTRL】GATO: A Generalist Agent

【论文笔记MTRL】Uni[MASK]: Unified Inference in Sequential Decision Problems

【论文笔记】汇总

【论文笔记MTRL】CAMRL: Curriculum-based Asymmetric Multi-task Reinforcement Learning

摘要

研究动机

主要贡献

方法描述

理论分析

实验验证

其他思考

Leave a Comment Cancel reply 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

【论文笔记MTRL】CAMRL: Curriculum-based Asymmetric Multi-task Reinforcement Learning

Leave a Comment Cancel reply
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款