0%

stabel diffusion 和 reinforcement learning 的优缺点对比

Posted on 2024-06-06 In study Valine:

今天开完会和同学仔细讨论了下SD 和 RL，受益颇多，赶快记录一下

Stable Diffusion

优点

一般质量很高。（当然SD is only for generative task now)
可以生成很多样本
训练稳定

PS: 这几点可都是EDA engineer喜欢的呀

缺点

需要“label” $x_0$
生成的样本还是在模仿”label”们的distribution，能不能超过label呢？这是个问题。如果不能超过“生成label的算法”的话，那么我们为什么不直接用“生成label的算法”？
关于这个问题多说几句，目前我看到的回答是。
1. 没有“生成label的算法”，但我们也可以（反向）产生一堆100% accurate的label。比如我们的任务是 format A -> format B。虽然没有A->B的完美算法，但是有B->A的完美算法。于是我们random generate B, and then get its corresponding A. which is our training data (A,B)
2. 没有算法，但可以很方便收集到label，比如SD用来生成图像。

Reinforcement Learning

优点

可用于各种问题，生成，决策，控制。
不需要“label”

缺点

训练很不稳定
怎么定义”很好的”action,reward,这些是个大问题