今天开完会 和同学仔细讨论了下SD 和 RL,受益颇多,赶快记录一下
Stable Diffusion
优点
- 一般质量很高。(当然SD is only for generative task now)
- 可以生成很多样本
- 训练稳定
PS: 这几点可都是EDA engineer喜欢的呀
缺点
需要“label” $x_0$
生成的样本 还是 在模仿”label”们的distribution,能不能超过label呢?这是个问题。如果不能超过“生成label的算法”的话,那么我们为什么不直接用“生成label的算法”?
关于这个问题多说几句,目前我看到的回答是。
- 没有“生成label的算法”,但我们也可以(反向)产生一堆100% accurate的label。比如我们的任务是 format A -> format B。虽然没有A->B的完美算法,但是有B->A的完美算法。于是我们random generate B, and then get its corresponding A. which is our training data (A,B)
- 没有算法,但可以很方便收集到label,比如SD用来生成图像。
Reinforcement Learning
优点
- 可用于各种问题,生成,决策,控制。
- 不需要“label”
缺点
- 训练很不稳定
- 怎么定义”很好的”action,reward,这些是个大问题