来源|新智元
【导读】OpenAI神秘Q*项目刚被曝出一天,就已经引发了各种猜想。一时间,「Q-learning」成为许多人的关注焦点。
Q-learning是什么?
奖励函数是这样的:
- 没有吃到奶酪:+0
- 吃到一块奶酪:+1
- 吃到一大堆奶酪:+10
- 吃到毒药:-10
- 可扩展性:
- 泛化:
- 适应性:
- 多技能整合:
- 深度Q网络(DQN):
- 迁移学习:
- 元学习:
A*算法+Q-learning
「合成数据」是关键
Q-Learning「可能」不是解锁AGI的秘诀。但是,将合成数据生成(RLAIF、self-instruct等)和数据高效的强化学习算法相结合可能是推进当前人工智能研究范式的关键......
用更少的数据使RL性能更好。 使用LLM和较小的手动标注数据集,为RL综合生成尽可能多的高质量数据。
self-instruct:LLM可以使用LLM自动生成指令调优数据集(Alpaca、Orca和许多其他模型也遵循类似的方法)。 LLaMA-2:LLM能够在人工标注少量示例后为SFT生成自己的高质量数据。 Constitutional AI:LLM可以使用自我批判来生成高质量的数据集,以便通过RLHF和SFT进行对齐。 RLAIF:我们可以使用LLM完全自动化RLHF的反馈组件,而不是使用人工来收集反馈,并实现可比的性能。
GPT-Zero?