详细信息 位置: 首页 >> gpt人工智能  
 

ChatGPT的训练过程分为三个阶段

编辑:创泽      来源:ChatGPT是如何训练      时间:2023/3/29
 

第一阶段: 训练监督策略模型

GPT 3. 5本身很难理解人类不同类型指令中蕴含的不同意图, 也很难判断生成内容是否是高质量的 结果。为了让GPT 3. 5初步具备理解指令的意图, 首先会在数据集中随机抽取问题, 由人类标注人 员, 给出高质量答案, 然后用这些人工标注好的数据来微调 GPT-3. 5模型 (获得SFT模型, Supervised Fine-Tuning) 。

此时的SFT模型在遵循指令/对话方面已经优于 GPT-3, 但不一定符合人类偏好。

第二阶段: 训练奖励模型 ( Reward Mode, RM)

这个阶段的主要是通过人工标注训练数据 (约33K个数据) , 来训练回报模型。在数据集中随机抽 取问题, 使用第一阶段生成的模型, 对于每个问题, 生成多个不同的回答。人类标注者对这些结果 综合考虑给出排名顺序。这一过程类似于教练或老师辅导。 接下来, 使用这个排序结果数据来训练奖励模型。对多个排序结果, 两两组合, 形成多个训练数据 对。 RM模型接受一个输入, 给出评价回答质量的分数。这样, 对于一对训练数据, 调节参数使得 高质量回答的打分比低质量的打分要高。

第三阶段: 采用PPO ( P roximal Policy O ptimization, 近端策略优化) 强化学习来优化策略。

PPO的核心思路在于将Policy G radient中On- policy的训练过程转化为Off- policy, 即将在线学习转化为离线学习, 这个转化过程被称之为Importance Sampling。这一阶段利用第二阶段训练好 的奖励模型, 靠奖励打分来更新预训练模型参数。在数据集中随机抽取问题, 使用PPO模型生成回 答, 并用上一阶段训练好的RM模型给出质量分数。把回报分数依次传递, 由此产生策略梯度, 通 过强化学习的方式以更新PPO模型参数。

如果我们不断重复第二和第三阶段, 通过迭代, 会训练出更高质量的ChatGPT模型。


 
【声明:转载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,文章内容仅供参考,如有侵权,请联系删除。】
 
推荐信息
DocsGPT 提出基于产品的某个版本写个 xx 示例的要求,让文档变成一个更贴近用户的好文档,让 GPT 帮你解答用户的困惑
ArxivGPT能帮你读论文,在一些地方给出注解,这个项目是基于上面的chatgpt-google-extension二次开发而来,以生成论文的读后感,提高读论文的效率
chatgpt-google-extension项目基于 ChatGPT 强化了 Google 搜索能力,它的使用也很简单,装个 Chrome 或者 Firefox 插件就能玩了
openai-translator的翻译更贴近人类的语言使用习惯,有了 ChatGPT 的加成不仅能翻译,还能帮你润色文字,有浏览器插件版,还有桌面版本
OpenAI 从11个方面对GPT-4风险进行了一系列定性和定量评估,进一步了解 GPT-4 的能力,限制和风险,并帮助提供解决方案,迭代测试和构建模型的更安全版本等
GPT-4 相比于GPT-3.5有了显著提升,在学术和专业测试中甚至能够达到与人 类相当的水平,GRE- Quantitative163;GRE- Verbal 169
AI 开创的新纪元中,OpenAI 率先开放 ChatGPT API ,在 ChatGPT,文心一言等 AIGC 产品,GPT-4,Stable Diffusion,Midjourney 等 AI 大模型的加持
第一步:收集描述性数据,并训练一个有监督的策略;第二步:收集比较性数据,并训练一个奖励模型;第三步:用PPO强化学习算法通过奖励模型优化策略
 

gpt人工智能

 
 

迎宾机器人在楼梯处迎接客人
 
新动态