您的位置:首页 > 娱乐 > 明星 > 深圳工业设计行业协会_企业网站的网络营销功能包括_友情链接出售网_武汉seo网站优化技巧

深圳工业设计行业协会_企业网站的网络营销功能包括_友情链接出售网_武汉seo网站优化技巧

2025/7/14 13:56:17 来源:https://blog.csdn.net/Orange_sparkle/article/details/145536981  浏览:    关键词:深圳工业设计行业协会_企业网站的网络营销功能包括_友情链接出售网_武汉seo网站优化技巧
深圳工业设计行业协会_企业网站的网络营销功能包括_友情链接出售网_武汉seo网站优化技巧

如何得到一个ChatGPT?

1、无监督预训练:通过大量的文本数据集进行无监督训练,得到一个基座模型(只会续写文本)

2、监督微调:通过一些人类撰写的高质量对话数据对基座模型进行监督微调,得到一个微调后的基座模型(除了能续写文本,还具备更好的对话能力)

3、训练奖励模型+强化学习训练:用问题和对各对应回答的数据,让人类标注员对回答进行质量排序,基于这些数据,训练出一个能对回答进行评分预测的奖励模型。

让监督微调模型对问题生成回答,用奖励模型对回答进行打分,利用评分作为反馈进行强化学习训练,就能够得到最终的ChatGPT了。

接下来让我们对每一个步骤进行详细解读

1、无监督预训练

基座模型需要海量的文本数据进行训练

无监督训练:以原始文本作为数据集和监督信息,模型通过前面的文本预测下一个出现的单词。

2、监督微调

以人类写的专业且高质量的对话作为监督数据集训练基座模型,最后得到SFT模型。

3、训练奖励模型+强化学习训练

强化学习:

让模型在环境里采取行动,获得结果反馈,从反馈里学习,从而能在给定情况下采取最佳行动,来最大化奖励或最小化损失。

理想情况下是将问题抛给GPT,人类对GPT做出的回答进行打分,最终GPT根据打分优化模型。

打分一般基于3H原则:

但是人类打分成本高效率低,于是开发了一个奖励模型,能够对GPT生成的回答进行打分。

奖励模型

训练数据:让SFT模型对每个问题生成多个回答,让人类对多个回答进行比较排序。这些数据就可以作为奖励模型的训练数据了。

经过训练后,奖励模型就能够正确的预测出GPT每个回答的评分了。

最终,经过不断的强化学习训练,奖励模型不变,SFT模型不断优化权重参数,最终得到能够和人类进行对话的Chat GPT了。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com