详细信息
 

ChatGPT核心壁垒:算力、数据和工程能力

编辑:      来源:国联证券      时间:2023/4/23
 

ChatGPT 的研发主要分为预训练(Pre-train)和精调(Fine-tune)两个环节。 其中:1)预训练:使用无标注、大规模的数据集,对模型进行预训练。2)精调:让 模型与专业的标注人员、AI 训练师进行交互,推动模型逐步学习人类通用的表达方 式和价值观,从而终生成符合人类期望的回答。如果将 AI 大模型类比于学生,那么模型的预训练就是通过广泛的通识性阅读,使学生具备初步 的文字理解能力;模型的精调就是“教学”的过程,其中使用出色教材的效果往往胜 过大量普通书籍。

从 ChatGPT 的主要技术环节,分析其核心壁垒所在:

1)算力资源:据 TrendForce 数据,以英伟达 A100 口径计算,ChatGPT 需要 2 万 块 GPU 来处理训练数据,随着 ChatGPT 的商用化,需要的 GPU 数量可能超过 3 万块。 目前国内 GPU 集群的存量资源有限,叠加美实体清单影响G端芯片采购受阻,导致对 于国内大模型厂商而言,模型的推理、部署、应用等环节的算力资源紧缺。但从长期 来看,国内 AI 大模型算力紧缺的问题有望得到缓解。从市场角度,算力资源本质上 是自由流通的商品,相较于模型技术、工程能力等硬性壁垒更易突破;从技术层面看, 大模型的研发、应用环节所需算力未来均有优化的空间。4 月 13 日微软推出大模型 训练工具 DeepSpeed-Chat,其中包括开源的 RLHF 框架,能基于单个 GPU 训练超过 130 亿参数的模型,训练速度提升 15 倍以上,垂类企业应用大模型的算力门槛有望大幅降低。

2)参数量:一般认为 1000 亿的参数量J是语言类大模型产生“涌现”现象的门 槛,GPT3 的训练参数量达 1750 亿,GPT4 参数量未公布。对于国内大模型厂商,尤其 是拥有丰富自有数据资源的互联网大厂而言,1000 亿的参数量J并非难以达到。目 前百度、华为、阿里等头部企业均已推出或发布千亿参数以上的 AI 大模型,但在性 能上仍和 ChatGPT 有较大差距。

3)数据集的质量:GPT3 的预训练数据集来自于 common crawl(网页爬虫聚合类 数据平台)、维基百科等标准化程度较G的公开数据库。目前国内 AI 大模型的预训练 数据集也以公开网页爬取的数据为主,再结合公司自有的行业数据进行训练。问题在 于,相较于英文,目前互联网上中文内容的规模和质量均存在较大差距。因此,国内 AI 大模型的预训练数据集中也以英文数据为主,使得在中文为主的用户使用环境中 产生较多的适配性问题。

目前来看解决的方法包括:一是建立标准化、G质量的中文 语料库;二是加强 AI 大模型的翻译能力,使其生成的结果更符合中文用户的使用习 惯。

4)工程能力:包括预训练、精调等训练环节的执行能力和方法等,需要研发团 队通过长时间的经验积累、不断试错,再对模型结果进行调优,这也是 OpenAI 的 ChatGPT 目前于国内、乃至谷歌 BERT 等其他海外头部大模型的核心壁垒之一。 例如在精调过程中,OpenAI 使用J少量的G质量标注数据,显著提升了 GPT-3.5 的 应答能力。此外,中文和英文数据集在规模、质量等方面存在差距,这也需要额外的 工程能力去弥补,使得国产 AI 大模型更适用于中文的使用环境。


 
【声明:转载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,文章内容仅供参考,如有侵权,请联系删除。】
 
推荐信息
ChatGPT的推出,对于人工智能的发展具有三层重要意义
推动 AI 大模型整体的迭代速度加快,应用场景拓宽;提升用户体验推动模型认知能力的进一步提升;推动 AGI 终局的可见度提升,落地预期或从2050年大幅提前
ChatGPT 破圈复盘:AI 显性化的三个阶段
ChatGPT能力初步破圈,在学术论文,专业考试等 C 端应用场景中初步破圈;现象级应用诞生,下游生态全面开启;大模型生态起步
Midjourney是一款AI制图工具,五次迭代五个版本对比
Midjourney第一代图像色彩丰富;第二代角色脸部更匀称;第三代将角色添加到背包中;第四代每幅图像显示出具有略微不同的气候特征;第五代绝佳分辨率
智能写作:Notion AI将生成式AI融合进在线文档场景
Notion AI完成的类型:文章,列表和表格,社交媒体帖子,大纲,创意故事,诗歌,随笔,会议议程,新闻稿,工作介绍,销售邮件,招聘邮件
gpt视频工具应用方向办公提效方式及代表公司
一键添加特效,配音,字幕,水印,自动生成片头等功能;计算出视频中的若干高光时刻,形成高光混剪短视频片段;辅助制作高呈现难度的数字特效
gpt音频工具应用方向办公提效方式及代表公司
进行词曲协作,伴奏生成,歌声合成等;将文本转化为语音,并赋予不同的声音形象;生成高品质配音音频内容,并且可编辑丰富的发音人音色
gpt图片工具应用方向办公提效方式及代表公司
根据简单描述,关键词自动生成图像;对图片进行智能调色,美化,抠图等操作;精准识别图像中的视觉内容,应用于智能相册管理,图片安全监控等场景
gpt文字工具应用方向办公提效方式及代表公司
输入标题大纲,即可生成全文初稿;对文章中不合理的用词,语序错乱,口语表达等问题进行全面检查和润色建议;快速针对内容编辑区全文段落进行摘要生成
智能运输机器人
AGV无人运输机器人-料箱版
AGV无人运输机器人-标准版
AGV无人运输机器人-料箱版(钣金材质)
AGV无人运输机器人-货架版(钣金材质)
AGV无人运输机器人-货架版(亮面不锈钢材质)
AGV无人运输机器人-开放版
行业动态
» AMR企业未来发展的建议:加强产学研合作 拓展应用领域与场景 突破关键技术
» 智能无人运输车AMR选型建议:安全性 稳定性 兼容性 成本和可维护性
» 物流企业自动化搬运项目:117台XPL搬运机器人用于快运件转运+物料暂存
» 工具制造业5G智慧工厂:10+台潜伏AGV+托盘式叉车用于线边仓转运
» 轮胎行业项目:2台室内平衡重式无人叉车LXP15-B用于半成品、成品自动化出入库
» 汽车零部件园区无人化物流项目:室外无人驾驶重载AGV用于车间到车间之间的物流运输
» 汽车行业智能搬运项目:30台XPL搬运机器人用于产线送料和成品转运
» 汽车新能源产线智慧物流项目-31台潜伏AGV应用环汽车总装车间转运
» 汽车行业多品类AGV整合项目:叉车AGV、潜伏牵引AGV、举升AGV、承载式双车联动AGV、功能型A
» 乘用车动力总成车间零部件集配项目-9台承载辊道式AMR,用于动力总成线边供给
 
首页    产品    方案    底盘    参数    关于
咨询热线:4006-935-088 / 4006-937-088     客服热线: 4008-128-728
版权所有 @ 创泽智能机器人集团股份有限公司    鲁ICP备18039973号-2    运营中心 / 北京·清华科技园九号楼    生产中心 / 山东省日照市开发区太原路71号