详细信息 |
国内科技互联网厂商训练大模型基于的数据基础 |
编辑: 来源:华泰证券 时间:2023/5/19 |
目前国内科技互联网头部企业主要基于公开数据及自身特有数据差异化训练大模型。具体 而言,百度“文心”大模型训练特有数据主要包括万亿J的网页数据,数十亿的搜索数据 和图片数据等。阿里“通义”大模型的训练数据主要来自阿里达摩院。腾讯“混元”大模 型特有的训练数据主要来自微信公众号,微信搜索等出色数据。华为“盘古”大模型的训 练数据出公开数据外,还有 B 端行业数据加持,包括气象,矿山,铁路等行业数据。商汤 “日日新”模型的训练数据中包括了自行生成的 Omni Objects 3D 多模态数据集。
|
【声明:转载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,文章内容仅供参考,如有侵权,请联系删除。】 |
推荐信息 |
国内缺乏高质量数据集的主要原因
高质量数据集需要巨大资金投入,当前国内数据挖掘和数据治理的力度不足;国内相关公司成立较晚,数据积累相对国外公司更少
中国AI大模型数据集从哪里来
从数据来源看,国内各行业数据差异化发展,2021年政府,传媒,专业服务,零售等行业数据量占比较高,接近90%的数据为非结构化数据
语音标注质量评估算法优缺点
WER算法可以分数字,英文,中文等情况分别来看;当数据量大时,性能会特别差;SER算法对句子的整体性评估要优,句错误率较高
文本标注质量评估算法优缺点
ROUGE算法参考标注越多待评估数据的相关性就越高;METEOR算法评估时考虑了同义词匹配,提高了评估的准确率;SPICE算法对图像标注进行评估
图像标注质量评估算法优缺点
MV算法简单易用,常用作其他众包质量控制算法的基准算法;EM算法可以收敛到局部最大化;RY算法将分类器与 Ground-truth 结合起来进行学习
数据清洗缺失数据的处理方法
数据清洗作为数据预处理中至关重要的环节,清洗后数据的质量很大程度上决定了 AI算法的有效性,数据可能存在缺失值,噪声数据,重复数据等质量问题
数据采集三种常见方式
实时的在线分析系统和分布式并发的离线分析系统;通过网络爬虫或网站公开API方式获取大数据信息;采集的对象包括视频,图片,音频和文本等多种类型
建立数据集的流程 数据集产生
数据清洗,由于采集到的数据可能存在缺失值,噪声数据,重复数据等质量问题; 模型训练人员会利用标注好的数据训练出需要的算法模型 |
智能运输机器人 |
AGV无人运输机器人-料箱版 |
AGV无人运输机器人-标准版 |
AGV无人运输机器人-料箱版(钣金材质) |
AGV无人运输机器人-货架版(钣金材质) |
AGV无人运输机器人-货架版(亮面不锈钢材质) |
AGV无人运输机器人-开放版 |
行业动态 |
咨询热线:4006-935-088 / 4006-937-088
客服热线:
4008-128-728
版权所有 @ 创泽智能机器人集团股份有限公司 鲁ICP备18039973号-2 运营中心 / 北京·清华科技园九号楼 生产中心 / 山东省日照市开发区太原路71号 |