详细信息
 

中国AI大模型数据集从哪里来

编辑:      来源:华泰证券      时间:2023/5/18
 

国内各行业数据资源丰富,2021-2026 年数据量规模 CAGR G于,数据主要来源于政 府/传媒/服务/零售等行业。据 IDC,2021-2026 年数据量规模将由 18.51ZB 增长至 56.16ZB,CAGR 达到 24.9%,G于平均 CAGR。从数据来源看,国内各行业数据差 异化发展,2021 年政府、传媒、专业服务、零售等行业数据量占比较G,分别为 30.4%、 13.4%、13.0%、9.6%,其中接近 90%的数据为非结构化数据,这也要求了海量数据采集 设备和软件的互联互通以及互动互控。另外随着智能化转型的深入,制造、交通运输、批 发、教育等行业数据规模在未来也拥有较大的增长潜力,2021-2026 年数据量增长 CAGR 将分别达到 37.6%、36.1%、37.1%、34.0%。

尽管国内数据资源丰富,但由于数据挖掘不足,数据无法自由在市场上流通等现状,出色 中文出色数据集仍然稀缺。目前中文出色数据仍然稀缺,如 ChatGPT 训练数据中中文资料 比重不足千分之一,为 0.0991%,而英文资料占比超过 92.6%。据加利福尼亚大学和 Google 研究机构发现,机器学习和自然语言处理模型使用的数据集 50%由 12 家 Top 机构提供, 其中 10 家为美国机构,1 家为德国机构,仅 1 家机构来自,为香港中文大学。值得一 提的是,数据集与数据机构的基尼系数有升G的趋势,即数据集被少数 Top 机构或特定数 据库掌控的集中有所增加。



 
【声明:转载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,文章内容仅供参考,如有侵权,请联系删除。】
 
推荐信息
语音标注质量评估算法优缺点
WER算法可以分数字,英文,中文等情况分别来看;当数据量大时,性能会特别差;SER算法对句子的整体性评估要优,句错误率较高
文本标注质量评估算法优缺点
ROUGE算法参考标注越多待评估数据的相关性就越高;METEOR算法评估时考虑了同义词匹配,提高了评估的准确率;SPICE算法对图像标注进行评估
图像标注质量评估算法优缺点
MV算法简单易用,常用作其他众包质量控制算法的基准算法;EM算法可以收敛到局部最大化;RY算法将分类器与 Ground-truth 结合起来进行学习
数据清洗缺失数据的处理方法
数据清洗作为数据预处理中至关重要的环节,清洗后数据的质量很大程度上决定了 AI算法的有效性,数据可能存在缺失值,噪声数据,重复数据等质量问题
数据采集三种常见方式
实时的在线分析系统和分布式并发的离线分析系统;通过网络爬虫或网站公开API方式获取大数据信息;采集的对象包括视频,图片,音频和文本等多种类型
建立数据集的流程 数据集产生
数据清洗,由于采集到的数据可能存在缺失值,噪声数据,重复数据等质量问题; 模型训练人员会利用标注好的数据训练出需要的算法模型
AI大模型需要什么样的数据集
通过提升数据的质量和数量来提升整个模型的训练效果,我们认为未来数据成本在大模型开发中的成本占比或将提升,主要包括数据采集,清洗,标注等成本
TidyBot家庭服务机器人完成房间整理
机器人在基准数据集中对看不见的物体实现 91.2% 的准确率,TidyBot的真实移动操作器演示了该方法,该操纵器在真实世界的测试场景中成功地收起了85.0%的对象
智能运输机器人
AGV无人运输机器人-料箱版
AGV无人运输机器人-标准版
AGV无人运输机器人-料箱版(钣金材质)
AGV无人运输机器人-货架版(钣金材质)
AGV无人运输机器人-货架版(亮面不锈钢材质)
AGV无人运输机器人-开放版
行业动态
» AMR企业未来发展的建议:加强产学研合作 拓展应用领域与场景 突破关键技术
» 智能无人运输车AMR选型建议:安全性 稳定性 兼容性 成本和可维护性
» 物流企业自动化搬运项目:117台XPL搬运机器人用于快运件转运+物料暂存
» 工具制造业5G智慧工厂:10+台潜伏AGV+托盘式叉车用于线边仓转运
» 轮胎行业项目:2台室内平衡重式无人叉车LXP15-B用于半成品、成品自动化出入库
» 汽车零部件园区无人化物流项目:室外无人驾驶重载AGV用于车间到车间之间的物流运输
» 汽车行业智能搬运项目:30台XPL搬运机器人用于产线送料和成品转运
» 汽车新能源产线智慧物流项目-31台潜伏AGV应用环汽车总装车间转运
» 汽车行业多品类AGV整合项目:叉车AGV、潜伏牵引AGV、举升AGV、承载式双车联动AGV、功能型A
» 乘用车动力总成车间零部件集配项目-9台承载辊道式AMR,用于动力总成线边供给
 
首页    产品    方案    底盘    参数    关于
咨询热线:4006-935-088 / 4006-937-088     客服热线: 4008-128-728
版权所有 @ 创泽智能机器人集团股份有限公司    鲁ICP备18039973号-2    运营中心 / 北京·清华科技园九号楼    生产中心 / 山东省日照市开发区太原路71号