详细信息

国内缺乏高质量数据集的主要原因

编辑：来源：华泰证券时间：2023/5/18

国内缺乏G质量数据集主要有以下几方面的原因：

1）G质量数据集需要巨大资金投入，当前国内数据挖掘和数据治理的力度不足；

一个好的数据集应该从D层设计、标注规范、标注质量把控以及发布后更新升J各个方面严格把关，这个过程是需要经费、人力等综合因素的投入，一般是长期投入的企业或者自然基金项目才有动力开展这样的工作

2）国内相关公司不具有开源意识，数据无法在市场上自由流通；

互联网公司拥有服务自身应用的数据集因竞争原因不愿公开，工业界里一些公司因保密原因不愿公开数据，传统金融L域公司重视合规保护；同时开源政策及社区不活跃，开源支持不到位，后期服务跟不上

3）国内相关公司成立较晚，数据积累相对国外公司更少；

国内互联网公司成立普遍晚于国外（亚马逊 1994 年，阿里巴巴 1999 年成立；谷歌 1998 年，百度 2000 年成立），早年互联网公司以模仿国外的业务为主，在数据上的沉淀和积累较少，特别是特有中文数据

4）学术L域中文数据集受重视程度低；

使用中文数据集的论文往往不好发表，而G质量、受认可的中文会议期刊的数量不够多。从而使得学术界在发展中文数据集上的动力不足

5）国产数据集市场影响力及普及度较低等。

目前国内大部分数据集产品仅限于企业内部使用，未经过市场检验，导致数据库创新能力不足。使得企业开发数据集的意愿较低，同时大模型训练普遍产学结合，学术界对中文数据集的忽视也会影响到业界

【声明：转载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述，文章内容仅供参考，如有侵权，请联系删除。】

推荐信息

中国AI大模型数据集从哪里来
从数据来源看,国内各行业数据差异化发展,2021年政府,传媒,专业服务,零售等行业数据量占比较高,接近90%的数据为非结构化数据

语音标注质量评估算法优缺点
WER算法可以分数字,英文,中文等情况分别来看;当数据量大时,性能会特别差;SER算法对句子的整体性评估要优,句错误率较高

文本标注质量评估算法优缺点
ROUGE算法参考标注越多待评估数据的相关性就越高;METEOR算法评估时考虑了同义词匹配,提高了评估的准确率;SPICE算法对图像标注进行评估

图像标注质量评估算法优缺点
MV算法简单易用,常用作其他众包质量控制算法的基准算法;EM算法可以收敛到局部最大化;RY算法将分类器与 Ground-truth 结合起来进行学习

数据清洗缺失数据的处理方法
数据清洗作为数据预处理中至关重要的环节,清洗后数据的质量很大程度上决定了 AI算法的有效性,数据可能存在缺失值,噪声数据,重复数据等质量问题

数据采集三种常见方式
实时的在线分析系统和分布式并发的离线分析系统;通过网络爬虫或网站公开API方式获取大数据信息;采集的对象包括视频,图片,音频和文本等多种类型

建立数据集的流程数据集产生
数据清洗,由于采集到的数据可能存在缺失值,噪声数据,重复数据等质量问题; 模型训练人员会利用标注好的数据训练出需要的算法模型

AI大模型需要什么样的数据集
通过提升数据的质量和数量来提升整个模型的训练效果,我们认为未来数据成本在大模型开发中的成本占比或将提升,主要包括数据采集,清洗,标注等成本

智能运输机器人

AGV无人运输机器人-料箱版

AGV无人运输机器人-标准版

AGV无人运输机器人-料箱版（钣金材质）

AGV无人运输机器人-货架版（钣金材质）

AGV无人运输机器人-货架版（亮面不锈钢材质）

AGV无人运输机器人-开放版

行业动态

» AMR企业未来发展的建议:加强产学研合作拓展应用领域与场景突破关键技术