详细信息 |
中国多模态大模型数据集构建 |
编辑: 来源:华泰证券 时间:2023/5/19 |
网页抓取、自有数据和开源数据集是多模态大模型数据集的重要来源: 1)网页抓取图文对:例如阿里 M6 大模型、百度 ERNIE-ViLG 大模型都从 网页中抓取文本-图片对,然后经过一定过滤,形成终数据集的一部分; 2)自有数据:例 如阿里 M6 大模型有来自电商的图文数据,百度 ERNIE-ViLG 大模型从内部图像搜索引擎 中收集查询文本和对应的用户点击图像; 3)开源数据集:例如百度 ERNIE-ViLG 大模型的 部分图文对数据来自开源的 CC 和 CC12M,并通过百度翻译 API 翻译。 阿里 M6 大模型:于 2021 年发布,参数规模达到 1000 亿。阿里构建了大的中文多模态 预训练数据集 M6-Corpus,包含超过 1.9 TB 图像和 292GB 文本,涵盖了百科全书、问答、 论坛讨论、产品说明等类型的数据集。研究人员设计了完善的清洁程序:1)文本数据:删 除 HTML 标记和重复的标点符号,只保留中文和英文的字符和标点符号。删除短于 5 个字 符的标题和短于 15 个字符的文本内容。使用“内部垃圾邮件检测器”筛选包含某些政治问 题、色情或脏话等不合适的句子。建立一个语言模型进行评估文本的困惑程度,去掉困惑 程度G的句子;2)图片数据:只有超过 5000 像素的图像才有资格被保留用于预训练。 百度 ERNIE-ViLG 大模型:于 2021 年发布,参数规模达到 100 亿。百度构建了一个由超 过 1.45 亿对G质量中文图像-文本对组成的大规模图像-文本数据集,数据来源如下: 1)中 文网页。从各种中文网页中抓取了 8 亿对原始的中文替代文字描述和图片,进行了几个步 骤的过滤,总共收获了 7000 万对文本-图片,过滤规则主要包括文本长度、文本内容和图 像-文本相似度;2)图片搜索引擎:从内部图像搜索引擎中收集了大约 6000 万个查询文本 和相应的用户点击图像;3)开源图像-文本数据集:从 CC 和 CC12M 收集了 1500 万 文本图像对,这些数据集中的字幕通过百度翻译 API 翻译成中文。 InternVideo 大模型:由上海人工智能实验室等、南大、港大、复旦、中科院深圳先进技术 研究院等于 2022 年发布,使用了 6 个来自各个L域的开源数据集和自采视频片段。
|
【声明:转载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,文章内容仅供参考,如有侵权,请联系删除。】 |
推荐信息 |
中国三个大语言模型数据集构建
百度Plato-XL大模型预训练语料规模达千亿级 token,模型规模高达 110 亿参数;华为盘古大模型开源了盘古α和盘古α增强版两个版本
国内优质中文数据集的重要来源 垂直内容平台
知乎作为问答知识平台,拥有超过4300万创作者产生的超过3.5亿条优质中文问答内容;垂类内容平台的数据可以作为细分领域大模 型精确训练的基础
国内科技互联网厂商训练大模型基于的数据基础
百度文心大模型训练特有数据主要包括万亿级的网页数据;阿里通义大模型的训练数据主要来自阿里达摩院;腾讯混元大模型特有的训练数据主要来自微信公众号
国内缺乏高质量数据集的主要原因
高质量数据集需要巨大资金投入,当前国内数据挖掘和数据治理的力度不足;国内相关公司成立较晚,数据积累相对国外公司更少
中国AI大模型数据集从哪里来
从数据来源看,国内各行业数据差异化发展,2021年政府,传媒,专业服务,零售等行业数据量占比较高,接近90%的数据为非结构化数据
语音标注质量评估算法优缺点
WER算法可以分数字,英文,中文等情况分别来看;当数据量大时,性能会特别差;SER算法对句子的整体性评估要优,句错误率较高
文本标注质量评估算法优缺点
ROUGE算法参考标注越多待评估数据的相关性就越高;METEOR算法评估时考虑了同义词匹配,提高了评估的准确率;SPICE算法对图像标注进行评估
图像标注质量评估算法优缺点
MV算法简单易用,常用作其他众包质量控制算法的基准算法;EM算法可以收敛到局部最大化;RY算法将分类器与 Ground-truth 结合起来进行学习 |
智能运输机器人 |
AGV无人运输机器人-料箱版 |
AGV无人运输机器人-标准版 |
AGV无人运输机器人-料箱版(钣金材质) |
AGV无人运输机器人-货架版(钣金材质) |
AGV无人运输机器人-货架版(亮面不锈钢材质) |
AGV无人运输机器人-开放版 |
行业动态 |
咨询热线:4006-935-088 / 4006-937-088
客服热线:
4008-128-728
版权所有 @ 创泽智能机器人集团股份有限公司 鲁ICP备18039973号-2 运营中心 / 北京·清华科技园九号楼 生产中心 / 山东省日照市开发区太原路71号 |