详细信息 |
中国三个大语言模型数据集构建 |
编辑: 来源:华泰证券 时间:2023/5/19 |
类似海外大语言模型,大语言模型的预训练数 据集也主要来自互联网抓取数据(如 Common Crawl、中文公共社交媒体抓取等)、网络百 科全书(如百度百科、搜狗百科)、书籍等等;充分借助已有的G质量开源数据集,例 如对 Common Crawl 等进行二次处理。 百度 Plato-XL 大模型:百度于 2021 年发布 PLATO-XL,包括中英文 2 个对话模型,预训 练语料规模达千亿J token,模型规模G达 110 亿参数。预训练语料库分为:1)英语:会话 样本从 Reddit 评论中提取,这些评论由第三方收集,并在 pushshift.io 上公开发布,遵循 了 PLATO-2 的精心清洗过程;2)中文:预训练数据来自公共L域的社交媒体,过滤后训 练集中有 1.2 亿个样本。 华为盘古大模型:华为于 2021 年发布盘古,是业界个 2000 亿参数以中文为核心的预训 练生成语言模型,目前开源了盘古α和盘古α增强版两个版本,并支持 NPU 和 GPU 两个 版本,支持丰富的场景应用,在知识问答、知识检索、知识推理、阅读理解等文本生成L 域表现突出,具备较强的少样本学习的能力。 腾讯 WeLM 大模型:腾讯于 2022 年发布 WeLM,数据来源主要分为三部分:1)Common Crawl:Common Crawl 于 2020.08 至 2022.01 期间的文本内容,使用 langdetect 工具过 滤掉非中文的文本;2)特定L域语料库:混合了来自各种来源的数据,包括新闻、书籍、 流行在线论坛以及学术著作,仅中文数据。3)英文数据:添加了从上述来源收集到的约 750GB 的英语数据。数据中有大量的噪音如胡言乱语或模板文本、冒犯性语言、占位符文 本和源代码等,先应用一组基于规则的过滤器,再在剩余的数据上手动构建好坏数据分 类器提升数据清理泛化能力。
|
【声明:转载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,文章内容仅供参考,如有侵权,请联系删除。】 |
推荐信息 |
国内优质中文数据集的重要来源 垂直内容平台
知乎作为问答知识平台,拥有超过4300万创作者产生的超过3.5亿条优质中文问答内容;垂类内容平台的数据可以作为细分领域大模 型精确训练的基础
国内科技互联网厂商训练大模型基于的数据基础
百度文心大模型训练特有数据主要包括万亿级的网页数据;阿里通义大模型的训练数据主要来自阿里达摩院;腾讯混元大模型特有的训练数据主要来自微信公众号
国内缺乏高质量数据集的主要原因
高质量数据集需要巨大资金投入,当前国内数据挖掘和数据治理的力度不足;国内相关公司成立较晚,数据积累相对国外公司更少
中国AI大模型数据集从哪里来
从数据来源看,国内各行业数据差异化发展,2021年政府,传媒,专业服务,零售等行业数据量占比较高,接近90%的数据为非结构化数据
语音标注质量评估算法优缺点
WER算法可以分数字,英文,中文等情况分别来看;当数据量大时,性能会特别差;SER算法对句子的整体性评估要优,句错误率较高
文本标注质量评估算法优缺点
ROUGE算法参考标注越多待评估数据的相关性就越高;METEOR算法评估时考虑了同义词匹配,提高了评估的准确率;SPICE算法对图像标注进行评估
图像标注质量评估算法优缺点
MV算法简单易用,常用作其他众包质量控制算法的基准算法;EM算法可以收敛到局部最大化;RY算法将分类器与 Ground-truth 结合起来进行学习
数据清洗缺失数据的处理方法
数据清洗作为数据预处理中至关重要的环节,清洗后数据的质量很大程度上决定了 AI算法的有效性,数据可能存在缺失值,噪声数据,重复数据等质量问题 |
智能运输机器人 |
AGV无人运输机器人-料箱版 |
AGV无人运输机器人-标准版 |
AGV无人运输机器人-料箱版(钣金材质) |
AGV无人运输机器人-货架版(钣金材质) |
AGV无人运输机器人-货架版(亮面不锈钢材质) |
AGV无人运输机器人-开放版 |
行业动态 |
咨询热线:4006-935-088 / 4006-937-088
客服热线:
4008-128-728
版权所有 @ 创泽智能机器人集团股份有限公司 鲁ICP备18039973号-2 运营中心 / 北京·清华科技园九号楼 生产中心 / 山东省日照市开发区太原路71号 |