详细信息

CAIL2018数据集中国法律数据

编辑：来源：创泽集团时间：2023/5/19

CAIL2018 数据集：于 2018 年由清华大学、北京大学、科学院软件研究所和司法大数据研究院联合发布。CAIL2018是D一个用于判决预测的大规模法律数据集，收录了G人民法院公布 260 万件刑事案件，是现有判决预测工作中其他数据集的数倍。对判断结果的注释也更加详细和丰富。它由适用的法律条款、指控和刑期组成，根据案件的事实描述而定。

【声明：转载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述，文章内容仅供参考，如有侵权，请联系删除。】

推荐信息

中国开源大语言模型数据集 WuDaoCorpora数据集
WuDaoCorpora数据集采用 20 多种规则从 100TB 原始网页数据中清洗得出最终数据集,注重隐私数据信息的去除,支持多领域预训练模型的训练

中国开源大语言模型数据集 DuReader数据集
DuReader是一个大规模的开放域中文机器阅读理解数据集,问题和文档基于百度搜索和百度知道,答案是手动生成的,由200K问题,420K答案和1M文档组成

中国多模态大模型数据集构建
阿里M6大模型参数规模达到 1000 亿,构建了最大的中文多模态预训练数据集 M6-Corpus;百度ERNIE-ViLG大模型参数规模达到 100 亿

中国三个大语言模型数据集构建
百度Plato-XL大模型预训练语料规模达千亿级 token,模型规模高达 110 亿参数;华为盘古大模型开源了盘古α和盘古α增强版两个版本

国内优质中文数据集的重要来源垂直内容平台
知乎作为问答知识平台,拥有超过4300万创作者产生的超过3.5亿条优质中文问答内容;垂类内容平台的数据可以作为细分领域大模型精确训练的基础

国内科技互联网厂商训练大模型基于的数据基础
百度文心大模型训练特有数据主要包括万亿级的网页数据;阿里通义大模型的训练数据主要来自阿里达摩院;腾讯混元大模型特有的训练数据主要来自微信公众号

国内缺乏高质量数据集的主要原因
高质量数据集需要巨大资金投入,当前国内数据挖掘和数据治理的力度不足;国内相关公司成立较晚,数据积累相对国外公司更少

中国AI大模型数据集从哪里来
从数据来源看,国内各行业数据差异化发展,2021年政府,传媒,专业服务,零售等行业数据量占比较高,接近90%的数据为非结构化数据

智能运输机器人

AGV无人运输机器人-料箱版

AGV无人运输机器人-标准版

AGV无人运输机器人-料箱版（钣金材质）

AGV无人运输机器人-货架版（钣金材质）

AGV无人运输机器人-货架版（亮面不锈钢材质）

AGV无人运输机器人-开放版

行业动态

» AMR企业未来发展的建议:加强产学研合作拓展应用领域与场景突破关键技术

» 智能无人运输车AMR选型建议:安全性稳定性兼容性成本和可维护性

» 物流企业自动化搬运项目:117台XPL搬运机器人用于快运件转运+物料暂存

» 工具制造业5G智慧工厂:10+台潜伏AGV+托盘式叉车用于线边仓转运

» 轮胎行业项目:2台室内平衡重式无人叉车LXP15-B用于半成品、成品自动化出入库

» 汽车零部件园区无人化物流项目:室外无人驾驶重载AGV用于车间到车间之间的物流运输

» 汽车行业智能搬运项目:30台XPL搬运机器人用于产线送料和成品转运

» 汽车新能源产线智慧物流项目-31台潜伏AGV应用环汽车总装车间转运

» 汽车行业多品类AGV整合项目:叉车AGV、潜伏牵引AGV、举升AGV、承载式双车联动AGV、功能型A

» 乘用车动力总成车间零部件集配项目-9台承载辊道式AMR,用于动力总成线边供给

CAIL2018数据集 中国法律数据

CAIL2018数据集中国法律数据