当前位置：首页 > 卖家故事 > 大模型评测数据集：MMLU、MMCU、C-Eval

大模型评测数据集：MMLU、MMCU、C-Eval

时间：2024-04-15 13:45:27 来源：网络cs 作者：康由栏目：卖家故事阅读：

标签：数据模型

阅读本书更多章节>>>>

面对国内大语言模型万箭齐发的局面，如何更好地提升大语言模型对中文的理解能力，更好地服务于全球的中文用户，甲骨易AI研究院首创性地推出了高质量中文评测数据集——一款名为“超越”(Massive Multitask Chinese Understanding，简称MMCU)的大规模的多任务测试数据集，填补了中文大语言模型能力测试缺失的一大空白。

ChatGPT 的出现，使中文社区意识到与国际领先水平的差距。近期，中文大模型研发如火如荼，但中文评价基准却很少。在 OpenAI GPT 系列 / Google PaLM 系列 / DeepMind Chinchilla 系列 / Anthropic Claude 系列的研发过程中，MMLU / MATH / BBH 这三个数据集发挥了至关重要的作用，因为它们比较全面地覆盖了模型各个维度的能力。最值得注意的是 MMLU 这个数据集，它考虑了 57 个学科，从人文到社科到理工多个大类的综合知识能力。DeepMind 的 Gopher 和 Chinchilla 这两个模型甚至只看 MMLU 的分数，因此我们想要构造一个中文的，有足够区分度的，多学科的基准榜单，来辅助开发者们研发中文大模型。我们花了大概三个月的时间，构造了一个覆盖人文，社科，理工，其他专业四个大方向，52 个学科（微积分，线代 …），从中学到大学研究生以及职业考试，一共 13948 道题目的中文知识和推理型测试集，我们管它叫 C-Eval，来帮助中文社区研发大模型。

C-Eval: 构造中文大模型的知识评估基准_数据派THU的博客-CSDN博客

阅读本书更多章节>>>>

本文链接：https://www.kjpai.cn/gushi/2024-04-15/158995.html，文章来源：网络cs，作者：康由，版权归作者所有，如需转载请注明来源和作者，否则将追究法律责任！

上一篇：java.lang.IllegalArgumentException: 找到多个名为spring_web的片段。这是不合法的相对排序。

下一篇：返回列表

跨境派

大模型评测数据集：MMLU、MMCU、C-Eval

相关文章

文章评论