对比国产大模型辅助读论文的能力,一家完胜,有两家差的离谱
时间:2024-04-25 20:50:28 来源:网络cs 作者:康由 栏目:卖家故事 阅读:
试图找到一些利用免费大模型增加生产力的途径,由于chatgpt给我封号了,所以只测试了几款国产大模型。
我们挑选的是在SuperCLUE上得分靠前的几款国产免费大模型:文心一言3.5,通义千问,讯飞星火,豆包,以及没有出现在榜单上,但是特点是擅长读长文档的kimi。
我们读的是这篇综述类的论文,总长度是60页,文档大小是9.6MB
我们进行两轮测试,1)总结文章主要内容,以及2)提取文章里提到的论文,并按照技术类别和技术演进路线进行呈现。
如果AI能完全实现这两条,那么将极大帮助我们节约时间,甚至我们可以不用自己去看原文了。如果能实现第一条,并部分完成第二条,那就算勉强可用,可以帮助我们节约一定时间。
测试结果如下:
首先是差的离谱,完全不可用的两款:字节的豆包和讯飞的星火。
1,豆包,你在糊弄我?
豆包没有上传文档的功能,必须要给出文档的网址。我把这篇论文的arxiv地址发给了模型。然后,豆包给出了完全牛头不对马嘴的归纳。
这是一篇vision Transformer用于医学图像的综述,结果,答案不知道为什么回答的是图神经网络用于预测蛋白质,可以说完全莫名其妙。我再三检查了网址,我并没有给错。
豆包的结果可以说非常离谱!
最搞笑的来了,我换了一篇论文,《SOTR: Segmenting Objects with Transformers》,给它分析,然后豆包给我的分析结果和前面一篇完全一样!!!还是图神经网络用于预测蛋白质!
原来你小子在糊弄我!
2,星火,完全不可用
用文档问答插件上传pdf文档后,显示正在处理。其他大模型一般在一分钟内可以处理完。但是星火处理了半个小时,依然没有完成。
刷新后重新上传依然如此,无法解析完成。
接下来的2个都属于勉强可用的范畴:文心一言和通义千问
3,文心一言,勉强可用
1)如果只是简单总结论文,文心一言没什么问题:
但是如果我们要求更多的技术细节,文心一言就不行了。完全把握不住重点,而且回答内容没有组织和归纳,看得人头大。
我再次强调需要的是技术上的细节,依然把握不住重点,对于阅读这篇综述并无帮助,最多让你知道这篇综述主题是什么,仅此而已。
2)然后我要求它从这篇综述内提取提到的论文,这个任务完全失败。
它认为这篇综述里没有提到具体的论文,笑话。
4,通义千问,比文心一言强不少
1)简单总结论文也是没什么问题,比文心一言额外多提供了一点信息。
我要求更详细的内容,跟文心一言一样,需要多次提示,不过至少多次提示之后,它确实开始总结本文技术方面的内容了。虽然依然很简略,和我的设想差距很远。
2)第二个任务,从综述里提取论文并归类,通义千问也失败了。
它给出了综述里研究的类别,但是无法提取论文
在我进一步追问下,它甚至给出了综述里不同研究类别论文的占比,但是就是无法提取具体的论文。
完胜选手:
5,kimi,完胜但不完美
1)首先第一个任务总结文章内容,不需要追问,第一个回答就表现出极好的逻辑归纳能力,让人一下子就把我了文章内容的结构。
在我追问后,回答也更符合我的要求,主要集中在综述里提到的技术上
2)第二个任务,部分完成
太长就不贴完整了
这就是我想要的功能。
当然可惜的是,kimi依然无法完整提取所有涉及到的论文,只提取了25篇论文,只占综述提到的一小部分。
但是就是这样的表现已经是碾压式领先其他四家。
最后总结,单论辅助阅读论文的能力:
kimi>>通义千问>文心一言>>>>>>>>>>>>>>>>>>>>>豆包=讯飞星火
本文链接:https://www.kjpai.cn/gushi/2024-04-25/162325.html,文章来源:网络cs,作者:康由,版权归作者所有,如需转载请注明来源和作者,否则将追究法律责任!