Claude-3力压GPT-4荣膺最佳大语言模型

描述

  近日,LMSYS Org发布最新的基准测试报告,显示Cordulas公司的Claude-3在平台大语言模型中的得分略胜OpenAI的GPT-4。

  值得注意的是,LMSYS Org是由加州大学伯克利分校、加州大学圣地亚哥分校以及卡内基梅隆大学共同发起设立的研究组织。

  日前,这家机构推出了一项名为Chatbot Arena的服务,这是针对大语言模型(LLM)进行评估的基准平台,该平台采用众包形式对大型语言模型进行匿名随机竞争打分,参考源于竞技比赛领域中广泛应用的Elo评分体系。

  分数评价结果主要取决于用户的投票意向,每次由系统随机挑选两个不同的大语言模型参与与用户的对话,同时,为保障客观性,匿名选择哪个版本的大模型表现优秀至关重要。

  自去年启动以来,GPT-4一直占据评测榜单之首。然而,昨日,由Anthropos推出的Claude 3 Opus以微弱优势战胜了GPT-4,将OpenAI的LLM挤出了首位。

  考虑到细微差距及误差风险,委员会决定授予Claude 3与GPT-4并列第一的荣誉,GPT-4的另外一个预设版也被列入并列第一的行列。此外,更引人注目的是,Claude 3 Haiku成功跻身前十名。Haiku是Anthropos针对本地规模的新型模型,功能类似谷歌的GeminiNano。

  相较Opus参数高达几万亿,Haiku体型更为紧凑,运行速度更快。据LMSYS数据显示,Haikn在评测成绩中排名第七,与GPT-4表现不遑多让。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分