盘点2023年全球十大大模型,仅开源占了半壁江山

zhoubaixue7个月前科技知识90

细数2023年的新技术,生成式AI和AI聊天机器人不可忽视。其背后的大模型,更是令人疯狂。尤其是在OpenAI发布ChatGPT之后,大公司、小公司和开源社区更是争先恐后的推出自己的大模型。


据统计,到目前为止,全球已经发布了数百个大模型。但是,哪些是最有能力的?哪些是最受业界关注的?请关注笔者列出的《2023年全球最佳大模型》。

1. GPT-4

OpenAI的GPT-4模型是2023年最好的AI大模型,没有之一。GPT-4模型于2023年3月发布,展示了其强大的能力,包括复杂的推理能力、高级编码能力、多种学术学习能力、可媲美人类水平表现的能力等。


事实上,它是第一个可以同时接受文本和图像作为输入的多模态模型。虽然ChatGPT还没有添加多模式功能,但一些用户已经通过由GPT-4模型提供支持的Bing Chat获得了访问权限。



与ChatGPT-3.5相比,GPT-4模型在几个类别的实际评估中得分接近80%。OpenAI还通过使用来自人类反馈的强化学习(RLHF)与领域专家进行对抗性测试,竭尽全力使GPT-4模型更符合人类价值观。


GPT-4模型已经在超过1万亿个参数上进行了训练,支持32768个令牌的最大上下文长度。到目前为止,我们还没有太多关于GPT-4内部架构的信息,但最近的报道透露,GPT-4是一个混合模型,由8个不同的模型组成,每个模型都有2200亿个参数


最后,您可以使用ChatGPT插件,并使用带有GPT-4模型的Bing浏览网页。唯一的缺点是它的响应速度很慢,计算时间要长得多,这迫使开发人员使用较旧的GPT-3.5模型。总体来说,OpenAI GPT-4模型是2023年迄今为止你能使用的最好的大模型。


2.PaLM 2 (Bison-001)

接下来是来自谷歌的PaLM 2 AI模型,它也是2023年最好的大型语言模型之一。Google在PaLM 2模型上专注于常识推理、形式逻辑、数学和20多种语言的高级编码。据说,最大的PaLM 2模型已经在5400亿个参数上进行了训练,最大上下文长度为4096个令牌。



谷歌公布了四款基于PaLM 2的不同版本的大模型,即Gecko、Otter、Bison、Unicorn。其中,Bison目前可用,它在MT-Bench测试中得分为6.40分,而GPT-4得分高达8.99分。


然而,在WinoGrande、StrategyQA、XCOPA等推理评估和其他测试中,PaLM 2表现出色,优于GPT-4。它也是一个多语言模型,可以理解不同语言的习语、谜语和细致入微的文本。这是其他大模型难以解决的问题。


PaLM 2的另一个优点是它的响应速度非常快,可以同时提供三个响应。您可以在谷歌的Vertex AI平台上测试PaLM 2(Bison-001)模型,也可以使用运行在PaLM2上的GoogleBard。

3. Claude v1

也许你还不知道,Claude是一个强大的大模型,由谷歌支持的Anthropic开发。它是由前OpenAI员工共同创立的,其方法是构建有用、诚实和无害的人工智能助手。在多个基准测试中,Anthropic的Claude v1和Claude Instant模型显示出了巨大的前景。事实上,Claude v1在MMLU和MT-Bench测试中的表现要好于PaLM 2。



它接近于GPT-4,在MT-Bench测试中得分为7.94,而GPT-4得分为8.99。在MMLU基准测试中,Claude v1获得75.6分,GPT-4获得86.4分。Anthropic也成为第一家在其Claude-instant-100k模型中提供10万代币作为最大上下文窗口的公司。你基本上可以在一个窗口中加载近75000个单词。这太疯狂了,对吧?


4. Cohere

Cohere是一家人工智能初创公司,由曾在谷歌大脑团队工作的前谷歌员工创立。它的联合创始人之一Aidan Gomez参与了Transformer架构的“Attention is all you Need”论文的撰写。与其他AI公司不同,Cohere为企业服务,并为企业解决生成式AI用例。Coherence有很多模型,从小到大,从只有6B个参数到训练了52B个参数的大模型。



他们最近推出的模型——Cohere Command以其准确性和稳定性赢得了赞誉。根据斯坦福HELM的说法,Cohere Command模型的准确性在同行中得分最高。除此之外,Spotify、Jasper、HyperWrite等公司都在使用Cohere的模型来提供人工智能体验。


在定价方面,Cohere每产生100万个代币收费15美元,而OpenAI对同样数量的代币收费4美元。然而,就准确性而言,它比其他大模型要好。因此,如果你在经营一家企业,并且正在寻找最好的大模型整合到你的产品中,你可以看看Cohere。

5. Falcon

Falcon是这个列表上的第一个开源大模型,它的排名超过了迄今为止发布的所有开源模型,包括LLaMA、StableLM、MPT等等。它是由阿联酋技术创新研究所开发的。关于Falcon最好的一点是,它已经使用Apache 2.0许可证开源,这意味着您可以将该模型用于商业目的,也没有版税或限制。



到目前为止,阿联酋技术创新研究所已经发布了两种Falcon模型,分别接受了40B和7B参数的训练。开发人员建议,这些都是原始模型,如果你想用它们聊天,你应该选择Falcon-40B-Instruct模型,它针对大多数用例进行了微调。


Falcon模型主要训练英语、德语、西班牙语和法语,但它也可以用意大利语、葡萄牙语、波兰语、荷兰语、罗马尼亚语、捷克语和瑞典语工作。所以,如果你对开源人工智能模型感兴趣,首先看看Falcon。


6. LLaMA

自从LLaMA模型在网上泄露后,Meta就开始全力投入开源。它正式发布了各种类型的LLaMA模型,从70亿个参数到650亿个参数。Meta表示,其LLaMA-13B模型优于OpenAI的GPT-3模型,该模型已在1750亿个参数上进行了训练。许多开发人员正在使用LLaMA进行微调并创建一些最好的开源模型。话虽如此,但请记住,LLaMA仅用于研究,不能用于商业用途。



谈到LLaMA 65B模型,它在大多数用例中都显示出了惊人的能力。它在Open LLM排行榜上名列前十。Meta表示,它没有进行任何专有训练。相反,该公司使用了来自CommonCrawl、C4、GitHub、ArXiv、维基百科、StackExchange等网站的公开数据。


简单地说,在Meta发布LLaMA模型后,开源社区看到了快速的创新,并提出了用新的技术来创造更小、更高效的模型。

7. Guanaco-65B

在几个LLaMA衍生的模型中,Guanaco-65B被证明是最好的开源大模型,仅次于Falcon模型。在MMLU测试中,它的得分为52.7,而Falcon模型的得分为54.1。同样,在TruthfulQA评估中,Guanaco的得分为51.3,Falcon的得分更高,为52.5。Guanaco有四种类型:7B、13B、33B和65B型号。Tim Dettmers和其他研究人员在OASST1数据集上对所有模型进行了微调。



至于Guanaco是如何微调的,研究人员提出了一种名为QLoRA的新技术,该技术可以有效地减少内存使用,同时保持完整的16位任务性能。在维库纳基准上,Guanaco-65B模型甚至以更小的参数优于GPT-3.5模型。


最棒的是,65B模型在短短24小时内就在一个拥有48GB VRAM的GPU上进行了训练。这表明开源模型在降低成本和保持质量方面已经取得了长足的进步。总之,如果你想尝试离线的本地大模型,你绝对可以相信Guanaco。


8. Vicuna 33B

Vicuna是LMSYS开发的另一个强大的开源大模型。与许多其他开源模型一样,它也是从LLaMA衍生而来的。它使用监督指导进行了微调,训练数据是从sharegpt.com网站上收集的。这是一个自回归的大模型,基于330亿个参数进行训练。


在LMSYS自己的MT Bench测试中,它得了7.12分,而最好的专有型号GPT-4得了8.99分。在MMLU测试中,它也获得了59.2分,GPT-4获得了86.4分。尽管它是一个小得多的模型,Vicuna的表现仍然突出。

9. MPT-30B

MPT-30B是另一个与LLaMA衍生模型竞争的开源大模型。它是由Mosaic ML开发的,并对来自不同来源的大量数据进行了微调。它使用来自ShareGPT Vicuna、Camel AI、GPTeacher、Guanaco、Baize和其他的数据集。这个开源模型最棒的部分是它有8K令牌的上下文长度。



此外,它优于OpenAI的GPT-3模型,在LMSYS的MT-Bench测试中得分为6.39。如果您正在寻找一个小模型在本地运行,MPT-30B模型是一个很好的选择。

10 . 30B-Lazarus

30B-Lazarus模型是由CalderaAI开发的,它使用LLaMA作为其基础模型。开发人员使用了来自多个模型的经过lora调优的数据集,包括Manticore、SuperCOT-LoRA、SuperHOT、GPT-4 Alpaca-LoRA等。因此,该模型在许多LLM基准测试中表现得更好。它在HellaSwag的得分为81.7,在MMLU的得分为45.2。


如果您的用例主要是文本生成而不是会话聊天,那么30B Lazarus模型可能是一个不错的选择。


相关文章

重磅!蚂蚁集团面临五大整改,需合规开展资产证券化业务

蚂蚁科技集团股份有限公司(下称“蚂蚁集团”)在被二次约谈后,已宣布成立工作组全面落实整改要求。人民银行、银保监会、证监会、外汇局等金融管理部门于12月26日联合约谈了蚂蚁集团,并提出五项整改要求。要求...

腾讯金融旗下财付通被央行开出876万元罚单

12月31日,中国人民银行深圳市中心支行公布了年底一批共四则行政处罚决定,微信支付的运营主体财付通支付科技有限公司(下称“财付通”)也在其中。罚单显示,因违反支付业务相关规定,财付通支付科技有限公司被...

QQ 将上线新功能

11 月 19 日消息 据悉,目前 QQ 正在内测 QID 功能,该功能可以让用户创建一个开头字母后面数字的 7-10 位的 ID。据悉,QQ 预计会在 11 月 25 日上线 QID 功能,和微信号...

最高法明确滥用人脸识别构成侵权

来源:科技日报  科技日报讯 (记者代小佩)7月28日,最高人民法院正式发布《最高人民法院关于审理使用人脸识别技术处理个人信息相关民事案件适用法律若干问题的规定》(以下简称《规定》),强化个人信息司法...

抖音之后的社区团购,表明互联网失去创造力

抖音之后的社区团购,表明互联网失去创造力

欢迎关注“创事记”的微信订阅号:sinachuangshiji文/林文龙 曹杨编辑 | 林文龙来源:燃财经(ID:chaintruth)原创12月11日,人民日报发文评论时下火热的社区团购,奉劝大型互...

支付宝向微信转账新闻的个人观点

今天去看科技新闻,发现各大互联网媒体都报道了支付宝开通了支付宝向微信转账的功能的新闻,仔细一看,非常扯皮,只是一个分享功能,最后钱还是会转到支付宝账号里的,支付宝有支付宝的闭环,微信有微信的闭环,都涉...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。