盘点2023年全球十大大模型，仅开源占了半壁江山

zhoubaixue7个月前 (09-22)科技知识90

细数2023年的新技术，生成式AI和AI聊天机器人不可忽视。其背后的大模型，更是令人疯狂。尤其是在OpenAI发布ChatGPT之后，大公司、小公司和开源社区更是争先恐后的推出自己的大模型。

据统计，到目前为止，全球已经发布了数百个大模型。但是，哪些是最有能力的？哪些是最受业界关注的？请关注笔者列出的《2023年全球最佳大模型》。

1. GPT-4

OpenAI的GPT-4模型是2023年最好的AI大模型，没有之一。GPT-4模型于2023年3月发布，展示了其强大的能力，包括复杂的推理能力、高级编码能力、多种学术学习能力、可媲美人类水平表现的能力等。

事实上，它是第一个可以同时接受文本和图像作为输入的多模态模型。虽然ChatGPT还没有添加多模式功能，但一些用户已经通过由GPT-4模型提供支持的Bing Chat获得了访问权限。

与ChatGPT-3.5相比，GPT-4模型在几个类别的实际评估中得分接近80%。OpenAI还通过使用来自人类反馈的强化学习（RLHF）与领域专家进行对抗性测试，竭尽全力使GPT-4模型更符合人类价值观。

GPT-4模型已经在超过1万亿个参数上进行了训练，支持32768个令牌的最大上下文长度。到目前为止，我们还没有太多关于GPT-4内部架构的信息，但最近的报道透露，GPT-4是一个混合模型，由8个不同的模型组成，每个模型都有2200亿个参数。

最后，您可以使用ChatGPT插件，并使用带有GPT-4模型的Bing浏览网页。唯一的缺点是它的响应速度很慢，计算时间要长得多，这迫使开发人员使用较旧的GPT-3.5模型。总体来说，OpenAI GPT-4模型是2023年迄今为止你能使用的最好的大模型。

2．PaLM 2 (Bison-001)

接下来是来自谷歌的PaLM 2 AI模型，它也是2023年最好的大型语言模型之一。Google在PaLM 2模型上专注于常识推理、形式逻辑、数学和20多种语言的高级编码。据说，最大的PaLM 2模型已经在5400亿个参数上进行了训练，最大上下文长度为4096个令牌。

谷歌公布了四款基于PaLM 2的不同版本的大模型，即Gecko、Otter、Bison、Unicorn。其中，Bison目前可用，它在MT-Bench测试中得分为6.40分，而GPT-4得分高达8.99分。

然而，在WinoGrande、StrategyQA、XCOPA等推理评估和其他测试中，PaLM 2表现出色，优于GPT-4。它也是一个多语言模型，可以理解不同语言的习语、谜语和细致入微的文本。这是其他大模型难以解决的问题。

PaLM 2的另一个优点是它的响应速度非常快，可以同时提供三个响应。您可以在谷歌的Vertex AI平台上测试PaLM 2（Bison-001）模型，也可以使用运行在PaLM2上的GoogleBard。

3. Claude v1

也许你还不知道，Claude是一个强大的大模型，由谷歌支持的Anthropic开发。它是由前OpenAI员工共同创立的，其方法是构建有用、诚实和无害的人工智能助手。在多个基准测试中，Anthropic的Claude v1和Claude Instant模型显示出了巨大的前景。事实上，Claude v1在MMLU和MT-Bench测试中的表现要好于PaLM 2。

它接近于GPT-4，在MT-Bench测试中得分为7.94，而GPT-4得分为8.99。在MMLU基准测试中，Claude v1获得75.6分，GPT-4获得86.4分。Anthropic也成为第一家在其Claude-instant-100k模型中提供10万代币作为最大上下文窗口的公司。你基本上可以在一个窗口中加载近75000个单词。这太疯狂了，对吧?

4. Cohere

Cohere是一家人工智能初创公司，由曾在谷歌大脑团队工作的前谷歌员工创立。它的联合创始人之一Aidan Gomez参与了Transformer架构的“Attention is all you Need”论文的撰写。与其他AI公司不同，Cohere为企业服务，并为企业解决生成式AI用例。Coherence有很多模型，从小到大，从只有6B个参数到训练了52B个参数的大模型。

他们最近推出的模型——Cohere Command以其准确性和稳定性赢得了赞誉。根据斯坦福HELM的说法，Cohere Command模型的准确性在同行中得分最高。除此之外，Spotify、Jasper、HyperWrite等公司都在使用Cohere的模型来提供人工智能体验。

在定价方面，Cohere每产生100万个代币收费15美元，而OpenAI对同样数量的代币收费4美元。然而，就准确性而言，它比其他大模型要好。因此，如果你在经营一家企业，并且正在寻找最好的大模型整合到你的产品中，你可以看看Cohere。

5. Falcon

Falcon是这个列表上的第一个开源大模型，它的排名超过了迄今为止发布的所有开源模型，包括LLaMA、StableLM、MPT等等。它是由阿联酋技术创新研究所开发的。关于Falcon最好的一点是，它已经使用Apache 2.0许可证开源，这意味着您可以将该模型用于商业目的，也没有版税或限制。

到目前为止，阿联酋技术创新研究所已经发布了两种Falcon模型，分别接受了40B和7B参数的训练。开发人员建议，这些都是原始模型，如果你想用它们聊天，你应该选择Falcon-40B-Instruct模型，它针对大多数用例进行了微调。

Falcon模型主要训练英语、德语、西班牙语和法语，但它也可以用意大利语、葡萄牙语、波兰语、荷兰语、罗马尼亚语、捷克语和瑞典语工作。所以，如果你对开源人工智能模型感兴趣，首先看看Falcon。

6. LLaMA

自从LLaMA模型在网上泄露后，Meta就开始全力投入开源。它正式发布了各种类型的LLaMA模型，从70亿个参数到650亿个参数。Meta表示，其LLaMA-13B模型优于OpenAI的GPT-3模型，该模型已在1750亿个参数上进行了训练。许多开发人员正在使用LLaMA进行微调并创建一些最好的开源模型。话虽如此，但请记住，LLaMA仅用于研究，不能用于商业用途。

谈到LLaMA 65B模型，它在大多数用例中都显示出了惊人的能力。它在Open LLM排行榜上名列前十。Meta表示，它没有进行任何专有训练。相反，该公司使用了来自CommonCrawl、C4、GitHub、ArXiv、维基百科、StackExchange等网站的公开数据。

简单地说，在Meta发布LLaMA模型后，开源社区看到了快速的创新，并提出了用新的技术来创造更小、更高效的模型。

7. Guanaco-65B

在几个LLaMA衍生的模型中，Guanaco-65B被证明是最好的开源大模型，仅次于Falcon模型。在MMLU测试中，它的得分为52.7，而Falcon模型的得分为54.1。同样，在TruthfulQA评估中，Guanaco的得分为51.3，Falcon的得分更高，为52.5。Guanaco有四种类型：7B、13B、33B和65B型号。Tim Dettmers和其他研究人员在OASST1数据集上对所有模型进行了微调。

至于Guanaco是如何微调的，研究人员提出了一种名为QLoRA的新技术，该技术可以有效地减少内存使用，同时保持完整的16位任务性能。在维库纳基准上，Guanaco-65B模型甚至以更小的参数优于GPT-3.5模型。

最棒的是，65B模型在短短24小时内就在一个拥有48GB VRAM的GPU上进行了训练。这表明开源模型在降低成本和保持质量方面已经取得了长足的进步。总之，如果你想尝试离线的本地大模型，你绝对可以相信Guanaco。

8. Vicuna 33B

Vicuna是LMSYS开发的另一个强大的开源大模型。与许多其他开源模型一样，它也是从LLaMA衍生而来的。它使用监督指导进行了微调，训练数据是从sharegpt.com网站上收集的。这是一个自回归的大模型，基于330亿个参数进行训练。

在LMSYS自己的MT Bench测试中，它得了7.12分，而最好的专有型号GPT-4得了8.99分。在MMLU测试中，它也获得了59.2分，GPT-4获得了86.4分。尽管它是一个小得多的模型，Vicuna的表现仍然突出。

9. MPT-30B

MPT-30B是另一个与LLaMA衍生模型竞争的开源大模型。它是由Mosaic ML开发的，并对来自不同来源的大量数据进行了微调。它使用来自ShareGPT Vicuna、Camel AI、GPTeacher、Guanaco、Baize和其他的数据集。这个开源模型最棒的部分是它有8K令牌的上下文长度。

此外，它优于OpenAI的GPT-3模型，在LMSYS的MT-Bench测试中得分为6.39。如果您正在寻找一个小模型在本地运行，MPT-30B模型是一个很好的选择。

10 . 30B-Lazarus

30B-Lazarus模型是由CalderaAI开发的，它使用LLaMA作为其基础模型。开发人员使用了来自多个模型的经过lora调优的数据集，包括Manticore、SuperCOT-LoRA、SuperHOT、GPT-4 Alpaca-LoRA等。因此，该模型在许多LLM基准测试中表现得更好。它在HellaSwag的得分为81.7，在MMLU的得分为45.2。

如果您的用例主要是文本生成而不是会话聊天，那么30B Lazarus模型可能是一个不错的选择。

返回列表

上一篇：校外培训行政处罚暂行办法（全文）

下一篇：萌鸡小队全集（第一季52集全）

百学网

盘点2023年全球十大大模型，仅开源占了半壁江山

相关文章

重磅！蚂蚁集团面临五大整改，需合规开展资产证券化业务

腾讯金融旗下财付通被央行开出876万元罚单

QQ 将上线新功能

最高法明确滥用人脸识别构成侵权

抖音之后的社区团购，表明互联网失去创造力

支付宝向微信转账新闻的个人观点

发表评论

Copyright Your WebSite.百学网 Rights Reserved.

Powered By Z-BlogPHP. Theme by TOYEAN.

百学网

盘点2023年全球十大大模型，仅开源占了半壁江山

相关文章

重磅！蚂蚁集团面临五大整改，需合规开展资产证券化业务

腾讯金融旗下财付通被央行开出876万元罚单

QQ 将上线新功能

最高法明确滥用人脸识别构成侵权

抖音之后的社区团购，表明互联网失去创造力

支付宝向微信转账新闻的个人观点

发表评论 取消回复

Copyright Your WebSite.百学网 Rights Reserved.

Powered By Z-BlogPHP. Theme by TOYEAN.

发表评论