最新AI大模型咨询与技术解读——来自DataLearnerAI

Google开源CodeGemma编程大模型和RNN架构大模型RecurrentGemma，同等参数规模最强编程大模型以及更快的大模型

Gemma系列是谷歌开源的与Gemini同源的小规模参数版本的大语言模型，此前只有70亿参数和20亿参数的Gemma大语言模型。而现在，Google又开源了2个系列的新的大模型：一个是编程大模型CodeGemma系列，一个是基于RNN架构新型大模型RecurrentGemma。

2024/04/10 00:05:26 阅读 825

CodeGemma/Gemma/Google/RecurrentGemma

开源模型进展迅猛！最新开源不可商用模型Command R+在大模型匿名投票得分上已经超过GPT-4-Turbo！

开源大语言模型经过一年多的发展，终于有一个模型可以在权威榜单上击败GPT-4的较早的版本，这就是CohereAI企业开源的Command R+。这是一个开源但是不允许商用的模型，参数规模达到1040亿，也是目前为止开源参数规模最大的一个模型。

2024/04/09 20:35:23 阅读 1860

CohereAI/CommandR/CommandR+/RAG/开源大模型/检索增强生成

国产MoE架构模型大爆发！深圳元象科技XVERSE开源256亿参数MoE大模型XVERSE-MoE-A4.2B，评测结果接近Llama1-65B

混合专家架构大模型是当前最火热的一个大模型技术发展方向。三月底，业界开源了多个混合专家大模型，包括DBRX、Qwen1.5-MoE-A2.7B等。而在四月初，又一家国产大模型企业开源了一个全新的MoE架构的模型，即深圳元象科技XVERSE开源的XVERSE-MoE-A4.2B。该模型参数256亿，推理时仅激活42亿参数，效果与当前主流的130亿参数的规模差不多。

2024/04/07 22:44:28 阅读 924

MoE/XVERSE/XVERSE-MoE-A4.2B/开源大模型/混合专家模型

ToolTalk：微软发布的一个用以评测大语言模型工具使用能力的评测工具和评测数据集

为了更好地评估大语言模型的工具使用能力，微软的研究人员提出了ToolTalk Benchmark基准测试工具，可以帮助我们更加简单地理解大语言模型在工具使用方面的水准。ToolTalk旨在评估大型语言模型（LLMs）在对话环境中使用工具的能力。这些工具可以是搜索引擎、计算器或Web API等，它们能够帮助LLMs访问私有或最新的信息，并代表用户执行操作。

2024/04/05 21:42:10 阅读 904

RAG/ToolTalk/检索增强生成

马斯克旗下xAI发布Grok-1.5，相比较开源的Grok-1，各项性能大幅提升，接近GPT-4！

Grok系列是马斯克旗下的人工智能企业xAI发布的大语言模型，在推特上给大家使用。第一个版本，Grok-1前端时间开源，效果一般。就在刚才，xAI宣布他们开始内测Grok-1.5，即将全面商用！

2024/03/29 09:21:54 阅读 975

Grok/Grok-1/Grok-1.5/xAI/马斯克

开源领域大语言模型再上台阶：Databricks开源1320亿参数规模的混合专家大语言模型DBRX-16×12B，评测表现超过Mixtral-8×7B-MoE，免费商用授权！

基于混合专家技术的大语言模型是当前大语言模型的一个重要方向。去年MistralAI开源了全球最有影响力的Mixtal-8×7B-MoE模型，吸引了很多关注。在2024年3月27日的今天，Databricks宣布开源一个全新的1320亿参数的混合专家大语言模型DBRX。

2024/03/27 22:34:43 阅读 1223

DBRX/MoE/混合专家大模型

73亿参数顶级开源模型Mistral-7B升级到v0.2版本，性能与上下文长度均有增强。

Mistral-7B是由MistralAI开源的一个73亿参数规模的大语言模型，最早在2023年9月底开源。因为其良好的性能和友好的开源协议被很多人使用。今天，这个模型升级到来v0.2版本Mistral-7B-v0.2。基于Mistral-7B-v0.2进行指令微调的模型 Mistral-7B-Instruct-v0.2在2023年11月11日公布，而这个基座模型则是在2023年3月24日开源。

2024/03/24 12:47:06 阅读 1685

Mistral-7B-Instruct-v0.2/Mistral-7B-v0.2/MistralAI

OpenAI秘密武器Q到底是什么？一个神秘帖子的解密：Q是一个不同于当前大模型推理方式的新对话生成系统

在去年末的OpenAI宫斗风波中，伴随着Sam下台和重新掌权过程中有一个非常重要但不被大家了解的算法Q*。国外的路透社曾经提到OpenAI内部一个称为Q*（Q Star）项目取得了非常重大的突破，使得部分人认为AGI很接近，进而引发了一系列事件。但是，Q*到底是什么？是否存在一直被很多人猜测。而最近，一个神秘的帖子继续爆料了Q*的信息。

2024/03/20 17:17:42 阅读 890

OpenAI/Q*/Q-Star

马斯克大模型企业xAI开源Grok-1，截止目前全球规模最大的MoE大模型，词汇表超过13万！

此前，马斯克在推特上宣布要开源旗下大模型公司开发的Grok-1大语言模型。一周后的现在，这个模型Grok-1正式宣布以Apache2.0开源协议开源，本文将针对Grok-1的技术部分进行介绍。

2024/03/18 17:19:49 阅读 1135

Grok/Grok-1/xAI/马斯克

OpenAI开源大模型调测工具Transformer Debugger（TDB）：可以在训练大模型之前理解模型的运行情况并干预

自从OpenAI转向盈利化运营之后，很少再开源自己的技术。但就在刚才，OpenAI开源了一个全新的大模型调测工具：Transformer Debugger。这个工具可以帮助开发者调测大模型的推理情况，帮助我们理解模型的输出并提供一定的解释支持。

2024/03/12 16:06:53 阅读 500

OpenAI/TransformerDebugger/大模型可视化/大模型解释

重磅！马斯克宣布本周开源xAI开发的大语言模型Grok！

就在刚刚，马斯克在推特上宣布本周会开源Grok大语言模型。xAI是马斯克在2023年3月份创办的一家大模型初创企业。因为ChatGPT过于火爆，离开OpenAI之后马斯克又再次开始推出大模型，就是这个Grok。

2024/03/11 17:06:46 阅读 711

Grok/xAI/马斯克

评测结果超过GPT-4，Anthropic发布第三代大语言模型Claude3，具有多模态能力，实际评测表现优秀！

Anthropic被认为是最像OpenAI的一家公司。他们推出的Claude2模型是全球首个支持200K超长上下文的商业模型。在PDF理解方面被认为表现优秀。就在2023年3月4日，Anthropic推出了他们的第三代大语言模型Claude3，包含3个不同的版本，支持多模态和最高100万上下文输入！

2024/03/05 23:21:28 阅读 807

Anthropic/Claude3/Claude3-Opus/Claude大模型

StarCoder2发布，开源编程大模型又一个强大选择！

在近年来，随着人工智能技术的飞速发展，大型语言模型（LLM）在代码生成和编辑领域的应用越来越广泛，成为软件开发中不可或缺的助手。今天，我想向大家介绍一个由BigCode项目与Software Heritage合作开发的下一代代码大型语言模型——StarCoder 2。

2024/03/01 18:54:33 阅读 835

StarCoder2/编程大模型

截止目前可能是全球最快的大语言模型推理服务：实机演示Groq公司每秒500个tokens输出的450亿参数的Mixtral 8×7B模型

大模型的推理速度是当前制约大模型应用的一个非常重要的问题。在很多的应用场景中（如复杂的接口调用、很多信息处理）的场景，更快的大模型响应速度通常意味着更好的体验。但是，在实际中我们可用的场景下，大多数大语言模型的推理速度都非常有限。慢的有每秒30个tokens，快的一般也不会超过每秒100个tokens。而最近，美国加州一家企业Groq推出了他们的大模型服务，可以达到每秒接近500个tokens的响应速度，非常震撼。

2024/02/19 18:25:08 阅读 1504

Groq/LPU/大模型加速/大模型推理加速

通俗易懂地解释OpenAI Sora视频生成的特点有哪些？Sora与此前的Stable Video Diffusion、Runway Gen2、Pika等有什么区别？OpenAI Sora的缺点是什么？

OpenAI的Sora模型是最近两天最火热的模型。它生成的视频无论是清晰度、连贯性和时间上都有非常好的结果。在Sora之前，业界已经有了很多视频生成工具和平台。但为什么Sora可以引起如此大的关注？Sora生成的视频与此前其它平台生成的视频到底有哪些区别？有很多童鞋似乎对这些问题依然有疑问，本文将以通俗的语言解释Sora的独特之处。

2024/02/17 23:55:05 阅读 1388

OpenAISora/Sora/视频生成大模型

OpenAI发布全新文本生成视频大模型Sora，可以生成无比逼真的最长60秒的视频，且生成的视频尺寸可以任意指定

OpenAI宣布发布全新的Diffusion大模型Sora，这是一个可以生成最长60秒视频的视频生成大模型，最大的特点是可以生成非常逼真的电影画面版的视频。

2024/02/17 09:45:12 阅读 1563

OpenAISora/Sora/视频生成大模型

MistralAI可能即将发布新的大语言模型，Mistral Next悄悄登场Chat Arena！

MistralAI又悄悄地上线了另一个模型，即Mistral Next。相比之前的发布预训练种子引起大家猜测的方式，本次MistralAI又把模型发布玩出了花，他们没有公布任何信息，选择直接上架LM-SYS的大模型竞技场Chat Arena，让大家直接体验对比。

2024/02/16 18:28:04 阅读 556

MistralAI/MistralNext/Mistral大模型

重磅！谷歌宣布发布Gemini 1.5 Pro，距离Gemini发布仅仅一个半月！最高支持1000万上下文长度，GSM8K评测全球第一

在2023年12月份，Google发布了Gemini系列大模型（参考：谷歌发布号称超过GPT-4V的大模型Gemini：4个版本，最大的Gemini的MMLU得分90.04，首次超过90的大模型），包含3个不同参数规模的版本。其中，Gemini Ultra号称在MMLU评测上超过了GPT-4，并且在月初也将Bard更名为Gemini，开放了Gemini Ultra的付费使用。刚刚，Google的CEO劈柴哥宣布发布了Gemini 1.5 Pro，这意味着仅仅一个半月，Gemini有了重大更新。

2024/02/16 00:04:22 阅读 1386

Gemini/Gemini1.5Pro/Google/MoE

OpenAI即将推出DALL·E Controls功能，可以更加精细化控制DALL·E图片生成的效果

DALL·E3是OpenAI推出的文本生成图片服务，背后也是一个文生图大模型。此前，该模型只能通过对话的方式让模型生成图片结果。无法通过配置信息控制模型输出的效果，包括风格、比例等。而最新的截图显示，OpenAI可能即将推出DALL·E Controls功能，可以从不同的方面来控制图片生成的效果。

2024/01/27 08:49:55 阅读 458

ChatGPT/DALL·EControls/GPT自定义/版本ChatGPT

国产全球最长上下文大语言模型开源：XVERSE-13B-256K，一次支持25万字输入，免费商用授权~

深圳的元象科技开源了一个最高上下文256K的大语言模型XVERSE-13B-256K，可以一次性处理25万字左右，是目前上下文长度最高的大模型，而且这个模型是以Apache2.0协议开源，完全免费商用授权。

2024/01/17 22:27:07 阅读 1261

Long-Context/XVERSE-13B-256K/超长上下文

MistralAI发布了Mixtral 8×7B MoE模型的论文，更详细的参数和对比结果~

在人工智能快速发展的今天，创新型模型如Mixtral 8x7B的出现，不仅推动了技术的进步，还为未来的AI应用开辟了新的可能性。这款基于Sparse Mixture of Experts（SMoE）架构的模型，不仅在技术层面上实现了创新，还在实际应用中展示了卓越的性能。尽管一个月前这个模型就发布，但是MistralAI今天才上传了这个模型的论文，我们可以看到更详细的信息。

2024/01/09 12:39:17 阅读 966

MistralAI/Mixtral/专家混合模型

如何解决大模型微调过程中的知识遗忘？香港大学提出有监督微调新范式并开源新模型LLaMA Pro

大语言模型一个非常重要的应用方式就是微调（fine-tuning）。微调通常需要改变模型的预训练结果，即对预训练结果的参数继续更新，让模型可以在特定领域的数据集或者任务上有更好的效果。但是微调一个严重的副作用是可能会让大模型遗忘此前预训练获得的知识。为此，香港大学研究人员推出了一种新的微调方法，可以保证模型原有能力的基础上提升特定领域任务的水平，并据此开源了一个新的模型LLaMA Pro。

2024/01/09 12:09:47 阅读 1704

LLaMAPro/大语言模型微调/微调

OpenAI的GPTs是如何被创建的？OpenAI的GPT Builder的工作原理和核心Prompt介绍

GPTs是OpenAI推出的用户自定义的GPT功能，这里的GPTs可以认为是specific GPT。用户创建GPTs主要是通过OpenAI提供的GPT Builder完成。GPT Builder提供的最基本的能力就是基于对话的方式来帮助用户创建GPTs。那么，这个对话式的GPT背后的指令是什么？官方设置了什么样的Prompt来让GPT帮助普通用户建立GPTs呢？本文基于官方最新的博客介绍一下。

2024/01/05 22:53:04 阅读 1075

GPTBuilder/GPTs/OpenAI官方Prompt

速度，2个月免费的GPT-4和Claude-2.1，PerplexityAI发布圣诞优惠~

PerplexityAI是通过搜索引擎检索互联网的内容，然后使用大模型总结答案。产品形态有点像Bing的Bing Chat。圣诞节前夕，PerplexityAI提供了一个优惠代码，可以免费使用他们的2个月的Pro版本订阅服务。PerplexityAI的Pro版本提供GPT-4、Claude-2.1等大模型服务，支持生成图片和基于很长的PDF问答，这2个月的服务十分划算！

2023/12/24 14:28:27 阅读 1687

perplexity/perplexity.ai/PerplexityAI/perplexity优惠

最新博客