最新AI大模型咨询与技术解读——来自DataLearnerAI

MMLU Pro大模型评测基准介绍：MMLU的进化版本，可以更好区分大模型普遍知识和推理能力的通用评测标准

大模型已经对很多行业产生了巨大的影响，如何准确评测大模型的能力和效果，已经成为业界亟待解决的关键问题。生成式AI模型，如大型语言模型（LLMs），能够生成高质量的文本、代码、图像等内容，但其评测却相对很困难。而此前很多较早的评测也很难区分当前最优模型的能力。以MMLU评测为例，2023年3月份，GPT-4在MMLU获得了86.4分之后，将近2年后的2024年年底，业界最好的大模型在MMLU上得分也就90.5，提升十分有限。为此，滑铁卢大学、多伦多大学和卡耐基梅隆大学的研究人员一起提出了MMLU P

2025/02/06 08:13:31 阅读 2657

MMLU/MMLUPro/大模型评测/评测基准

20条关于DeepSeek的FAQ解释DeepSeek发布了什么样的模型？为什么大家如此关注这些发布的模型？他们真的绕过CUDA限制，打破了Nvidia的护城河了吗？

DeepSeekAI最近发布的几个模型，如DeepSeek V3、DeepSeek R1等引起了全球的广泛关注和讨论，特别是低成本训练出高质量模型之后，引起了很多的争论。引起了大家对OpenAI、英伟达等公司未来的质疑。然而，对于DeepSeekAI的模型为什么引起了如此广泛的关注，以及大家讨论的核心内容是什么，很多人并不是很清楚。本文基于著名的独立科技行业分析师Ben Thompson的总结，配合DataLearnerAI的分析，为大家总结DeepSeek引起的全球讨论。

2025/02/02 17:33:13 阅读 1212

DeepSeekAI/DeepSeekR1/DeepSeekV3/OpenAIo1/推理大模型

Arena Hard：LM-SYS推出的更难更有区分度的大模型评测基准

评估日益发展的大型语言模型（LLM）是一个复杂的任务。传统的基准测试往往难以跟上技术的快速进步，容易过时且无法捕捉到现实应用中的细微差异。为此，LM-SYS研究人员提出了一个全新的大模型评测基准——Arena Hard。这个平常基准是基于Chatbot Arena发展而来，相比较常规的评测基准，它更难也更全面。

2025/01/30 20:38:31 阅读 1046

ArenaHard/ChatbotArena/大模型评测/评测基准

OpenAI开始提供大模型（GPT系列模型）的提示缓存（Prompt Caching）：GPT-4o系列模型输入价格下降一半，访问速度提升80%

在大模型的应用中，处理复杂请求往往伴随着较高的延迟和成本，尤其是当请求内容存在大量重复部分时。这种“慢请求”的问题，特别是在长提示和高频交互的场景中，显得尤为突出。为了应对这一挑战，OpenAI 最近推出了 **提示缓存（Prompt Caching）** 功能。这项新技术通过缓存模型处理过的相同前缀部分，避免了重复计算，从而大幅减少了请求的响应时间和相关成本。特别是对于包含静态内容的长提示请求，提示缓存能够显著提高效率，降低运行开销。本文将详细介绍这项功能的工作原理、支持的模型，以及如何通过合理的提示结

2024/12/18 22:06:07 阅读 619

OpenAI/PromptCaching/大模型推理加速/提示缓存

Meta开源Llama3.3-70B-Instruct模型：大模型后训练的佳作，性能超越4050亿参数规模的Llama3.1-405B大模型！

Llama系列大语言模型一直是开源领域的大模型标杆，Llama3系列大模型自从开源之后一直在不断更新。最早的Llama3模型于2024年4月开源，此后，几乎每个三个月都有一个新版本发布。就在昨天，Meta开源了最新的Llama3.3-70B模型，这是Llama3.3系列目前唯一开源的模型。尽管该模型的参数规模仅仅700亿，但是在多项评测基准上已经超过了4050亿参数规模的Llama3.1-405B，后者是Llama系列模型中参数规模最大的一个，也是业界开源模型中参数规模最高的模型之一。

2024/12/08 22:35:45 阅读 1338

Llama3.3/Llama3.3-70B-Instruct

重磅！OpenAI发布正式版o1模型，推理能力再次提升，且开启商业化使用，每个月200美元不限量使用！

几个小时前，OpenAI开启了今年密集的产品发布时间，本次发布会持续12天，直播12天。几个小时前，第一个发布的产品宣布，那就是OpenAI o1模型的正式版。同时也开启了一个全新的ChatGPT付费计划，即ChatGPT Pro，每个月200美元，可以不限量使用所有模型。本文详细介绍OpenAI o1模型。

2024/12/06 07:35:14 阅读 1290

ChatGPTPro/o1/o1-preview/OpenAIo1

OpenAI的推理大模型o1模型的强有力竞争者！DeepSeekAI发布DeepSeek-R1-Lite-Preview~实测结果令人惊喜！

OpenAI的o1模型被认为是大模型领域中推理能力最强的代表之一，由于其强大的数学逻辑推理能力，被认为是大模型未来的进化方向。而就在2个月之后的11月快结束的时间里，幻方量化旗下人工智能企业DeepSeekAI发布了全新的DeepSeek-R1-Lite-Preview模型，号称是o1模型的有力挑战者。该模型利用了类似的o1的思维链思索过程，推理能力大幅增强。DataLearnerAI将在本文中对该模型进行介绍，并进行几个简单的对比结果测试。结果证明这个模型是非常优秀的！

2024/11/28 13:40:52 阅读 852

DeepSeek-R1-Lite-Preview/DeepSeekAI/o1/OpenAIo1/推理大模型

阿里开源推理大模型QwQ-32B-Preview：开源领域对OpenAI o1模型奋起直追，能力接近o1-mini，超过GPT-4o！

随着OpenAI发布推理大模型o1，专注于推理能力的大模型开始被广泛关注。基于思维链探索的推理大模型也不断涌现。此前，DeepSeekAI与上海人工智能实验室都发布过推理大模型，也展现了很不错的推理能力，虽然DeepSeekAI官方承诺该模型会开源，但是目前还没有发布。今天，阿里开源了一个全新的推理大模型QwQ-32B-Preview，其推理能力在评测结果上超过o1-mini，是目前开源领域最强的推理大模型（也可能是目前唯一）。

2024/11/28 13:40:41 阅读 773

o1/QwQ/QwQ-32B-Preview/推理大模型

AI Agent进展再进一步！Anthropic发布大模型上下文连接访问协议MCP：让任何资源快速变成大模型的工具，突破大模型的能力边界！

最初，大模型的应用主要通过像ChatGPT这样的聊天机器人展现其智能理解能力。随着技术的进步，基于大模型的智能代理（AI Agent）成为突破大模型能力边界的重要方向。这些智能代理能够执行一系列任务、解决问题，并进行决策，具备深刻理解用户需求和自主规划解决方案的能力，并能够根据规划结果，选择和使用各种工具来完成任务。然而，AI Agent系统面临的关键挑战是如何高效地将外部工具、知识、资源等迅速接入大模型，并实现有效利用。尤其是，如何将现有的工具和资源整合进大模型，提升其生产力能力，是一个亟待解决的问题。

2024/11/27 10:41:35 阅读 1048

Anthropic/MCP/大模型开放

Claude Artifacts的复制？OpenAI发布ChatGPT协作新组件：Canvas，让你与ChatGPT共同处理写作与编程问题！

在写作和编程中，使用 ChatGPT 帮助用户处理各种复杂任务已变得越来越普遍。然而，这个过程中仍然存在一些挑战，比如上下文追踪不够连贯、实时反馈不足，以及在编程时难以精确地处理错误或优化代码。为此，OpenAI发布了一个新的特新：Canvas，它是为了解决上述问题而设计的一个全新工具，集成了写作、编程和实时协作的功能。

2024/10/27 21:22:05 阅读 338

Artifacts/Canvas/GPT-4o

Anthropic发布新一代Claude 3.5模型：全新的Haiku 3.5和升级版Sonnet 3.5

2024年10月22日，Anthropic发布了两个新模型：升级版的Claude 3.5 Sonnet和全新的Claude 3.5 Haiku。升级版的Claude 3.5 Sonnet在保持原有价格和速度的基础上，实现了全面性能提升，尤其在编码领域取得了显著进步。新推出的Claude 3.5 Haiku则以与Claude 3 Haiku相同的成本和类似的速度，在多个评测中达到了与Claude 3 Opus相当的性能水平。

2024/10/27 21:21:21 阅读 1167

Anthropic/Claude/Claude3/Claude3.5-Haiku/Claude3.5-Sonnet/Claude3.5-SonnetNew

OpenAI最新的推理大模型o1与GPT-4o有什么区别？o1一定比o1 mini更强吗？一文总结OpenAI对o1模型的官方答疑

OpenAI的o1模型是当前最强大的具有超强推理能力的大语言模型。但是，o1模型本身的能力如何，o1版本和o1-mini版本模型的差异在哪等似乎都很不清晰。为此，OpenAI在Twitter上举办了一次AMA（Ask me anything）活动，解答了很多大家关心的问题。在这篇博客中，我们根据这个讨论结果总结了一下其中比较重要的信息供大家参考。

2024/09/16 19:37:21 阅读 5509

o1/o1-mini/o1-preview/OpenAI/Q*/推理大模型

Mistral AI开源全新的120亿参数的Mistral NeMo模型，Mistral 7B模型的继任者！完全免费开源！中文能力大幅增强！

在人工智能领域，Mistral与NVIDIA的合作带来了一个引人注目的新型大模型——Mistral NeMo。这个拥有120亿参数的模型不仅性能卓越，还为AI的普及和应用创新铺平了道路。MistralAI官方博客介绍说该模型是此前开源的Mistral 7B模型的继承者，因此未来可能7B不会再继续演进了！

2024/07/21 22:34:44 阅读 629

Mistral7B/MistralAI/MistralNeMo

如何对向量大模型（embedding models）进行微调？几行代码实现相关原理

大语言模型是通过收集少量专门数据对模型的部分权重进行更新后得到一个比通用模型更加专业的模型。但是，当前大家讨论较多的都是语言模型的微调，对于嵌入模型（或者向量大模型）的微调讨论较少。Modal团队的工作人员发布了一个博客，详细介绍了向量大模型的微调工作，本文将其翻译之后提供给大家（原文：https://modal.com/blog/fine-tuning-embeddings ）。

2024/07/21 17:08:45 阅读 3394

bge/RAG/向量大模型/向量大模型微调/微调

传闻OpenAI内部大模型推理能力获得进展，Q*项目进化成Strawberry！并且距离发布时间更近了！

尽管各家大模型技术进展神速，但是在复杂任务的推理上，大模型目前依然较弱。在去年底，各方消息透露，OpenAI内部有一个称为Q\*的项目取得了重大的突破，可以大幅提高大模型的推理能力。但是，几个月过去了，这个当时吸引了大量讨论的项目没有任何信息。直到昨天，Reuters披露了Q\*项目的进展，这个项目已经变为Strawberry！并且距离发布时间更近了！

2024/07/14 19:30:10 阅读 675

OpenAI/Q*/QStar/大模型推理

Anthropic发布Claude3.5-Sonnet模型，超过Claude3系列所有模型的能力，并且支持多模态！

Claude系列模型是Anthropic发布的大模型，一直被认为是最接近GPT-4系列的大模型。2024年3月份，Anthropic发布了Claude3系列，从各方的使用情况看，都接近甚至超过了GPT-4。时隔三个月，Anthropic再次发布全新3.5版本的Claude3.5系列。本次首先发布的是Claude3.5-Sonnet版本。已经支持免费使用。

2024/06/20 23:36:26 阅读 1354

Anthropic/Claude/Claude3/Claude3.5-Sonnet

Llama3相比较前两代的模型（Llama1和Llama2）有哪些升级？几张图简单总结Llama3的训练成本、训练时间、模型架构升级等情况

Llama3是MetaAI开源的最新一代大语言模型。一发布就引起了全球AI大模型领域的广泛关注。这是MetaAI开源的第三代大语言模型，也是当前最强的开源模型。但相比较第一代和第二代的Llama模型，Llama3的升级之处有哪些？本文以图表的方式总结Llama3的升级之处。

2024/04/21 20:31:56 阅读 2764

Llama3/Llama3-400B/Llama3-70B/Llama3-8B-Instruct/MetaAI

开源王者！全球最强的开源大模型Llama3发布！15万亿数据集训练，最高4000亿参数，数学评测超过GPT-4，全球第二！

大语言模型开源领域最重要的一个模型就是MetaAI开源的Llama系列。当前，很多著名开源模型都是基于Llama系列进行预训练得到。就在刚才，MetaAI开源了第三代Llama3系列。官方透露的信息非常多，Llama3系列是目前为止最强的开源大语言模型，未来还有4000亿参数版本，支持多模态、超长上下文、多国语言！

2024/04/19 01:15:49 阅读 2699

Llama3/Llama3-400B/Llama3-70B/Llama3-8B-Instruct/MetaAI

重磅Llama3即将发布！目前已知有80亿和700亿参数两个版本，其中Llama3-8B-Instruct已经上架微软云服务市场！

Llama系列是MetaAI开源的大语言模型，是全球开源大模型中最重要的力量之一。第一代的Llama系列模型不允许商用，第二代模型则放松了范围，允许商用。而Llama系列模型因为优秀的品质，也是许多开源模型的基座。而今天Llama3即将发布。

2024/04/18 23:21:39 阅读 919

Llama3/Llama3-70B/Llama3-8B-Instruct

MistralAI正式官宣开源全球最大的混合专家大模型Mixtral 8x22B，官方模型上架HuggingFace，包含指令微调后的版本！

今天，MistralAI官方正式官宣了这个模型，并在HuggingFace上上架了两个不同的版本，一个是预训练基础模型Mixtral 8x22B，另一个则是指令优化的版本Mixtral-8x22B-Instruct。同时官网发布了博客介绍这个全新的大模型，并披露了更加详细的结果。

2024/04/17 23:11:16 阅读 1536

MistralAI/Mixtral8x22B/MoE大模型

开源大语言模型再次大幅进步：微软团队开源的第二代WizardLM2系列在MT-Bench得分上超过一众闭源模型，得分仅次于GPT-4最新版

开源大模型是促进大模型技术发展最重要的技术力量之一。此次，微软以Apache 2.0开源协议开源了一个在ChatArena匿名投票评测上打败GPT-4早期版本的模型，即WizardLM-2。这是一系列模型，其中最大的版本是基于Mixtral-8×22B开源模型进行后训练得到的模型。MT-Bench得分8.96，超过了GPT-4-0314。

2024/04/17 21:44:51 阅读 863

WizardLM-2/WizardLM-270B/WizardLM-27B/WizardLM-28x22B

重回第一！OpenAI升级GPT-4-Turbo到2024-04-09版本（gpt-4-turbo-2024-04-09），GPT-4推理和数学能力大幅提高，基准测试最高有接近20%的提升！

OpenAI的GPT-4一直是全球最强的大语言模型。但是在最近的一系列新模型对比中，已经有一些模型在某些领域被认为已经接近或者超过GPT-4了。而在前几天，OpenAI更新了一个新版本的GPT-4，是GPT-4-Turbo-2024-04-09，官方说该版本的GPT在推理和数学能力上有明显提升，而实测结果也很不错。在基准测试评测中，最高有19%的提升幅度！在GPT-4这样强的模型上有这样的提升幅度，十分不错！

2024/04/12 10:16:16 阅读 1196

GPT-4/gpt-4-turbo-2025-04-09/GPT-4更新

Google Gemini Pro 1.5重大更新：新增音频理解、单次处理任何格式数据、更强大的函数调用和JSON模式，DataLeanrerAI实测音频理解能力优秀，且免费使用！

Gemini是谷歌发布的一系列大语言模型。最早是2023年12月发布1.0版本，在2023年2月中旬，劈柴哥亲自宣布Gemini Pro升级到1.5版本。Gemini 1.5 Pro是一个全新的MoE模型（Mixture of Experts，混合专家），在各项评测结果中都接近Gemini Ultra 1.0的水平。而在今天，Gemini Pro 1.5再次迎来重大更新，包括音频理解、无限制文件阅读以及更好地指令遵从性等。本文将介绍这次更新，并做一些简单的实际测试。

2024/04/10 22:12:19 阅读 1327

Gemini/Gemini1.5/Gemini1.5Pro/Google

Mixtral-8×7B-MoE模型升级新版本，MistralAI开源全球最大混合专家模型Mixtral-8×22B-MoE

Mixtral-8×7B-MoE是由MistralAI开源的一个MoE架构大语言模型，因为它良好的开源协议和非常好的性能获得了广泛的关注。就在刚才，Mixtral-8×7B-MoE的继任者出现，MistralAI开源了全新的Mixtral-8×22B-MoE大模型。

2024/04/10 11:07:07 阅读 842

MistralAI/Mixtral-8×22B-MoE/Mixtral-8×7B-MoE

最新博客