最新AI大模型咨询与技术解读——来自DataLearnerAI

DeepSeekV3-0324发布：DeepSeek V3基础上大幅升级推理能力和前端网页的美观度，多项评测结果超过GPT-4.5

2025年3月25日，DeepSeekAI低调开源了DeepSeek-V3-0324大模型。作为DeepSeek-V3的重要升级版本，该模型在推理能力、中文写作、前端开发以及功能调用等多个关键领域实现了显著提升。在MMLU Pro等评测上，已经成为了非推理大模型中最强的模型，部分评测结果超过GPT-4.5模型。

2025/03/25 19:07:30 阅读 890

DeepSeekAI/DeepSeekV3/DeepSeekV3-0324/开源大模型

腾讯发布全新推理大模型Hunyuan-T1：mamba与transformer结合的新架构，与业界模型对比评测结果不错，但是不开源

2025年3月21日，腾讯正式推出其全新大模型**Hunyuan-T1**，该模型基于此前发布的TurboS快速思维基座，首次采用**Hybrid-Transformer-Mamba混合专家架构（MoE）**，在推理效率、长文本处理及资源消耗优化等方面表现还不错。此外，这个新架构也使得Hunyuan-T1速度非常快，模型支持首字符1秒内响应，生成速度达60-80 token/秒，适用于实时交互场景。

2025/03/22 11:43:19 阅读 788

Hunyuan-T1/HunyuanTurboS/推理大模型

GPQA Diamond：评估专家级推理能力的问答基准

通用人工智能（AGI）的进步需要可靠的评估基准。GPQA (Grade-Level Problems in Question Answering) Diamond 基准旨在衡量模型在需要深度推理和领域专业知识问题上的能力。该基准由纽约大学、CohereAI 及 Anthropic 的研究人员联合发布，其相关论文可在 arXiv 上查阅 (https://arxiv.org/pdf/2311.12022 )。GPQA Diamond是GPQA系列中最高质量的评测数据，包含198条结果。

2025/03/20 17:34:13 阅读 3273

GPQA/GPQADiamond/大模型评测/大模型评测基准/评测基准

MistralAI开源240亿参数的多模态大模型Mistral-Small-3.1-24B：评测结果与GPT-4o-mini与Gemma 3 27B有来有回，开源且免费商用，支持24种语言

欧洲大模型之光MistralAI开源了2个全新的多模态大模型，即Mistral-Small-3.1-24B基座版本和指令微调版本。这两个大模型均以Apache2.0协议开源，因此可以完全免费商用。而官方也给出了这个模型在多个评测集上的效果，高于GPT-4o-mini和Gemma 3 27B。因为其参数规模较小，推理速度可以达到每秒150个tokens，同时支持多种语言，是一个非常值得关注的小而美的多模态大模型。

2025/03/18 16:41:50 阅读 802

MistralAI/MistralSmall3.1/多模态大模型/开源大模型

GPQA: 可以防止使用谷歌作弊的研究生级别难度的大模型专业能力评测基准（A Graduate-Level Google-Proof Q&A Benchmark）

研究生级别的 **Google 防查找问答基准测试**（即Graduate-Level Google-Proof Q&A Benchmark，简称 GPQA）是大型语言模型（LLM）面临的最具挑战性的评估之一。GPQA 旨在推动人工智能能力的极限，提供一个严格的测试平台，不仅评估模型的事实记忆能力，还考察其在专业科学领域的深度推理和理解能力。本篇博文将客观介绍 GPQA，涵盖它的起源、目的、组成部分，以及领先的大型语言模型在这个高要求基准测试中的表现。

2025/03/18 15:05:24 阅读 1815

GPQA/GPQADiamond/大模型评测/大模型评测基准

百度在周末发布了2个新一代文心一言大模型，分别是没有推理能力的ERNIE 4.5以及有推理能力的ERNIE X1，即日起可以免费使用

3月16日，百度宣布推出两款新一代文心大模型——ERNIE 4.5与ERNIE X1，并提前向公众免费开放其智能对话平台“文心一言”（ERNIE Bot）。官方宣称，这两款模型的能力均超过了GPT-4o，但是价格只有GPT-4o的1%，且是DeepSeek的一半。

2025/03/17 14:10:25 阅读 685

ERNIE4.5/ERNIEX1/推理大模型/文心一言/文心大模型

腾讯发布了一个全新的大模型Hunyuan Turbo S：号称评测效果超过GTP-4o和DeepSeek V3等模型，但没有开源或者放开使用

Hunyuan大模型是腾讯训练的大模型品牌名，2022年4月份，某中文语言理解能力排行榜第一名就出现了Hunyuan模型，在2022年11月，Hunyuan大模型就有了1万亿参数的规模，即HunYuan-NLP 1T大模型（比ChatGPT还早发布）。但是最近2年，这个系列的模型几乎没有出现在公众视野上。而昨天（2025年3月10日），Hunyuan官方在X平台上宣布了旗下最新的Hunyuan Turbo S大模型，称其在多个评测基准上超越了GPT-4o的表现。

2025/03/11 22:51:48 阅读 820

HunyuanTurboS/混元大模型/腾讯大模型

LiveCodeBench：全面的 LLM 代码评测基准基准

LiveCodeBench 由加州大学伯克利分校、麻省理工学院和康奈尔大学的研究人员开发，是一个先进的评测基准套件，专门用于严格评估大语言模型 (LLMs) 在代码处理方面的能力，并解决现有基准测试的局限性。通过引入实时更新的问题集和多维度评估方法，LiveCodeBench 确保对 LLM 进行公平、全面和稳健的评估。

2025/03/09 19:55:14 阅读 3710

LiveCodeBench/大模型编程评测/大模型评测/大模型评测基准/评测基准

重磅！阿里开源325亿参数规模的推理大模型QwQ-32B：性能接近DeepSeek R1满血版，参数更低，免费商用授权！

就在几个小时前，阿里巴巴开源了最新的一个推理大模型，QwQ-32B，该模型拥有类似o1、DeepSeek R1模型那样的推理能力，但是参数仅325亿，以Apache 2.0开源协议开源，这意味着大家可以完全免费商用。

2025/03/06 08:47:09 阅读 1281

QwQ/QwQ-32B/推理大模型/通义千问

什么时候该使用推理大模型？OpenAI官方推出推理大模型和大语言模型的最佳使用指南

随着DeepSeek R1和OpenAI的o1、o3等推理大模型的发布，我们当前可使用的大模型种类也变多了。但是，推理大模型和普通大模型之间并不是二选一的关系，在不同的问题上二者各有优势。为了让大家更清晰理解推理大模型和普通大模型的应用场景。OpenAI官方推出了一个推理大模型最佳实践指南。描述了二者的对比。本文将总结这份推理大模型最佳实践指南。

2025/03/05 12:53:44 阅读 1038

DeepSeekR1/OpenAIo1/推理大模型/推理大模型提示词

Anthropic的Claude 4即将发布前新功能曝光：带有Thinking模式，且可以看到推理过程

最近，一些未公开但即将发布的内容被曝出，显示出Anthropic正在为其AI模型（Claude）推出一项名为Thinking的新功能。这一功能将极大提升AI在推理和决策时的透明度，允许用户查看AI的思考过程，并提供更长时间的推理分析，帮助用户更好地理解和验证AI的决策逻辑。

2025/03/05 12:51:57 阅读 1078

Anthropic/Claude4/推理大模型

智谱AI开源了一个可以带文字的图像的多模态大模型CogView4-6B：图片文本带有中英文混排，指定比例范围内的任意尺寸图像可生成，免费商用授权

智谱AI开源了一个60亿参数规模的文生图大模型CogView4-6B，支持生成的图像中加入文字，文字效果自然融入图像中，且该模型支持支持宽高范围512px至2048px内的任意尺寸图像（有限制，正文解释）。

2025/03/05 12:50:12 阅读 733

CogView/CogView4-6B/文本生成图像/文生图大模型

CohereAI开源了2个Aya Vision多模态大模型：80亿和320亿两种规格多模态大模型，评测结果超越Qwen2.5 72B和Llama 3.2 90B，支持23种语言

Cohere For AI 推出了 Aya Vision 系列，这是一组包含 80 亿（8B）和 320 亿（32B）参数的视觉语言模型（VLMs）。这些模型针对多模态AI系统中的多语言性能挑战，支持23种语言。Aya Vision 基于 Aya Expanse 语言模型，并通过引入视觉语言理解扩展了其能力。该系列模型旨在提升同时需要文本和图像理解的任务性能。

2025/03/04 23:24:06 阅读 444

AyaVision/CohereAI/多模态大模型

微软开源最强38亿小规模参数大语言模型以及56亿参数规模全模态大模型，但是总体评测结果超过Qwen2.5-7B以及Llama3.1-8B等模型，接近GPT-4o mini。

2025年2月27日，微软正式发布了其全新系列的大型语言模型——Phi-4系列。这一系列包含了三个创新性的模型：Phi-4-Mini、Phi-4-Multimodal和一款经过推理优化的Phi-4-Mini。此次发布的模型不仅在性能上展现出色，更在多模态能力与推理任务中实现了显著突破。其中，Phi-4-Multimodal是一个仅仅包含56亿参数规模的多模态大模型，但是支持文本、语音、图片的输入，十分强大。

2025/02/27 22:20:01 阅读 564

Phi-4mini/Phi4/小规模大模型/推理大模型

Anthropic发布Claude 3.7 Sonnet大模型，全球最强编程模型再次进步。业界第一个既支持标准输出也支持扩展思考推理双重模式的单一大模型，评测结果超DeepSeek R1，低于Grok3-Beta Reasoning，免费用户可用

2025年2月25日，Anthropic发布了Claude 3.7 Sonnet大模型，该模型是业界第一个同时支持标准输出和深度推理模式的单一大模型，各项评测相比较Claude Sonnet 3.5大幅提升。特别是代码能力进一步增强。

2025/02/25 14:25:56 阅读 843

Anthropic/Claude3.7/Claude3.7Sonnet/推理大模型

月之暗面开源了一个全新的160亿参数规模的MoE大语言模型Moonlight-16B：其训练算力仅需业界主流的一半

月之暗面（Moonshot AI）是此前中国大模型企业中非常受关注的一家企业。旗下的Kimi大模型和产品因为强悍的性能、超长的上下文以及非常快速的响应引起了广泛的关注。不过，此前MoonshotAI的策略一直是闭源模型，但是产品免费。也许是受到了DeepSeek的压力，月之暗面在2025年2月23日首次开源了旗下的一个小规模参数的大语言模型Moonlight-16B。

2025/02/23 21:08:11 阅读 872

MoE大模型/MoE架构/Moonlight-16B/开源大模型

大模型多模态评测基准MMMU介绍

大模型多模态评测基准MMMU（大规模多学科多模态理解和推理基准）是一项旨在评估多模态人工智能模型在复杂跨学科任务中综合能力的测试工具。

2025/02/21 20:51:01 阅读 945

MMMU/大模型多模态评测/大模型评测

SWE-Lancer：OpenAI发布的一个全新大模型评测基准，用来测试大模型解决真实世界软件工程的能力

短短两年间，AI技术的进步为软件工程带来了新的可能性。然而，这些模型在真实世界的软件工程任务中究竟能发挥多大的作用？它们能否通过完成实际的软件工程任务来赚取可观的收入？为了验证大模型解决真实任务的能力和水平，OpenAI发布了一个全新的大模型评测基准SWE-Lancer来评测大模型这方面的能力。

2025/02/19 21:40:31 阅读 503

SWE-Lancer/大模型评测/大模型评测基准

Grok3发布！马斯克旗下大模型企业xAI发布Grok3、Grok3-mini，支持Deep Research、语音交互和“思考”模式的推理大模型，推理模式评测结果全球最强

今天马斯克旗下的xAI公司发布了最新一代大语言模型Grok3，基于20万张GPU集群训练，各方面的提升都非常明显。在主流评测上都超过了现有的大模型。

2025/02/18 17:01:41 阅读 1321

Grok-3/Grok-3-mini/推理大模型

MATH vs. MATH-500：数学推理评测基准的对比与解析

在评估大型语言模型（LLM）的数学推理能力时，MATH和MATH-500是两个备受关注的基准测试。尽管它们都旨在衡量模型的数学解题能力，但在发布者、发布目的、评测目标和对比结果等方面存在显著差异。

2025/02/15 11:36:41 阅读 2139

MATH/MATH-500/大模型数学评测能力/大模型编程能力/大模型评测/大模型评测基准

Sam Altman宣布未来几周将发布GPT-4.5，几个月后发布GPT-5，未来免费用户也可以无限量使用GPT-5！

三个小时前，Sam Altam在推特上说明了OpenAI未来的大模型路线图。比较重磅的消息是即将在未来几周发布GPT-4.5，并且在几个月后发布GPT-5。

2025/02/13 09:24:11 阅读 524

GPT-4.5/GPT-5/OpenAI/推理大模型

Artificial Analysis报告显示中国AI产业技术突破，已经与美国形成全球双极主导

全球知名AI基准测试机构Artificial Analysis最新发布的2025年第一季度报告揭示了一个引人注目的重要趋势：在大语言模型领域，全球正在形成中美双极主导的新格局。这份权威报告通过严谨的技术指标评测体系，首次以数据量化的方式确认了中国AI技术水平的跨越式发展，特别是在顶尖大模型的研发领域，中国已经实质性地跻身全球第一梯队。本文根据报告的主要内容，为大家总结他们的一些观点和数据。

2025/02/09 21:32:03 阅读 1222

中国大模型/大模型报告/美国大模型

什么是推理大模型？DeepSeek R1推理大模型与DeepSeek V3模型的区别是什么？什么时候该使用推理大模型？

最近，随着DeepSeek R1的火爆，推理大模型也进入大众的视野。但是，相比较此前的GPT-4o，推理大模型的区别是什么？它适合什么样的任务？推理大模型是如何训练出来的？很多人并不了解。本文将详细解释推理大模型的核心内容。

2025/02/08 18:05:03 阅读 3600

DeepSeekR1/OpenAIo1/推理大模型/纯强化学习大模型

MMLU Pro大模型评测基准介绍：MMLU的进化版本，可以更好区分大模型普遍知识和推理能力的通用评测标准

大模型已经对很多行业产生了巨大的影响，如何准确评测大模型的能力和效果，已经成为业界亟待解决的关键问题。生成式AI模型，如大型语言模型（LLMs），能够生成高质量的文本、代码、图像等内容，但其评测却相对很困难。而此前很多较早的评测也很难区分当前最优模型的能力。以MMLU评测为例，2023年3月份，GPT-4在MMLU获得了86.4分之后，将近2年后的2024年年底，业界最好的大模型在MMLU上得分也就90.5，提升十分有限。为此，滑铁卢大学、多伦多大学和卡耐基梅隆大学的研究人员一起提出了MMLU P

2025/02/06 08:13:31 阅读 2657

MMLU/MMLUPro/大模型评测/评测基准

最新博客