最新AI大模型咨询与技术解读——来自DataLearnerAI

Anthropic发布Claude Haiku 4.5：一个不可忽视的低成本模型，1/3的价格，1.5倍的速度，但是有Claude Sonnet 4的水平！

Anthropic正式发布最新一代入门级模型Claude Haiku 4.5。相较上一代小模型，Haiku 4.5 在编码、推理与“计算机使用/子代理编排”等关键生产力场景上实现逼近甚至局部追平 Sonnet 4，但价格更低、速度更快，定位于“面向规模化落地的高性价比主力”。

2025/10/19 22:15:00 阅读 448

Anthropic/Claude/ClaudeHaiku4.5

FrontierMath：AI大模型高级数学推理评测的新基准

FrontierMath是一个由Epoch AI开发的基准测试套件，包含数百个原创的数学问题。这些问题由专家数学家设计和审核，覆盖现代数学的主要分支，如数论、实分析、代数几何和范畴论。每个问题通常需要相关领域研究人员投入数小时至数天的努力来解决。基准采用未发表的问题和自动化验证机制，以减少数据污染风险并确保评估可靠性。当前最先进的AI模型在该基准上的解决率低于2%，这反映出AI在处理专家级数学推理时的局限性。该基准旨在为AI系统向研究级数学能力进步提供量化指标。

2025/10/19 17:45:17 阅读 340

FrontierMath/大模型数学能力/大模型评测/大模型评测基准

谷歌发布视频大模型Veo 3.1：电影级别的视频生成，声音合成和同步能力大幅提升，但相比较Sora2依然有明显差距！

就在今日，Google 正式推出 Veo 3.1 和 Veo 3.1 Fast，这两款升级版视频生成模型以付费预览形式登陆 Gemini API。Veo 3.1的核心亮点是：更丰富的原生音频（从自然对话到同步音效）、更强的电影风格理解与叙事控制、以及显著增强的图生视频（Image-to-Video）质量与一致性。

2025/10/16 08:53:14 阅读 373

Sora/Veo/视频生成大模型/谷歌

直接使用大模型通过界面来操作电脑和浏览器：谷歌发布Gemini 2.5 Computer Use 模型，重塑 AI 与界面交互能力，实测优秀~

就在昨天，2025年10月7日，Google DeepMind 正式发布其最新模型——Gemini 2.5 Computer Use。该模型基于 Gemini 2.5 Pro 的视觉理解与推理能力，新增了“界面交互（UI 控制）”能力，能够在浏览器或移动端界面上像人类那样点击、输入、滚动、选择控件等操作。

2025/10/08 22:15:37 阅读 583

AIAgent/Gemini2.5ComputerUse/计算机使用

如何更好地使用 Sora2 生成视频？来自 OpenAI 官方的终极 Prompt 指南

Sora2 的发布再次引爆了视频生成领域。你可能已经看到过一些令人惊叹的演示视频，但当你自己上手时，生成的作品可能并不尽如人意。问题出在哪里？很可能就在你的提示词（Prompt）上。

2025/10/07 23:35:12 阅读 1085

Sora2/视频生成大模型

自己制作电影不是梦，视频生成大模型的巨大进步！OpenAI发布第二代视频生成大模型Sora2：物理规律符合率达到88%，可以同步生成音频！物理真实感与声音控制全面突破

就在今日，OpenAI正式推出了 Sora 2 ——其旗舰级视频与音频生成模型。相比2024年2月发布的初代 Sora，本次升级带来了断层级的真实感与显著增强的可控性。它不仅能更好地遵循物理规律生成视频，还首次实现了同步对话与环境音效的生成，并通过全新 iOS 应用“Sora”开放给公众使用。

2025/10/01 15:17:59 阅读 547

OpenAI/Sora/Sora2/视频生成大模型

如何快速五分钟就能了解GitHub中一个项目的代码架构和逻辑：智谱类DeepResearch的大模型产品Zread介绍，GitHub仓库解读神器

智谱AI于2025年7月发布了Zread。这款产品能够利用其大模型能力，结合类似Deep Research的Agent技术，对GitHub项目进行深度解读和问答。其价值在于将强大的模型能力通过优秀的工程化设计，变成了一个真正“好用”的工具。它解决的正是那种“代码就在那里，但我就是看不懂”的尴尬，这种体验是单纯聊天机器人无法替代的。

2025/09/27 20:55:06 阅读 449

AIAgent/Zread/智谱AI

大模型速度、效果与价格的完美结合？xAI发布Grok 4 Fast：性能接近Grok 4，成本降 98%，生成速度翻倍！

xAI 正式发布 Grok 4 Fast —— 一款以极致性价比与前沿性能为核心卖点的新一代推理模型。相比前代产品，它不仅在推理准确率上几乎与旗舰模型Grok 4等持平，还凭借 40%更高的推理效率和高达98%的成本降低，将高质量智能推理真正带入大众用户和企业应用场景。

2025/09/21 21:09:22 阅读 572

Grok4/Grok4Fast

Qwen3家族新成员：阿里发布自动语音识别大模型Qwen3-ASR-Flash，中英文语音识别错误率低于GPT-4o和Gemini 2.5 Pro！

阿里发布了全新的语音识别大模型Qwen3-ASR-Flash，该模型是Qwen3系列模型中首个语音识别大模型，中英文语音识别错误率低于GPT-4o-transcribe和Gemini 2.5 Pro。不过，该模型目前仅通过API提供，不开源！

2025/09/09 03:31:42 阅读 879

ASR/Qwen3/Qwen3-ASR

语音大模型正式进入Voice Agent时代！OpenAI发布GPT Realtime模型，可以直接调用接口和工具进行实时语音对话！

就在几个小时前，OpenAI 发布了全新的 GPT Realtime 大模型。这是一个 Speech-to-Speech（S2S）模型，能通过单个模型与 API完成从音频输入到音频输出的全流程，显著降低交互延迟并充分保留语音细节。 GPT Realtime 以“端到端语音理解—推理—合成”为核心路径，解决了传统“识别—推理—合成”多阶段带来的延迟与风格割裂问题。

2025/08/29 04:27:25 阅读 472

GPTRealtime/OpenAI/S2S/Speech-to-Speech

来自OpenAI官方的GPT-5编码提示词优化实践：6 条“更懂开发者”的提示工程技巧

GPT-5 在指令遵循和推理能力上比前代更强，但也因此更“敏感”：如果规则里有冲突或表述过度强硬，模型往往会卡壳或输出异常。为此，OpenAI 发布了面向开发者的《GPT-5 for Coding》技巧小抄，其中总结了使用 GPT-5 进行编程与代码生成时最实用的六条经验。这些技巧与普通的“写作提示工程”不同，它们专门针对软件开发场景：如何写规则、怎样控制推理强度、如何避免模型“想太多”，以及怎样利用 GPT-5 的新特性把它真正驯化成可靠的结对编程伙伴。本文对这六条技巧逐条进行解释总结。

2025/08/16 21:48:20 阅读 485

GPT-5/Prompt/PromptEngineering/提示词工程

xAI发布Grok Imagine功能，一条文本命令即可生成图片和最长达15秒的视频，也可以基于现有照片生成视频，免费用户也可以使用~

Grok Imagine 是一个由 xAI 开发的创新功能，集成到 Grok AI 聊天机器人中，旨在让用户能够从文本和视觉命令快速生成图像和视频。Grok Imagine最大的特点是能够生成长达 15 秒的视频，带有同步音频，使其成为 OpenAI 的 Sora 和 Google 的 Veo 3 等工具的直接竞争者。此外，它还包括一个“Spicy”模式，允许生成成人或显式内容，这一点引发了伦理和潜在误用的争议。

2025/08/08 22:07:14 阅读 1554

GrokImagine/图像生成/图像编辑/图片生成视频/文本生成图片

OpenAI发布GPT-5：这是一个包含实时路由的AI系统，而不仅仅是一个模型

几个小时前，OpenAI发布了全新一代大模型GPT-5系列。本次发布的是一个全新的AI系统，而非一个单独的模型系列。GPT-5背后包含了5个不同的模型系列或者版本，分别是GPT-5-Pro、GPT-5、GPT-5-mini、GPT-5-nano和GPT-5-Chat。

2025/08/08 08:45:13 阅读 615

GPT/GPT-5/GPT-5Reasoning/OpenAI

OpenAI Harmony 消息格式技术详解：一种为高级 Agent 设计的精细化消息格式

近日，OpenAI在发布其开源模型gpt-oss-120b和gpt-oss-20b的同时，也推出了一种专为这些模型设计的全新消息格式——Harmony。对于希望在自有解决方案中充分利用这些开源模型的开发者而言，理解Harmony至关重要。本文将以客观的第三方视角，详细解析Harmony格式的设计理念与技术细节。

2025/08/07 17:17:38 阅读 764

OpenAIHarmony消息格式/大模型技术

如何评价大模型和AI Agent在命令行环境中执行工具解决任务的能力？Terminal Bench评测简介

Terminal-Bench是一个新兴的开源基准测试，专为评估人工智能Agent（AI Agent）在命令行终端环境中的实际操作能力而设计。它通过一系列模拟真实世界场景的复杂任务，旨在客观、可量化地衡量AI Agent在执行代码编译、服务器管理和数据处理等任务时的熟练程度与自主性。

2025/07/23 16:56:16 阅读 751

AIAgent评测/TerminalBench/大模型评测/评测基准

阿里开源全新编程大模型Qwen3-Coder-480B-A35B，官方宣称其编程水平接近Claude Sonnet 4，免费开源可商用，同时开源Claude Code免费平替选择Qwen Code

阿里宣布开源第三代编程大模型Qwen3-Coder-480B-A35B，该模型是Qwen3编程大模型中第一个开源的版本，同时官方还基于Google的Gemini CLI改造并开源了阿里自己的命令行编程工具Qwen Code，完全免费使用。

2025/07/23 08:30:01 阅读 935

Agentic编程/Qwen-Coder/Qwen3/编程大模型

Vibe Coding再迎重磅玩家，AWS发布AI IDE：Kiro，你可以直接通过自然语言来生成代码，创建网站、游戏或者程序了。

Kiro 是一款AWS刚发布的、具有代理（agentic）能力的集成开发环境（IDE），它的目的是希望通过简化的开发者体验，帮助开发者从概念原型无缝过渡到生产级别的应用。它的核心理念是“规格驱动开发”（spec-driven development），以解决当前 AI 编程从有趣的原型到可靠的生产系统之间存在的鸿沟。

2025/07/15 23:21:36 阅读 640

AIIDE/Kiro/VibeCoding/自然语言编程

如何评估向量大模型在多种任务上的表现？Massive Text Embedding Benchmark（MTEB）评测介绍

MTEB是一个用于评估向量大模型向量化准确性的评测排行榜。它全称为Massive Text Embedding Benchmark，是一个旨在衡量文本嵌入模型在多种任务上表现的基准测试。

2025/07/15 18:48:21 阅读 366

MTEB/RAG评测/向量大模型评测/大模型向量能力评测基准/大模型嵌入能力评测

如何评估大模型的创意写作能力？Creative Writing v3 评测基准介绍

Creative Writing v3 是一个用于评估大型语言模型（LLM）创意写作能力的评测基准。该基准采用混合评分系统，旨在更精确地区分不同模型，特别是顶尖模型之间的性能差异。

2025/07/15 17:33:32 阅读 849

CreativeWriting/大模型评测/大模型评测基准/大模型评测能力介绍/评测基准

【辟谣，该数据是预测】重磅！疑似GPT-5评测结果泄露，超过当前所有模型评分，人类最后难题得分56.6，比当前最好模型还要高27%，大幅超过Gemini 2.5 Pro，Grok 4 Heavy等

刚刚，X平台疑似泄露出GPT-5的评测结果，共四项评测结果，均排名第一。根据泄露的信息，GPT-5的评测包含2个不同的版本，分别是基础版本的GPT-5以及带推理模式的GPT-5 Reasoning。各项评测结果均大幅超越当前现有其它模型，都是第一！且都是断档领先！

2025/07/14 11:56:22 阅读 802

GPT/GPT-5/GPT-5Reasoning/OpenAI

MistralAI发布全新编程大模型：24B开源Devstral Small 1.1在SWE-Bench Verified评分超过旧版DeepSeek R1，编程大模型新的替代

编程领域大模型一直是进展非常快的大模型领域。因为编程能力更强的模型，通常在逻辑思维、工具调用上有更好的表现，在很多领域，特别是Agent领域有很大的应用价值。今天法国人工智能明星公司MistralAI发布了2个全新的编程大模型，分别是Devstral Medium和 Devstral Small 1.1，后者是一个开源的240亿参数的编程大模型。

2025/07/11 20:06:06 阅读 470

DevstralMedium/DevstralSmall/MistralAI/编程大模型/领域大模型

AIME 2025满分，xAI正式发布Grok模型，其中Grok 4 Heavy评测超越当前所有大模型，美国数学竞赛满分！一年3000美元订阅费！

马斯克旗下的xAI公司正式发布Grok4大模型，包含Grok 4和Grok4 Heavy版本，其中Grok4 Heavy是一个Agent系统，在AIME2025（美国的数学邀请赛）得分满分，超过了所有大模型。此前透露的Grok 4 Code和视频生成能力都没有发布。

2025/07/10 16:15:56 阅读 967

Grok4/Grok4Code/GrokHeavy/xAI/大模型/马斯克

ARC-AGI-2：重塑大模型通用智能评测

人工智能（AI）的通用智能（AGI）发展一直是研究领域的焦点。近期，由 ARC Prize 基金会推出并由 AI 研究者 François Chollet 联合发起的 ARC-AGI-2 评测基准，为衡量大模型在未知情境下的实时推理能力和学习效率提供了新的视角。

2025/07/10 12:51:46 阅读 561

ARC-AGI-2/大模型评测/大模型评测基准/评测基准

Grok-4未发布评测结果已泄露：2个版本，支持长推理输出，但是最高上下文仅132K，泄露的评测数据显示Grok4是迄今为止得分最高的大模型，甚至大幅超越Gemini 2.5 Pro！

Grok4是马斯克旗下大模型初创企业xAI的第四代代码，在五月份的时候，马斯克就透露他们马上要发布Grok 3.5模型，六月份的时候说这个模型效果很好，版本号就直接改为4，这中间经过多次波折，最终马斯克说Grok 4将在7月4日之后发布。截止目前，虽然xAI官方没有正式宣布Grok 4，但是目前Grok 4已经透露了很多的消息。本文将对这些信息做总结和分析。

2025/07/05 11:30:43 阅读 991

Grok4/Grok4Code/xAI/大模型/马斯克

最新博客