最新AI大模型咨询与技术解读——来自DataLearnerAI

OpenAI开源大模型调测工具Transformer Debugger（TDB）：可以在训练大模型之前理解模型的运行情况并干预

自从OpenAI转向盈利化运营之后，很少再开源自己的技术。但就在刚才，OpenAI开源了一个全新的大模型调测工具：Transformer Debugger。这个工具可以帮助开发者调测大模型的推理情况，帮助我们理解模型的输出并提供一定的解释支持。

2024/03/12 16:06:53 阅读 500

OpenAI/TransformerDebugger/大模型可视化/大模型解释

开源多模态大模型新选择：DeepSeekAI（深度求索科技）开源全新多模态大模型DeepSeek-VL模型，包含可在手机端运行的13亿规模tiny多模态模型。

深度求索是著名量化机构幻方量化旗下的一家大模型初创企业，成立与2023年7月份。他们开源了很多大模型，其中编程大模型DeepSeek-Coder系列获得了非常多的好评。而在今天，DeepSeek-AI再次开源了全新的多模态大模型DeepSeek-VL系列，包含70亿和13亿两种不同规模的4个版本的模型。

2024/03/11 14:11:26 阅读 1649

DeepSeek-VL/DeepSeekAI/多模态大模型

评测结果超过GPT-4，Anthropic发布第三代大语言模型Claude3，具有多模态能力，实际评测表现优秀！

Anthropic被认为是最像OpenAI的一家公司。他们推出的Claude2模型是全球首个支持200K超长上下文的商业模型。在PDF理解方面被认为表现优秀。就在2023年3月4日，Anthropic推出了他们的第三代大语言模型Claude3，包含3个不同的版本，支持多模态和最高100万上下文输入！

2024/03/05 23:21:28 阅读 807

Anthropic/Claude3/Claude3-Opus/Claude大模型

StarCoder2发布，开源编程大模型又一个强大选择！

在近年来，随着人工智能技术的飞速发展，大型语言模型（LLM）在代码生成和编辑领域的应用越来越广泛，成为软件开发中不可或缺的助手。今天，我想向大家介绍一个由BigCode项目与Software Heritage合作开发的下一代代码大型语言模型——StarCoder 2。

2024/03/01 18:54:33 阅读 836

StarCoder2/编程大模型

重磅！谷歌开源Gemini同源技术大模型Gemma，分别为70亿参数和20亿参数，同等规模参数评测极其优秀！

Google Gemini是谷歌最新推出的和OpenAI竞争的大语言模型。尽管Gemini褒贬不一，但是Gemini模型的影响力是巨大的。而现在更加令人激动的是谷歌开源了2个新的不同参数规模的模型，分别是Gemma 7B和Gemma 2B，其技术与Gemini模型一致。但是这两个开源模型完全公开，可以商用授权。

2024/02/21 22:02:28 阅读 2627

Gemini/Gemma/Google/开源大模型

截止目前可能是全球最快的大语言模型推理服务：实机演示Groq公司每秒500个tokens输出的450亿参数的Mixtral 8×7B模型

大模型的推理速度是当前制约大模型应用的一个非常重要的问题。在很多的应用场景中（如复杂的接口调用、很多信息处理）的场景，更快的大模型响应速度通常意味着更好的体验。但是，在实际中我们可用的场景下，大多数大语言模型的推理速度都非常有限。慢的有每秒30个tokens，快的一般也不会超过每秒100个tokens。而最近，美国加州一家企业Groq推出了他们的大模型服务，可以达到每秒接近500个tokens的响应速度，非常震撼。

2024/02/19 18:25:08 阅读 1504

Groq/LPU/大模型加速/大模型推理加速

通俗易懂地解释OpenAI Sora视频生成的特点有哪些？Sora与此前的Stable Video Diffusion、Runway Gen2、Pika等有什么区别？OpenAI Sora的缺点是什么？

OpenAI的Sora模型是最近两天最火热的模型。它生成的视频无论是清晰度、连贯性和时间上都有非常好的结果。在Sora之前，业界已经有了很多视频生成工具和平台。但为什么Sora可以引起如此大的关注？Sora生成的视频与此前其它平台生成的视频到底有哪些区别？有很多童鞋似乎对这些问题依然有疑问，本文将以通俗的语言解释Sora的独特之处。

2024/02/17 23:55:05 阅读 1388

OpenAISora/Sora/视频生成大模型

OpenAI发布全新文本生成视频大模型Sora，可以生成无比逼真的最长60秒的视频，且生成的视频尺寸可以任意指定

OpenAI宣布发布全新的Diffusion大模型Sora，这是一个可以生成最长60秒视频的视频生成大模型，最大的特点是可以生成非常逼真的电影画面版的视频。

2024/02/17 09:45:12 阅读 1563

OpenAISora/Sora/视频生成大模型

MistralAI可能即将发布新的大语言模型，Mistral Next悄悄登场Chat Arena！

MistralAI又悄悄地上线了另一个模型，即Mistral Next。相比之前的发布预训练种子引起大家猜测的方式，本次MistralAI又把模型发布玩出了花，他们没有公布任何信息，选择直接上架LM-SYS的大模型竞技场Chat Arena，让大家直接体验对比。

2024/02/16 18:28:04 阅读 556

MistralAI/MistralNext/Mistral大模型

重磅！第二代通义千问大模型开源，阿里巴巴一口气开源了30个不同参数规模的模型，其中Qwen1.5-72B仅次于GPT-4.

今天阿里巴巴开源了他们家第二代的Qwen系列大语言模型（准确说是1.5代），从官方给出的测评结果看，Qwen1.5系列大模型相比较第一代有非常明显的进步，其中720亿参数规模版本的Qwen1.5-72B-Chat在各项评测结果中都非常接近GPT-4的模型，在MT-Bench的得分中甚至超过了此前最为神秘但最接近GPT-4水平的Mistral-Medium模型。

2024/02/06 01:35:59 阅读 4606

Qwen/Qwen1.5/Qwen2/千问大模型/通义千问/通义千问大模型

MetaAI官宣开源编程大模型CodeLLaMA！基于LLaMA2微调！超越OpenAI的Codex，最高支持10万tokens输入！

MetaAI发布的LLaMA系列开源大语言模型已经是开源大模型领域最重要的力量了。相当多的所谓开源大模型都是基于这个模型微调得到。在上个月，LLaMA2发布，吸引了全球非常多的关注，也有相当多的后续模型基于LLaMA2进行优化。而今天MetaAI再次开源全新的编程大模型——CodeLLaMA系列，这是MetaAI第一次发布编程大模型，本次发布的CodeLLaMA共有9个版本，分别是CodeLLaMA系列、针对Python优化的CodeLLaMA-Python系列和针对指令优化的CodeLLaMA-Inst

2024/01/30 10:31:51 阅读 4551

CodeLLaMA/LLaMA2/编程大模型

OpenAI发布新一代向量大模型，接口已经更新到text-embedding-3-large，embedding长度升级，价格最高下降5倍！

决定向量检索准确性的核心是向量大模型的能力，即文本转成embedding向量是否准确。今天，OpenAI宣布了他们第三代向量大模型text-embedding，模型能力增强的同时价格下降！

2024/01/26 14:40:34 阅读 2439

OpenAI/text-embedding-3/向量大模型

GPT-5可能是什么样？网友总结了Sam在达沃斯论坛中的几场演讲，抽取了Sam演讲中包含的GPT-5相关的内容

OpenAI的CEO Sam最近参加了世界经济论坛，发表了几场演讲。有网友听了完整的Sam的4-5场演讲，并从中抽取了Sam关于GPT-5相关的论述。从中我们可以看到未来GPT-5可能的样子。这里为大家总结翻译一下。

2024/01/23 13:13:46 阅读 789

GPT-5/OpenAI/Sam/大模型洞察/大模型进展

大模型领域的GGML是什么？GGML格式的大模型文件与原有文件有什么不同？它是谁提出的？如何使用？

GGML是在大模型领域常见的一种文件格式。HuggingFace上著名的开发者Tom Jobbins经常发布带有GGML名称字样的大模型。通常是模型名+GGML后缀，那么这个名字的模型是什么？GGML格式的文件名的大模型是什么样的大模型格式？如何使用？本文将简单介绍。

2024/01/20 10:48:01 阅读 3777

GGML/大模型加速/大模型工具/大模型文件格式

Google前AI研究人员认为2024年可能不会出现能与GPT-4竞争的开源模型/产品

OpenAI在2023年3月份发布了GPT-4，10个月过去了，目前也没有任何一家产品或者模型可以打败GPT-4。但是，很多人都对2024年抱有非常好的期待，认为2024年会出现能与GPT-4竞争的大模型。包括MistralAI的CEO也说他们会在2024年发布性能媲美GPT-4的大模型。但是，Google前AI研究人员，GalileoAI的联合创始人认为2024年也不会出现这种情况。

2024/01/02 10:54:48 阅读 617

GPT-4/开源大模型

2023年度巨献，一图总结2023年最重要的AI相关的产品和技术~共48个产品或技术上榜

2022年11月底，ChatGPT横空出世，全球都被这样一个“好像”有智能的产品吸引力。随后，工业界、科研机构开始疯狂投入大模型。在2023年，这个被称为大模型元年的年份，有很多令人瞩目的AI产品与模型发布。2023年，DataLearner收集了大量的大模型，并发布了很多大模型相关的技术博客，在即将结束的2023年，我们以这个『2023年最令人瞩目的AI产品』结束本年的技术分享。

2023/12/29 13:02:56 阅读 920

2023大模型/大模型总结

6种大模型的使用方式总结，使用领域数据集持续做无监督预训练可能是一个好选择

Sebastian Raschka是LightningAI的首席科学家，也是前威斯康星大学麦迪逊分校的统计学助理教授。他在大模型领域有非常深的简介，也贡献了许多有价值的内容。在最新的一期统计中，他总结了6种大模型的使用方法，引起了广泛的讨论。其中，关于使用领域数据集做无监督预训练是目前讨论较少，但十分重要的一个方向。

2023/12/24 22:13:33 阅读 1470

大模型预训练/无监督预训练/有监督微调/领域大模型

不同参数规模大语言模型在不同微调方法下所需要的显存总结

大模型的微调是当前很多人都在做的事情。微调可以让大语言模型适应特定领域的任务，识别特定的指令等。但是大模型的微调需要的显存较高，而且比较难以估计。与推理不同，微调过程微调方法的选择以及输入序列的长度、批次大小都会影响微调显存的需求。本文根据LLaMA Factory的数据总结一下大模型微调的显存要求。

2023/12/22 22:12:58 阅读 3091

大模型微调/微调显存/推理显存/显存大小

OpenAI的GPT模型API接口新增的top_logprobs和logprobs参数是什么？有什么用处？为什么说这个参数可以帮助我们减轻大模型幻觉问题

在最新的OpenAI官方接口文档中，新增了top_logprobs和logprobs这2个参数。这2个参数是一起配合使用的。后者是一个布尔类型，表明模型的返回结果中是否增加输出每个token的概率，而top_logprobs参数是一个整数类型，取值范围是0-5之间。如果top_logprobs设置为true，那么模型会根据top_logprobs的设置结果，返回输出结果中每个token及其后续的n个单词的概率。

2023/12/17 14:24:19 阅读 1550

OpenAI/大模型困惑度/大模型幻觉/大模型接口

Google Gemini Pro多模态接口开放！DataLearnerAI第一时间测试Gemini Pro多模态能力，比想象惊喜！

Google Gemini是Google最新发布的大模型系列。这是一系列的多模态的大模型，谷歌官方宣布在各项评分中Gemini超过了GPT-4V。但是，谷歌的宣传视频过于夸张被很多人质疑造假嫌疑，导致被全网嘲讽。而今天，Google官方的Gemini多模态接口开放，DataLearnerAI第一时间申请测试，结果让人惊喜。

2023/12/14 01:07:54 阅读 895

Gemini/Gemini多模态/Google/多模态大模型/谷歌

GPT-4在11月份以来变懒的原因可能已经找到：大模型可能会在节假日期间变得不愿意干活，工作日期间却更加高效

最近一段时间，很多人普遍反映GPT-4变得懒散和愚笨，很多此前可以回答的问题在最近一段时间都无法回答，或者回答比较简单。为此，OpenAI官方也在前几天发布信息说的确收到了这样的信息，但是模型并没有在最近一个多月更新过，所以他们也在好奇是什么原因。而今天的一些测试表明，GPT-4模型会像人一样在不同的时间段有不同的效率。

2023/12/12 13:38:46 阅读 2541

ChatGPT/GPT-4/OpenAI/大模型懒惰

Meta上线了一个基于Emu文本生成图像大模型的图像生成系统Imagine：图像细节丰富、色彩鲜明、想象力很棒，而且免费使用！

在2023年的9月26日，MetaAI发布了一个Emu大模型，这是一个文本生成图像大模型，基于28亿参数的U-Net进行预训练得到，然后使用几千张高质量图像进行质量微调（Quality-Tuning）来提高模型的效果。不过，Emu模型并没有开源。但是，上周，Meta官方发布了一个全新的独立的文本生成图像系统Imagine，可以免费创作图像，质量很高。

2023/12/10 22:37:24 阅读 785

Emu/Emu大模型/Imagine/MetaAI/文本生成图像