De

DeepSeek-OCR

视觉大模型

DeepSeek-OCR

发布时间: 2025-10-20

1,190
模型参数(Parameters)
30.0
最高上下文长度(Context Length)
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度
暂无数据
最长输出结果
暂无数据
模型类型

视觉大模型

发布时间

2025-10-20

模型预文件大小

6.67 GB

推理模式
常规模式(Non-Thinking Mode)

开源和体验地址

代码开源状态
预训练权重开源
MIT License - 免费商用授权
GitHub 源码
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
接口价格
暂无公开的 API 定价信息。

DeepSeek-OCR模型在各大评测榜单的评分

当前尚无可展示的评测数据。

发布机构

DeepSeek-OCR模型解读

DeepSeek-OCR 简介

DeepSeek-OCR 是 DeepSeek-AI 开源的视觉-文本模型,面向 “Contexts Optical Compression” 场景,从 LLM 中心视角研究视觉编码器在 OCR/文档理解中的作用。官方仓库提供 vLLM 与 Transformers 推理脚本,并给出针对图片与 PDF 的批处理与并发示例。

架构与技术要点

模型以视觉输入驱动文本输出(Image→Text),仓库与模型卡显示其作为基于 deepseek_vl_v2 的视觉-语言模型家族成员进行发布。模型卡标注参数规模为 3B(约 30 亿参数),权重以 safetensors 形式提供。README 中给出了多种分辨率/视觉 token 设定(如 512×512/640×640/1024×1024/1280×1280 以及动态分辨率“Gundam”模式),用于在不同精度与吞吐之间权衡。

核心能力与支持模态

官方示例覆盖通用 OCR、版面保持的 Markdown 转写、图表/图形解析以及基础的定位/指代(<|grounding|>, <|ref|> 提示)。推理接口以单/批模式运行,README 示例显示在 A100-40G 上处理 PDF 的并发速率约为 “~2500 tokens/s”。

数据与评测

仓库 README 与模型卡未提供标准化基准(如 OCR SROIE、DocVQA 等)的量化分数,亦未提供训练数据细节。因此本段不作推断。

访问与许可

模型以 MIT 许可开源,权重与代码分别托管于 Hugging Face 与 GitHub。未发现该特定模型的官方在线交互演示页;开发者可直接通过 Transformers 或 vLLM 在本地/服务器侧部署。

来源:GitHub README(安装/推理/分辨率与模式、并发示例)、Hugging Face 模型卡(参数规模、许可、文件大小与初次发布时间)。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat