DeepSeek-OCR

视觉大模型

DeepSeek-OCR

发布时间: 2025-10-20

1,477

GitHub Hugging Face 在线体验

模型参数（Parameters）

30.0

最高上下文长度（Context Length）

是否支持中文

不支持

推理能力（Reasoning）

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

暂无数据

最长输出结果

暂无数据

模型类型

视觉大模型

发布时间

2025-10-20

模型预文件大小

6.67 GB

思考模式

常规模式（Non-Thinking Mode）

开源和体验地址

代码开源状态

MIT License

预训练权重开源

MIT License - 免费商用授权

GitHub 源码

https://github.com/deepseek-ai/DeepSeek-OCR

Hugging Face

https://huggingface.co/deepseek-ai/DeepSeek-OCR

在线体验

暂无在线体验地址

官方介绍与博客

官方论文

DeepSeek-OCR: Contexts Optical Compression

DataLearnerAI博客

暂无介绍博客

API接口信息

接口速度（满分5分）

接口价格

暂无公开的 API 定价信息。

DeepSeek-OCR模型在各大评测榜单的评分

当前尚无可展示的评测数据。

发布机构

DeepSeek-AI

查看发布机构详情

DeepSeek-OCR模型解读

DeepSeek-OCR 简介

DeepSeek-OCR 是 DeepSeek-AI 开源的视觉-文本模型，面向 “Contexts Optical Compression” 场景，从 LLM 中心视角研究视觉编码器在 OCR/文档理解中的作用。官方仓库提供 vLLM 与 Transformers 推理脚本，并给出针对图片与 PDF 的批处理与并发示例。

架构与技术要点

模型以视觉输入驱动文本输出（Image→Text），仓库与模型卡显示其作为基于 deepseek_vl_v2 的视觉-语言模型家族成员进行发布。模型卡标注参数规模为 3B（约 30 亿参数），权重以 safetensors 形式提供。README 中给出了多种分辨率/视觉 token 设定（如 512×512/640×640/1024×1024/1280×1280 以及动态分辨率“Gundam”模式），用于在不同精度与吞吐之间权衡。

核心能力与支持模态

官方示例覆盖通用 OCR、版面保持的 Markdown 转写、图表/图形解析以及基础的定位/指代（<|grounding|>, <|ref|> 提示）。推理接口以单/批模式运行，README 示例显示在 A100-40G 上处理 PDF 的并发速率约为 “~2500 tokens/s”。

数据与评测

仓库 README 与模型卡未提供标准化基准（如 OCR SROIE、DocVQA 等）的量化分数，亦未提供训练数据细节。因此本段不作推断。

访问与许可

模型以 MIT 许可开源，权重与代码分别托管于 Hugging Face 与 GitHub。未发现该特定模型的官方在线交互演示页；开发者可直接通过 Transformers 或 vLLM 在本地/服务器侧部署。

来源：GitHub README（安装/推理/分辨率与模式、并发示例）、Hugging Face 模型卡（参数规模、许可、文件大小与初次发布时间）。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号，接受最新大模型资讯