DeepSeek-OCR
不支持
视觉大模型
2025-10-20
6.67 GB
DeepSeek-OCR 是 DeepSeek-AI 开源的视觉-文本模型,面向 “Contexts Optical Compression” 场景,从 LLM 中心视角研究视觉编码器在 OCR/文档理解中的作用。官方仓库提供 vLLM 与 Transformers 推理脚本,并给出针对图片与 PDF 的批处理与并发示例。
模型以视觉输入驱动文本输出(Image→Text),仓库与模型卡显示其作为基于 deepseek_vl_v2 的视觉-语言模型家族成员进行发布。模型卡标注参数规模为 3B(约 30 亿参数),权重以 safetensors 形式提供。README 中给出了多种分辨率/视觉 token 设定(如 512×512/640×640/1024×1024/1280×1280 以及动态分辨率“Gundam”模式),用于在不同精度与吞吐之间权衡。
官方示例覆盖通用 OCR、版面保持的 Markdown 转写、图表/图形解析以及基础的定位/指代(<|grounding|>, <|ref|> 提示)。推理接口以单/批模式运行,README 示例显示在 A100-40G 上处理 PDF 的并发速率约为 “~2500 tokens/s”。
仓库 README 与模型卡未提供标准化基准(如 OCR SROIE、DocVQA 等)的量化分数,亦未提供训练数据细节。因此本段不作推断。
模型以 MIT 许可开源,权重与代码分别托管于 Hugging Face 与 GitHub。未发现该特定模型的官方在线交互演示页;开发者可直接通过 Transformers 或 vLLM 在本地/服务器侧部署。
来源:GitHub README(安装/推理/分辨率与模式、并发示例)、Hugging Face 模型卡(参数规模、许可、文件大小与初次发布时间)。
关注DataLearnerAI微信公众号,接受最新大模型资讯