DeepSeek团队发布OCR模型

DeepSeek-AI团队发布《DeepSeek-OCR: Contexts Optical Compression》论文，利用视觉模态压缩长文本上下文的新方法，可将文本信息映射为二维图像并高效解码。

传统的 OCR 是图像到文本，把图片里的字识出来然后输出成字符序列。但 DeepSeek 这次反着来：它把文字重新画成图，再用视觉模型去理解这张图，然后再从视觉特征里还原出文字，实现10倍压缩下97%识别精度，20倍压缩仍保持约60%。

1收藏投诉