DeepSeek团队发布OCR模型
DeepSeek-AI团队发布《DeepSeek-OCR: Contexts Optical Compression》论文,利用视觉模态压缩长文本上下文的新方法,可将文本信息映射为二维图像并高效解码。
传统的 OCR 是图像到文本,把图片里的字识出来然后输出成字符序列。但 DeepSeek 这次反着来:它把文字重新画成图,再用视觉模型去理解这张图,然后再从视觉特征里还原出文字,实现10倍压缩下97%识别精度,20倍压缩仍保持约60%。

1收藏投诉

DeepSeek-AI团队发布《DeepSeek-OCR: Contexts Optical Compression》论文,利用视觉模态压缩长文本上下文的新方法,可将文本信息映射为二维图像并高效解码。
传统的 OCR 是图像到文本,把图片里的字识出来然后输出成字符序列。但 DeepSeek 这次反着来:它把文字重新画成图,再用视觉模型去理解这张图,然后再从视觉特征里还原出文字,实现10倍压缩下97%识别精度,20倍压缩仍保持约60%。
