不仅能读懂还能帮你看懂讯飞星火成为打工人的“超级助手”

张安宝企业动态2024-04-29 14:45:509940

4 月 26 日，科大讯飞发布讯飞星火 V3.5 更新版本，首发星火图文识别大模型，赋予大模型感知现实世界的能力。这标志着国产大模型在支持图文输入领域的一次重要突破。

事实上，尽管先进的大模型在语言交互方面展现出了卓越的能力，但它们在图文识别领域的表现却不尽如人意。去年10月，华南理工大学针对此前发布的 GPT-4Vision做了一篇全面评测，结论是 GPT-4Vsion识别文字的能力比 OCR专用模型低了几十个点，尤其在手写中文文本识别中表现出明显的幻觉问题。[1]

国内多数面向 C 端的大模型应用产品较少具备图文识别能力。一家头部国产大模型应用的拍照识别功能仅支持“搜题”，无法在更多场景下使用。一些大模型应用甚至根本没有拍照选项，用户仅能通过输入文本与大模型交互。

然而，在日常工作和学习中，人们接触到的信息并不局限于纯文本。纸质合同、会议PPT、工作纪要等资料，如何才能让大模型帮助我们进行分析和整理呢？

讯飞星火通过其图文识别大模型，旨在从根本上解决这一问题。星火图文识别大模型具备对复杂板面的高精度解析，融合篇章语义的文字识别功能，以及覆盖多领域的专业符号识别等特点。借助该技术，讯飞星火可以实现对多媒体信息的深入理解，显著提高用户获取知识和学习的效率。无论是会议纪要、说明书、报纸还是书籍，都可以通过拍照快速得到大模型的识别与理解。

科大讯飞董事长刘庆峰说，经过多年积累，科大讯飞屡次在国际的图文识别、公式识别中获得大赛第一，为讯飞星火图文识别大模型的推出奠定了基础。

不仅能读懂还能帮你看懂讯飞星火成为打工人的“超级助手” 第1张

例如，科大讯飞针对大部分特定场景的图文识别做了专门优化，覆盖了书籍、学术论文、报纸、体检报告、PPT 等 31 个工作生活中最常见的典型场景，并针对其中最常见的 18 个板面要素进行优化，可实现对诸如页眉、页脚、标题、表格等要素的快速识别和处理，甚至针对复杂的公式、印章、二维码以及手写等元素也能准确识别。

不仅能读懂还能帮你看懂讯飞星火成为打工人的“超级助手” 第2张