用文本智能助力AGI落地，多模态文本智能大模型前沿技术与应用论坛召开

来源：紫牛新闻

2025-10-21 12:43:00

随着人工智能深入各行各业，多模态大模型正在成为AI发展的重要方向之一。近期，由中国图象图形学学会、中国人工智能学会、中国计算机学会和中国自动化学会联合主办，上海交通大学承办的第八届中国模式识别与计算机视觉学术会议（PRCV 2025）顺利举行。大会期间，“多模态文本智能大模型前沿技术与应用”论坛（简称“论坛”）获得了广泛关注。论坛汇集了来自华南理工大学、哈尔滨工业大学、南开大学、华中科技大学、小红书及合合信息技术团队的顶尖专家与学者，深入探讨多模态文本智能领域的最新技术突破与场景应用案例。

中国图象图形学学会(CSIG)常务理事、华南理工大学教授金连文

如同人类需要同时调用视觉、听觉、触觉等多感官来全面地理解外部世界，大模型也需要综合处理文字、图片、表格等文本信息后做出判断。“实战”应用标准对大模型的多模态内容深度整合能力提出了新的要求，语义割裂、场景理解局限、决策失误等常见的模型缺陷制约了其在行业中的应用发展。论坛期间亮相的“多模态文本智能技术”方案，可通过文本相关空间位置理解深层语义逻辑，实现对多模态信息的“立体化综合化理解”，赋予模型真正的文本“阅读理解”能力。

文本智能技术助力解决多模态AI应用难题

多模态指利用多种不同形式或感知渠道的信息进行表达、交流和理解的方式，数据模态包括文本、图像、音频、视频等。2025年Gartner人工智能技术成熟度曲线显示，多模态AI将在未来五年成为各行业提升所有应用和软件产品功能的核心技术。围绕多模态大模型性能优化及行业应用等问题，论坛嘉宾开展了一场深刻的讨论。

为了助力大模型实现跨越模态的推理能力，哈尔滨工业大学计算学部长聘教授、博士生导师车万翔重点分享了“多模态思维链”技术，该技术将推理逻辑分解为一系列可解释的跨模态推理步骤，最终生成更为精准和可靠的结论。除了帮助大模型理清逻辑，解决“胡编乱造”问题也是提升AI能力的重要方向。南开大学教授周宇则介绍了一种系统化的OCR幻觉缓解方案，为多模态大模型的可视文本感知能力提升提供了有效路径。

哈尔滨工业大学计算学部长聘教授、博士生导师车万翔教授进行主题分享

南开大学教授周宇进行主题分享

真实的应用场景是技术不断迭代更新的动力。论坛现场，合合信息图像算法研发总监郭丰俊重点分享了文本智能技术的创新应用，帮助用户解决复杂场景下的文档图像问题。小红书hi lab团队算法工程师燕青结合行业实践，分享了一款基于单视觉语言模型的多语言文档布局解析工具“dots.ocr”。

合合信息图像算法研发总监郭丰俊进行主题分享

小红书hi lab团队算法工程师燕青进行主题分享

除了商业应用，在文保领域，多模态大模型也发挥出了巨大价值。华中科技大学教授刘禹良在主题演讲中介绍了首个覆盖甲骨文专家破译全流程的辅助考释框架AlphaOracle，通过人类工作流启发的音形义理破译流程，实现字形分析、拓片用法总结和传世文献做证的思路，成功在“劳”等字的辅助破译上取得突破。

华中科技大学教授刘禹良进行主题分享

多模态文本智能技术构建“感知-认知-决策”技术新范式

实现具备自主感知、认知与决策能力的通用人工智能（AGI），首要前提是让机器充分理解作为知识载体的“文本”。基于此，合合信息的“多模态文本智能技术”方案，将技术处理对象从传统的文档（如PDF、Word等格式文件）延伸至多种承载文本信息的媒介，无论是论文、财报还是视频、自然场景，都能成为系统的理解对象，还建立了从复杂场景文本感知到深层语义理解的技术闭环，让AI不仅能够“看清”文本，更能够理解其布局关联，解决不同模态间的信息割裂问题。

目前，“多模态文本智能技术”方案已将文本智能认知程度从语义理解拓展到类人推理及自主机器决策，形成了从感知到认知再到决策的技术实现路径。

随着多模态大模型融入产业进程，行业对AI系统的需求正从“功能实现”向“业务赋能”深化。例如上述方案已在金融、医药、教育等专业领域开展应用，通过对复杂文本的精准感知、综合理解和可靠决策，实现对业务流程的智能重构。

何禾晓风