自今年初文生视频大模型 Sora 引爆热议后,关于大语言模型的“理解”能力成为了热门话题。近日,美国软件巨头 Adobe 表示,将允许用户在其旗下的视频编辑软件中使用包括 Open AI 的 Sora 在内的第三方生成式人工智能工具。同时,马斯克旗下人工智能公司 xAI 也推出了首个多模态模型 Grok-1.5Vision,该模型除文本功能外,还可以处理各种各样的视觉信息,并能进行多学科推理。
在这一系列的发展中,一个核心的话题就是有人认为这些模型已经具有了“理解”能力,它们能够理解语言背后的逻辑,能够理解物理世界的运动规律。但当谈到“理解”的时候,我们不禁要问,有多少人知道自己心中的“理解”到底是什么?如果大家对于什么是“理解”都没有共同认识的话,讨论这些生成模型是否有“理解”能力就失去了意义。
“理解”是一个我们再熟悉不过的词汇了,它同时也是智能意识领域中最基本与核心的问题之一。从小到大,我们都在努力地去“理解”,也希望被别人理解。在受教育的过程中,几乎所有课程,都是讲授需要我们去理解的知识内容,然后用考试来检验我们是否理解课程。但却没有一门普及性的课程教授我们应该如何去理解。
只要是生理正常的人都一样地在正常呼吸,但是正常人之间的理解能力却是有很大的差异。如同一个老师教授的学生可以有很不同的结果表现。如果我们将人类的理性意识活动做简化,可以看到理解是认知的结果也是行动的前提,是人类理性意识活动的核心环节。
目前包括大语言模型在内的机器学习方法,接受的都是人类给其提供的用文字符号表达的内容,所以即使它有了某种“理解”,也仅仅是存在于文字符号这个抽象层面的,而做不到最为关键的回归关联理解。基于多种传感器构建“具身智能”的努力,包含了实现回归关联的意图。但是因为我们没有关于意识活动的基础科学理论来支撑这些努力,所以借助“具身智能”实现回归关联或“符号落地”这一目标能否实现以及能走多远,都还有待于在实践中去探索。
对于大语言模型的“理解”问题,我们需要更深入的思考和探讨,以推动人工智能领域的发展。