理解Moravec悖论有助于理解大模型的局限

水木社区手机版

主题:理解Moravec悖论有助于理解大模型的局限
5楼|hut|2025-03-24 11:30:33|展开
作为普通小白，看看这个普及一下常识还可以
作为一个领域学者
还抱着这种老掉牙的东西以为是到此为此
不久前，南大周志华组的有篇会议最佳论文就是大模型规则理解方面的研究，这是学界
企业研发领域，微软研究院也有人在做这个方向的研究。
产业界，我跟豆包工作的师弟交流过几次，他目前也在做这方面的研究。

你看的那点东西，都是老掉牙的，要跟得上节奏啊，老图

【在 qtpr 的大作中提到: 】
: Moravec悖论的诘问是：为何AI能够完成一些在人看来很困难的任务，例如战胜国际象棋世界冠军，却经常在一些对普通人而言很简单的任务上失败？就数学证明而言，Moravec悖论依然成立。对人来说，发现并形式构造一个非琐碎数学命题的证明过程往往不容易；作为对比，如果已有一个证明过程，检查其是否正确往往相对容易得多。有趣的是，大模型（LLM）的表现似乎恰好相反—通常能够快速生成符合基本形式规范的“证明过程”，但无论是自查还是互查，LLM都无法以足够高的准确率判定证明过程的正确性。出现这种反差的原因实际上并不难理解，只需了解LLM的基本工作原理。
: LLM生成证明的方式与生成文本的机制是基本相同的，其算法框架都可归结为早已有之的统计语言模型（SLM）。SLM的核心计算是估计条件概率Pr(wn+1|wn,…,w1)，即在给定上文n个单词（wn,…,w1）的条件下，估计单词wn+1出现的概率。这个概率的计算一般需要基于大量文本的统计信息。对于文本类任务（例如机器翻译或问答系统）来说，按照这个概率来顺序地生成一个词序列，并将其作为任务模型的输出（即译文或对提问的回答）是问题不大的。如此生成的任务输出虽然经常也会出现一些瑕疵，但它们至少看上去都可接受。因为他们的生成毕竟都基于大量人类文本的统计规律；并且，文本类任务的输出往往是开放性的，经常没有严格的对错标准，所以模型的输出即使有一些反常之处，也在一定程度上可以被理解为个性的表达方式。但对于定理证明而言，上述依赖于统计的工作方式经常会导致灾难性的后果，因为它完全不理解（甚至根本不关注）文本（包括数学符号）间的统计相关是否等于逻辑关系，以及上述逻辑关系的适用条件。考虑如下假想的例子：某LLM为证明“A蕴含C”，构造了如下的证明序列——“A蕴含B，B蕴含C”。显然，此证明序列之所以可能被LLM生成，是因为在其语料库中，分别存在“A蕴含B”和“B蕴含C”的文本。但是，如果LLM不能理解语料上下文中所给出的“A蕴含B”和“B蕴含C”的适用条件，而仅凭这两个符号串曾分别在若干语料中出现过这个观察就生成了这样一个证明序列，往往会得到一个无效的证明。现实中的情况甚至可能更糟糕，因为在很多语料中，有些基本前提是隐而不述，例如初等数学文献中一般不会明确地说“若l1和l2是平行线，则两者不相交”的前提是只考虑欧几里得几何。所以，如果LLM在解一个黎曼几何中的问题时错误地使用了“若l1和l2是平行线，则两者不相交”这个结果，完全不令人惊讶。这是因为LLM的语料中可能混杂着欧几里得几何和黎曼几何的文献，但建立在统计相关估计机制上的LLM没有能力，甚至也并不太关注如何去建模和理解数学概念之间的复杂逻辑谱系，因此就无法准确判断数学结果之间的相容性。所以，它在构造“证明序列”时很可能只基于文本片段在语料库中的出现频次而将并不相容的数学结果错误地连接起来，生成完全无意义的“证明序列”。这样的大模型不具备真正的逻辑理解和推理能力，自然也就无法基于逻辑检查一个证明的对错，即表现出了典型的Moravec悖论现象。
: ———————————————————————————————————————————————————————————————————
: ...................
--
FROM 223.104.151.*
6楼|hut|2025-03-24 11:32:41|展开
我们研究ai的，不需要尝试就知道啊
你这暴露了自己是不理解原理啊

【在 qtpr 的大作中提到: 】
: 举个例子：让我deepseek尝试证明一个很小的初等代数问题。它假装分析了一通，给出了一个“证明”，在解析证明之外还做了数值验证，看上去煞有介事似乎很严谨。其实证明根本是不成立的，它根本不自知，还骗我说已经证明了（当然它不是有意骗，实际上它根本不知道自己在说什么），呵呵。
:
: [upload=1][/upload][upload=2][/upload]
--
FROM 223.104.151.*
7楼|hut|2025-03-24 11:37:22|展开
核心是规则理解能力
就是大模型不懂规则
比如3+5等于多少
我们学过规则，理解规则然后按规则来计算
然而现在的大模型只是文本联想
很肤浅的，达不到理解的程度
不过目前也有很多人在做这个事
进展会很快，简单的就是该用规则的时候用规则

目前为了克服大模型不懂规则，数据推理不靠谱
只有靠外在工具调用，以后就是在这些工具功能融合到大模型里面去就是了

【在 leafleter 的大作中提到: 】
: 写的很好！
: 你这里解释的只是大模型目前存在的问题，但是并不代表这些问题不能解决，而且在我看来有一些问题通过努力是可以解决的。
: 举几个例子，大模型经常会出现如下类型的错误：
: ...................
--
FROM 223.104.151.*
11楼|hut|2025-03-24 13:04:02|展开
赞你的眼光
【在 leafleter 的大作中提到: 】
: hut还是对大模型理解的更清楚一些！
: 赞！！！
--
FROM 183.212.114.*
18楼|hut|2025-03-24 18:55:18|展开
他那点夹生不熟的东西我早就搞得比他透彻
而且他那什么都不懂却自以为懂的态度
毫无科研人员的钻研精神
更让我看不上
他好歹这辈子都是靠ai吃饭的
没想到专业素养这么差

【在 leafleter 的大作中提到: 】
: 你和老图都是一类人，却见到就掐。
: 问题出在你和老图都太骄傲，自以为是，看不到对方的优点，无限放大对方的缺点。
: 你俩应该学会欣赏对方。
: ...................
--
FROM 223.104.151.*
27楼|hut|2025-03-24 20:28:26|展开
一看就是复制过来的
而且不是专业人员写的
暴露了你
【在 xxys001 的大作中提到: 】
: 如果是原创，
: 还是认真深刻思考了
: 给老图点赞
: ...................
--
FROM 223.104.151.*