所以呢?AI不太行,有问题那不是很正常么
这么打个比方,你 写了一大篇 来贬低一个 3 岁小孩的智商
是想干啥呢? 证明这个小孩以后 没前途?
【 在 qtpr 的大作中提到: 】
: 标 题: Re: 理解Moravec悖论有助于理解大模型的局限
: 发信站: 水木社区 (Mon Mar 24 09:44:09 2025), 站内
:
: 举个例子:让我deepseek尝试证明一个很小的初等代数问题。它假装分析了一通,给出了一个“证明”,在解析证明之外还做了数值验证,看上去煞有介事似乎很严谨。其实证明根本是不成立的,它根本不自知,还骗我说已经证明了(当然它不是有意骗,实际上它根本不知道自己在说什么
: 呛恰
:
:
:
: 【 在 qtpr 的大作中提到: 】
: : Moravec悖论的诘问是:为何AI能够完成一些在人看来很困难的任务,例如战胜国际象棋世界冠军,却经常在一些对普通人而言很简单的任务上失败?就数学证明而言,Moravec悖论依然成立。对人来说,发现并形式构造一个非琐碎数学命题的证明过程往往不容易;作为对比,如果已有一
: 鲋っ鞴蹋觳槠涫欠裾吠喽匀菀椎枚唷S腥さ氖牵竽P停↙LM)的表现似乎恰好相反—通常能够快速生成符合基本形式规范的“证明过程”,但无论是自查还是互查,LLM都无法以足够高的准确率判定证明过程的正确性。出现这种反差的原因实际上并不难理解,只需了解LLM的基
: 竟ぷ髟怼
: : LLM生成证明的方式与生成文本的机制是基本相同的,其算法框架都可归结为早已有之的统计语言模型(SLM)。SLM的核心计算是估计条件概率Pr(wn+1|wn,…,w1),即在给定上文n个单词(wn,…,w1)的条件下,估计单词wn+1出现的概率。这个概率的计算一般需要基于大量文本的统计信息
: 。对于文本类任务(例如机器翻译或问答系统)来说,按照这个概率来顺序地生成一个词序列,并将其作为任务模型的输出(即译文或对提问的回答)是问题不大的。如此生成的任务输出虽然经常也会出现一些瑕疵,但它们至少看上去都可接受。因为他们的生成毕竟都基于大量人类文本的
: 臣乒媛桑徊⑶遥谋纠嗳挝竦氖涑鐾强判缘模C挥醒细竦亩源肀曜迹阅P偷氖涑黾词褂幸恍┓闯VΓ苍谝欢ǔ潭壬峡梢员焕斫馕鲂缘谋泶锓绞健5杂诙ɡ碇っ鞫裕鲜鲆览涤谕臣频墓ぷ鞣绞骄;岬贾略帜研缘暮蠊蛭耆焕斫猓ㄉ踔粮静还刈ⅲ┪谋荆
: 包括数学符号)间的统计相关是否等于逻辑关系,以及上述逻辑关系的适用条件。考虑如下假想的例子:某LLM为证明“A蕴含C”,构造了如下的证明序列——“A蕴含B,B蕴含C”。显然,此证明序列之所以可能被LLM生成,是因为在其语料库中,分别存在“A蕴含B”和“B蕴含C”的文本。
: 牵绻鸏LM不能理解语料上下文中所给出的“A蕴含B”和“B蕴含C”的适用条件,而仅凭这两个符号串曾分别在若干语料中出现过这个观察就生成了这样一个证明序列,往往会得到一个无效的证明。现实中的情况甚至可能更糟糕,因为在很多语料中,有些基本前提是隐而不述,例如初等
: 南字幸话悴换崦魅返厮怠叭鬺1和l2是平行线,则两者不相交”的前提是只考虑欧几里得几何。所以,如果LLM在解一个黎曼几何中的问题时错误地使用了“若l1和l2是平行线,则两者不相交”这个结果,完全不令人惊讶。这是因为LLM的语料中可能混杂着欧几里得几何和黎曼几何的文献
: ,但建立在统计相关估计机制上的LLM没有能力,甚至也并不太关注如何去建模和理解数学概念之间的复杂逻辑谱系,因此就无法准确判断数学结果之间的相容性。所以,它在构造“证明序列”时很可能只基于文本片段在语料库中的出现频次而将并不相容的数学结果错误地连接起来,生成完
: 全无意义的“证明序列”。这样的大模型不具备真正的逻辑理解和推理能力,自然也就无法基于逻辑检查一个证明的对错,即表现出了典型的Moravec悖论现象。
: : ———————————————————————————————————————————————————————————————————
: : ...................
: [upload=1][/upload][upload=2][/upload]
: --
:
: ※ 来源:·水木社区
http://www.mysmth.net·[FROM: 111.167.232.*]
:
--
FROM 124.207.188.194