各位，如何搞定大模型的不确定性？

水木社区手机版

主题:各位，如何搞定大模型的不确定性？
楼主|chunhui|2025-11-28 16:50:06|展开
比如这样的问题：我让ai修改一个表格，先修改a行b列，再修改a行c列。十几天以来，一直没问题。但今天，当作第二次修改的时候，它总是修改到a行b列上去。关键是它大多数好使，偶尔不确定。这就让你没办法彻底放心。其实也有其它的类似不确定的问题，这些问题不像写代码可以通过编译，通过测试用例。
有什么好办法对付这种问题么？
--
FROM 124.64.43.*
2楼|chunhui|2025-11-28 19:19:25|展开
这个只是个修改文本文件的功能，claude code的自定义命令。不是代码。没有测试用例。
【在 z16166 的大作中提到: 】
: 测试用例没跑通，就让它返工修改
--
修改:chunhui FROM 124.64.43.*
FROM 124.64.43.*
4楼|chunhui|2025-11-28 21:04:47|展开
我试试，关键是这个东西它已经正常好些天了，突然今天就不准了。所以你没办法信任它是靠谱的。ai很多时候都是这样不确定。是个问题。
【在 semipunk 的大作中提到: 】
: 把你的要求放在硬约束：后面试试
: 以通过编译，通过测试用例。
--
FROM 124.64.43.*
6楼|chunhui|2025-11-28 21:17:55|展开
和之前的对话没任何关系。这是自定义的claude code的slash command。也就是一个提示词。有两个子命令，每个子命令更新自己所在表格。先执行a，/clear, 后执行b。但神奇的是b总是更新到a的表格中。今天突然出现的。我怀疑是glm4.6为了提高性能，过度使用了缓存。
【在 semipunk 的大作中提到: 】
: 大模型行为和上下文有关。最好在同一对话中执行操作，而且必须反复提醒它回顾对话和它相应的操作。大模型没有记忆，每一次问答它都会重看之前段所有对话
--
FROM 124.64.43.*
8楼|chunhui|2025-11-28 21:52:44|展开
我这个不是写代码。只是自定义命令想让ai自动修改文件。换成kimi就没问题了。之前glm4.6也一直没问题。反正是比较奇怪。
ai很多时候都会遇到这种不确定的问题。尤其是无法验证的东西，就更不好弄。
【在 semipunk 的大作中提到: 】
: 一个prompt本身就是对话。不过我很少vibe coding。你的情况没有发言权
--
FROM 124.64.43.*
10楼|chunhui|2025-11-29 17:49:39|展开
这是一个办法。其实自己写个程序给ai调用也可以。就是稍微有点麻烦。实在不行就这么弄。
【在 walker0000 的大作中提到: 】
: 那就转换成确定的啊，让他写出程序，测试通过之后用程序来修改表格，这样就没问题了
--
FROM 124.64.43.*
12楼|chunhui|2025-11-29 20:35:45|展开
严格来说我这个可以直接用程序解决。不需要ai。不过用ai弄实在简单。文字描述一下就可以了。而且用了好些天是正常的。就是那天突然有问题。
【在 butcher 的大作中提到: 】
: 你都知道这垃圾不确定，为啥还要确定呢。
: 在粪坑里找金子肯定是失望的。
: ü嘁耄ü馐杂美
: ...................
--
FROM 124.64.43.*
14楼|chunhui|2025-12-01 08:58:10|展开
是的。这种方式比较可靠。但我是图方便，一句话让ai作了。不过是前两天突然出问题。
或者是我这个修改文件的问题，严格来说完全可以让程序实现，并非不确定的问题。
【在 jacksonchu 的大作中提到: 】
: 固定格式任务建议让 AI 出脚本，测试成功之后用脚本比 Ai 靠谱
--
FROM 124.64.43.*
16楼|chunhui|2025-12-01 13:40:55|展开
这是我自己写着玩的。如果出错我看一下修改就行了，先凑合着用。如果是正经应用，就得花点时间写个程序完成。否则这一步就无法离开人。
【在 yahaha 的大作中提到: 】
: 这个都会有的，模型里面为了发散思维都会有随机性。需要靠评价函数再把它拉回来，必然是个概率的问题。无非是个多大的概率问题。
: 这和人是一样。需要靠后期的手段来保障。
: ü嘁耄ü馐杂美
: ...................
--
FROM 124.64.43.*
18楼|chunhui|2025-12-01 15:27:09|展开
所以编码领域是最合适大模型的。因为有编译器测试用例把关。
确定性，上下文限制，动态学习如果这三个突破了，那大模型才敢说像agi靠近。现在还远的很。
【在 nosnap 的大作中提到: 】
: 模型自己也在更新数据库不断的学习，可能进化得更好，也可能变差，稳定性还真是不如脚本
: ü嘁耄ü馐杂美
: 发自「今日水木 on HBN-AL00」
: ...................
--
FROM 124.64.43.*