居然这么久才看到回复我的未读提示,严重感谢大王,你一定仔细研究过。
你说得没错,但偏重于处理过程的描述。我更像从稍微再技术点的角度帮着答疑一下。
我理解大模型就是先基于大量培训语料,抽象建立各个词元在超大(N)维空间中的各自坐标(向量值),然后再基于新的输入,通过不断计算和预测已有词元的下一个词元来实现答案的内容生成。
但我的问题是,transformer这个模型本身的能力背后的原理或逻辑对吗?我理解应该有上限。不说输入被污染导致虚幻这类事情,但毕竟社会是发展的,肯定有新的内容出现啊,无法全部从过去经验中得来,这跟模型本身的原理是否相冲突...
【 在 Barbarossa 的大作中提到: 】
: 没有天花板,大模型在不断演化,三天一小变,五天一大半。
: 大模型相当于把你的脑容量提高一亿倍,算力提高一亿亿倍。
: transformer原理非常简单,就是用来理解上下文含义的。具体工作原理如下,首先你输入文本,文本变成词元token,这一步只要查表就行。接下来词元变成词向量,这个向量其实大模型训练前都是随机数字,训练后,每个词向量包含了和它词意有关的词的信息,比如吃苹果,看苹果手机,苹果这个词元和上下文手机一块,就能识别这是应该是电子产品,和吃一块就能准确判断是食物。为什么这么神奇能?大语言模型训练的结果,喂了数十万亿互联网数据,就能准确知道他们的关系。因此,词向量本身里面包含了人类有史以来所有知识信息,这个信息量差不多三十万亿词元。
: ...................
--
FROM 223.160.131.*