没有天花板,大模型在不断演化,三天一小变,五天一大半。
大模型相当于把你的脑容量提高一亿倍,算力提高一亿亿倍。
transformer原理非常简单,就是用来理解上下文含义的。具体工作原理如下,首先你输入文本,文本变成词元token,这一步只要查表就行。接下来词元变成词向量,这个向量其实大模型训练前都是随机数字,训练后,每个词向量包含了和它词意有关的词的信息,比如吃苹果,看苹果手机,苹果这个词元和上下文手机一块,就能识别这是应该是电子产品,和吃一块就能准确判断是食物。为什么这么神奇能?大语言模型训练的结果,喂了数十万亿互联网数据,就能准确知道他们的关系。因此,词向量本身里面包含了人类有史以来所有知识信息,这个信息量差不多三十万亿词元。
至于具体技术采用注意力机制,核心思想是三个要素 其中 Query(查询)表示当前任务的“问题”或“关注点”(如翻译到某个词时的当前状态)。 Key(键)表示输入各部分的“标签”,用于与Query匹配相关性。Value(值)表示输入各部分的“实际内容”,最终按权重聚合。比如你查字典时,Query是你的问题,Key是字典的目录,Value是对应页码的解释;你只需关注与问题最相关的目录项,无需通读全书。
【 在 Asimpleman 的大作中提到: 】
: 您老觉得当前的大模型,距离天花板还高吗?
:
: 个人对transformer 模型 的 根本能力缺乏了解和认知,想听听大虾见解
: --
: FROM 111.203.85.* [北京 联通]
--
修改:Barbarossa FROM 175.6.110.*
FROM 175.6.110.*