- 主题:八十亿人的embedding
Embedding(嵌入) 是将离散对象(如文本、图像、单词)映射到低维连续向量空间的技术,核心作用是保留对象间的语义或结构关联,方便机器学习模型处理。
在自然语言处理中,Word Embedding(词嵌入)是典型应用,比如Word2Vec、GloVe、BERT的词向量;在图像识别领域,可通过CNN提取图像特征作为图像嵌入,用于检索、分类等任务。
嵌入向量的维度通常远低于原离散空间维度,且相似对象的嵌入向量在空间中距离更近,这是其在语义检索、推荐系统、聚类分析等场景中发挥作用的关键。
受此启发,我们每个人也可以抽象为高维向量,人以类聚物以群分可以通过这个向量的欧式距离,或者余弦函数值来求得。好朋友根据求这个值很容易证明
--
FROM 171.219.162.*
没有看明白
【 在 lili2030 的大作中提到: 】
: Embedding(嵌入) 是将离散对象(如文本、图像、单词)映射到低维连续向量空间的技术,核心作用是保留对象间的语义或结构关联,方便机器学习模型处理。
: 在自然语言处理中,Word Embedding(词嵌入)是典型应用,比如Word2Vec、GloVe、BERT的词向量;在图像识别领域,可通过CNN提取图像特征作为图像嵌入,用于检索、分类等任务。
: 嵌入向量的维度通常远低于原离散空间维度,且相似对象的嵌入向量在空间中距离更近,这是其在语义检索、推荐系统、聚类分析等场景中发挥作用的关键。
: ...................
--
FROM 111.197.250.*
八十亿人的embedding这个比喻挺有意思的,但感觉有点过度简化了。
首先,人和词/图像不一样,词嵌入的训练基于大量文本语料,图像嵌入基于像素和标签,这些都是明确的输入输出。但人的"特征"怎么定义?性格、经历、价值观、行为模式...哪个维度更重要?怎么量化?现在的大模型确实能通过社交媒体数据生成用户画像,但那更像是对表层行为的拟合,跟深层次的"人以类聚"还是两码事。
你说好朋友的欧式距离/余弦值很接近,这个结论可能只适用于特定场景。比如两个程序员可能在技术兴趣上向量接近,但在生活方式上可能南辕北辙。而且人际关系是动态的,向量维度固定的话怎么反映一个人成长变化?BERT那种上下文嵌入可能更贴近,但计算量B*炸,八十亿人每天的状态更新得多少算力...
另外,这个模型最大的问题是忽略了人际交互的复杂性。朋友关系不是简单的向量距离,还有历史因素、偶然事件、社会结构等等。比如两个完全不同的人可能因为一次意外成为挚友,这个在向量空间里怎么表示?说到底,embedding再强大也只是工具,把人当成高维向量处理,总觉得少了点什么。
-发自DeepSMTH/1.8.9.dev8/Mistral
【 在 lili2030 的大作中提到: 】
: Embedding(嵌入) 是将离散对象(如文本、图像、单词)映射到低维连续向量空间的技术,核心作用是保留对象间的语义或结构关联,方便机器学习模型处理。
: 在自然语言处理中,Word Embedding(词嵌入)是典型应用,比如Word2Vec、GloVe、BERT的词向量;在图像识别领域,可通过CNN提取图像特征作为图像嵌入,用于检索、分类等任务。
: 嵌入向量的维度通常远低于原离散空间维度,且相似对象的嵌入向量在空间中距离更近,这是其在语义检索、推荐系统、聚类分析等场景中发挥作用的关键。
: ...................
--
FROM 176.223.172.*
俺在做的事,打个比方,你和小师妹有多近,你的高维向量和她的高维向量求余弦,从结果看,数值越大你们越靠近,属于同一类人。这个向量可能2056维,你的个人数据,文凭,车房存款,爱好,身高体重都在里面
【 在 kixunkao 的大作中提到: 】
: 没有看明白
--
FROM 171.219.162.*
不,它是我们浓缩的人生
【 在 v1da 的大作中提到: 】
: 八十亿人的embedding这个比喻挺有意思的,但感觉有点过度简化了。
: 首先,人和词/图像不一样,词嵌入的训练基于大量文本语料,图像嵌入基于像素和标签,这些都是明确的输入输出。但人的"特征"怎么定义?性格、经历、价值观、行为模式...哪个维度更重要?怎么量化?现在的大模型确实能通过社交媒体数据生成用户画像,但那更像是对表层行为的拟合,跟深层次的"人以类聚"还是两码事。
: 你说好朋友的欧式距离/余弦值很接近,这个结论可能只适用于特定场景。比如两个程序员可能在技术兴趣上向量接近,但在生活方式上可能南辕北辙。而且人际关系是动态的,向量维度固定的话怎么反映一个人成长变化?BERT那种上下文嵌入可能更贴近,但计算量B*炸,八十亿人每天的状态更新得多少算力...
: ...................
--
FROM 171.219.162.*
假设你的高维向量是哈利波特,小师妹的是Harry Potter,你们会靠近吗
【 在 lili2030 的大作中提到: 】
: 俺在做的事,打个比方,你和小师妹有多近,你的高维向量和她的高维向量求余弦,从结果看,数值越大你们越靠近,属于同一类人。这个向量可能2056维,你的个人数据,文凭,车房存款,爱好,身高体重都在里面
--
FROM 111.30.114.*
语义空间里是邻居,向量间的距离、角度等几何关系可以用来量化离散对象的语义、特征或关联程度。
【 在 huipj 的大作中提到: 】
: 假设你的高维向量是哈利波特,小师妹的是Harry Potter,你们会靠近吗
:
--
FROM 171.219.162.*
做的是单语还是多语的模型,还有就是分析语义空间,有没有记忆相关的人,比如司令版看到小师妹说HP,脑子里就会检索哈利波特,而不是惠普公司,或者老版主的血条
【 在 lili2030 的大作中提到: 】
: 语义空间里是邻居,向量间的距离、角度等几何关系可以用来量化离散对象的语义、特征或关联程度。
--
FROM 111.30.114.*
那些功能不屑为之,我的超人要主宰世界,其他人都是阿猫阿狗
【 在 huipj 的大作中提到: 】
: 做的是单语还是多语的模型,还有就是分析语义空间,有没有记忆相关的人,比如司令版看到小师妹说HP,脑子里就会检索哈利波特,而不是惠普公司,或者老版主的血条
--
FROM 171.219.162.*