八十亿人的embedding

水木社区手机版

主题:八十亿人的embedding
楼主|lili2030|2025-12-31 06:28:32|只看此ID
Embedding（嵌入）是将离散对象（如文本、图像、单词）映射到低维连续向量空间的技术，核心作用是保留对象间的语义或结构关联，方便机器学习模型处理。

在自然语言处理中，Word Embedding（词嵌入）是典型应用，比如Word2Vec、GloVe、BERT的词向量；在图像识别领域，可通过CNN提取图像特征作为图像嵌入，用于检索、分类等任务。

嵌入向量的维度通常远低于原离散空间维度，且相似对象的嵌入向量在空间中距离更近，这是其在语义检索、推荐系统、聚类分析等场景中发挥作用的关键。

受此启发，我们每个人也可以抽象为高维向量，人以类聚物以群分可以通过这个向量的欧式距离，或者余弦函数值来求得。好朋友根据求这个值很容易证明
--
FROM 171.219.162.*
1楼|kixunkao|2025-12-31 08:35:58|只看此ID
没有看明白
【在 lili2030 的大作中提到: 】
: Embedding（嵌入）是将离散对象（如文本、图像、单词）映射到低维连续向量空间的技术，核心作用是保留对象间的语义或结构关联，方便机器学习模型处理。
: 在自然语言处理中，Word Embedding（词嵌入）是典型应用，比如Word2Vec、GloVe、BERT的词向量；在图像识别领域，可通过CNN提取图像特征作为图像嵌入，用于检索、分类等任务。
: 嵌入向量的维度通常远低于原离散空间维度，且相似对象的嵌入向量在空间中距离更近，这是其在语义检索、推荐系统、聚类分析等场景中发挥作用的关键。
: ...................
--
FROM 111.197.250.*
2楼|lili2030|2025-12-31 08:49:12|只看此ID
俺在做的事，打个比方，你和小师妹有多近，你的高维向量和她的高维向量求余弦，从结果看，数值越大你们越靠近，属于同一类人。这个向量可能2056维，你的个人数据，文凭，车房存款，爱好，身高体重都在里面
【在 kixunkao 的大作中提到: 】
: 没有看明白
--
FROM 171.219.162.*
3楼|lili2030|2025-12-31 08:50:49|只看此ID
不，它是我们浓缩的人生
【在 v1da 的大作中提到: 】
: 八十亿人的embedding这个比喻挺有意思的，但感觉有点过度简化了。
: 首先，人和词/图像不一样，词嵌入的训练基于大量文本语料，图像嵌入基于像素和标签，这些都是明确的输入输出。但人的"特征"怎么定义？性格、经历、价值观、行为模式...哪个维度更重要？怎么量化？现在的大模型确实能通过社交媒体数据生成用户画像，但那更像是对表层行为的拟合，跟深层次的"人以类聚"还是两码事。
: 你说好朋友的欧式距离/余弦值很接近，这个结论可能只适用于特定场景。比如两个程序员可能在技术兴趣上向量接近，但在生活方式上可能南辕北辙。而且人际关系是动态的，向量维度固定的话怎么反映一个人成长变化？BERT那种上下文嵌入可能更贴近，但计算量B*炸，八十亿人每天的状态更新得多少算力...
: ...................
--
FROM 171.219.162.*
4楼|huipj|2025-12-31 08:51:27|只看此ID
假设你的高维向量是哈利波特，小师妹的是Harry Potter，你们会靠近吗

【在 lili2030 的大作中提到: 】
: 俺在做的事，打个比方，你和小师妹有多近，你的高维向量和她的高维向量求余弦，从结果看，数值越大你们越靠近，属于同一类人。这个向量可能2056维，你的个人数据，文凭，车房存款，爱好，身高体重都在里面
--
FROM 111.30.114.*
5楼|lili2030|2025-12-31 08:57:57|只看此ID
语义空间里是邻居，向量间的距离、角度等几何关系可以用来量化离散对象的语义、特征或关联程度。
【在 huipj 的大作中提到: 】
: 假设你的高维向量是哈利波特，小师妹的是Harry Potter，你们会靠近吗
:
--
FROM 171.219.162.*
6楼|huipj|2025-12-31 08:59:31|只看此ID
做的是单语还是多语的模型，还有就是分析语义空间，有没有记忆相关的人，比如司令版看到小师妹说HP，脑子里就会检索哈利波特，而不是惠普公司，或者老版主的血条
【在 lili2030 的大作中提到: 】
: 语义空间里是邻居，向量间的距离、角度等几何关系可以用来量化离散对象的语义、特征或关联程度。
--
FROM 111.30.114.*
7楼|lili2030|2025-12-31 09:04:14|只看此ID
那些功能不屑为之，我的超人要主宰世界，其他人都是阿猫阿狗
【在 huipj 的大作中提到: 】
: 做的是单语还是多语的模型，还有就是分析语义空间，有没有记忆相关的人，比如司令版看到小师妹说HP，脑子里就会检索哈利波特，而不是惠普公司，或者老版主的血条
--
FROM 171.219.162.*