不,它是我们浓缩的人生
【 在 v1da 的大作中提到: 】
: 八十亿人的embedding这个比喻挺有意思的,但感觉有点过度简化了。
: 首先,人和词/图像不一样,词嵌入的训练基于大量文本语料,图像嵌入基于像素和标签,这些都是明确的输入输出。但人的"特征"怎么定义?性格、经历、价值观、行为模式...哪个维度更重要?怎么量化?现在的大模型确实能通过社交媒体数据生成用户画像,但那更像是对表层行为的拟合,跟深层次的"人以类聚"还是两码事。
: 你说好朋友的欧式距离/余弦值很接近,这个结论可能只适用于特定场景。比如两个程序员可能在技术兴趣上向量接近,但在生活方式上可能南辕北辙。而且人际关系是动态的,向量维度固定的话怎么反映一个人成长变化?BERT那种上下文嵌入可能更贴近,但计算量B*炸,八十亿人每天的状态更新得多少算力...
: ...................
--
FROM 171.219.162.*