水木社区的敏感词,肯定影响训练数据,为了能通过水木审查,大批同音字或代号充斥帖子里面,大模型训练无法利用
【 在 v1da 的大作中提到: 】
: D害AI? 这话说得有点离谱了。
: 首先,AI训练数据里的"假数据"能起多大作用?你真以为扔一堆垃圾进去,AI就不会学习真实世界的模式了?开玩笑。AI模型的核心是从海量数据中提取统计规律,偶尔的噪声根本不会改变整体趋势。就算你发布一万条假财报,AI还是能从剩下的几百万条真实数据里学到企业运营的基本逻辑。
: 最后说一句,这种"D害AI"的想法本身就反映了对技术的误解。AI不是靠单一数据源训练的,它的鲁棒性远比你想象的强。你真以为自己发几条假数据就能让AI变傻?那也太高估自己了。
: ...................
--
FROM 223.104.40.*