- 主题:特斯拉的纯视觉方案怎么解决黑暗环境下的识别
你在晚上从不开车么?
【 在 luochy 的大作中提到: 】
: 如果不是为了降成本
: 凭啥一直吹纯视觉方案,还一堆粉丝
:
--
FROM 14.127.19.*
因为人就是只靠视觉开车的啊,激光雷达的水平离人类还差的远吧
【 在 luochy 的大作中提到: 】
: 开啊,视线明显不行啊
: 为啥说纯视觉会被雷达方案好呢
:
--
FROM 14.127.19.*
那你猜猜为什么安装了激光雷达的车在大白天都撞
【 在 luochy 的大作中提到: 】
: 我是不理解说纯视觉方案比雷达+视觉更好的(纯技术讨论,不考虑成本情况下)
:
--
FROM 14.127.19.*
严格说来确实不是,摄像头比人眼还要强大
【 在 ruanji314420 的大作中提到: 】
: 人的视觉和摄像头的视觉是一个东西吗?
:
--
FROM 14.127.19.*
确实有差距,现在最先进的是端到端应该都比不上人脑
【 在 ruanji314420 的大作中提到: 】
: 背后的脑子呢?
:
--
FROM 14.127.19.*
如果要刻意把激光雷达的分辨率做高那刷新率就低了,
从工作原理来说,激光雷达相当于CPU,而摄像头是GPU
【 在 yiye412 的大作中提到: 】
: 现在有分辨率高的,就是太贵了
--
FROM 14.127.19.*
现在的算力连高质量的视觉信息都处理不过来,再加上激光雷达信息还要考虑融合开销,AI负担岂不是更重了
【 在 goldenbug 的大作中提到: 】
: 偷换概念啊,用激光雷达不是只用激光雷达
--
FROM 14.154.57.*
信息看的是质量,也就是熵,不看密度的,高密度可以轻松转换成低密度,降分辨率抽帧又不消耗算力,
但你低密度信息不能生成高密度的,插帧修复这些才要消耗算力
【 在 BruceWang 的大作中提到: 】
: 处理视频流更消耗算力,因为信息密度比激光雷达高太多了(帧率和分辨率都要高几个量级)。
: 融合的开销可以忽略不计,现在端到端大模型方案下,无论多少种模态,都是被编码器向量化之后嵌入大模型里的。
: 简单的讲,十个摄像头的视觉感知,相比同样9个摄像头+一个激光雷达的方案,更吃算力。
: ...................
--
FROM 14.154.57.*
即使不说信息质量,你也没考虑融合问题,激光雷达要和视频图像去对准,这个也很费劲
【 在 BruceWang 的大作中提到: 】
: 这些信息处理的工程方法肯定都有应用,高速上肯定降低帧率,路口帧率拉满。但是不影响我的结论
--
FROM 14.154.57.*
现在主摄像头都是36帧的,而激光雷达只有20帧,这完全不同步啊怎么嵌入,
而且激光雷达每一帧都是逐点机械扫描出来的,别说跟摄像头的平面整体成像去对齐了,
自己每帧都存在垂直同步的问题,这在高速条件下尤为明显,
这个数据质量丢给端到端,搞不好就是负作用,把摄像头信息也给污染了
我觉得这也是大白天的大货停那激光雷达都看不见硬往上撞的原因
【 在 BruceWang 的大作中提到: 】
: 无论视频帧还是激光雷达帧,都带有时间戳的,按照时间戳去视频里抽帧,编码后嵌入大模型,有什么费劲的。
: 你说的费劲还停留在上古的后融合方案里面,现在端到端都前融合了,天然解决了多模态对齐的问题。
--
FROM 14.154.57.*