特斯拉的纯视觉方案怎么解决黑暗环境下的识别

水木社区手机版

主题:特斯拉的纯视觉方案怎么解决黑暗环境下的识别
1楼|djkstra|2025-12-18 10:21:17|展开
你在晚上从不开车么？

【在 luochy 的大作中提到: 】
: 如果不是为了降成本
: 凭啥一直吹纯视觉方案，还一堆粉丝
:
--
FROM 14.127.19.*
5楼|djkstra|2025-12-18 10:27:15|展开
因为人就是只靠视觉开车的啊，激光雷达的水平离人类还差的远吧

【在 luochy 的大作中提到: 】
: 开啊，视线明显不行啊
: 为啥说纯视觉会被雷达方案好呢
:
--
FROM 14.127.19.*
7楼|djkstra|2025-12-18 10:39:12|展开
那你猜猜为什么安装了激光雷达的车在大白天都撞

【在 luochy 的大作中提到: 】
: 我是不理解说纯视觉方案比雷达+视觉更好的（纯技术讨论，不考虑成本情况下）
:
--
FROM 14.127.19.*
27楼|djkstra|2025-12-18 13:26:11|展开
严格说来确实不是，摄像头比人眼还要强大

【在 ruanji314420 的大作中提到: 】
: 人的视觉和摄像头的视觉是一个东西吗？
:
--
FROM 14.127.19.*
30楼|djkstra|2025-12-18 13:37:17|展开
确实有差距，现在最先进的是端到端应该都比不上人脑

【在 ruanji314420 的大作中提到: 】
: 背后的脑子呢？
:
--
FROM 14.127.19.*
41楼|djkstra|2025-12-18 16:43:29|展开
如果要刻意把激光雷达的分辨率做高那刷新率就低了，
从工作原理来说，激光雷达相当于CPU，而摄像头是GPU

【在 yiye412 的大作中提到: 】
: 现在有分辨率高的，就是太贵了
--
FROM 14.127.19.*
62楼|djkstra|2025-12-22 11:15:03|展开
现在的算力连高质量的视觉信息都处理不过来，再加上激光雷达信息还要考虑融合开销，AI负担岂不是更重了

【在 goldenbug 的大作中提到: 】
: 偷换概念啊，用激光雷达不是只用激光雷达
--
FROM 14.154.57.*
64楼|djkstra|2025-12-22 11:27:31|展开
信息看的是质量，也就是熵，不看密度的，高密度可以轻松转换成低密度，降分辨率抽帧又不消耗算力，
但你低密度信息不能生成高密度的，插帧修复这些才要消耗算力

【在 BruceWang 的大作中提到: 】
: 处理视频流更消耗算力，因为信息密度比激光雷达高太多了（帧率和分辨率都要高几个量级）。
: 融合的开销可以忽略不计，现在端到端大模型方案下，无论多少种模态，都是被编码器向量化之后嵌入大模型里的。
: 简单的讲，十个摄像头的视觉感知，相比同样9个摄像头+一个激光雷达的方案，更吃算力。
: ...................
--
FROM 14.154.57.*
66楼|djkstra|2025-12-22 11:34:00|展开
即使不说信息质量，你也没考虑融合问题，激光雷达要和视频图像去对准，这个也很费劲

【在 BruceWang 的大作中提到: 】
: 这些信息处理的工程方法肯定都有应用，高速上肯定降低帧率，路口帧率拉满。但是不影响我的结论
--
FROM 14.154.57.*
68楼|djkstra|2025-12-22 14:05:58|展开
现在主摄像头都是36帧的，而激光雷达只有20帧，这完全不同步啊怎么嵌入，
而且激光雷达每一帧都是逐点机械扫描出来的，别说跟摄像头的平面整体成像去对齐了，
自己每帧都存在垂直同步的问题，这在高速条件下尤为明显，
这个数据质量丢给端到端，搞不好就是负作用，把摄像头信息也给污染了
我觉得这也是大白天的大货停那激光雷达都看不见硬往上撞的原因

【在 BruceWang 的大作中提到: 】
: 无论视频帧还是激光雷达帧，都带有时间戳的，按照时间戳去视频里抽帧，编码后嵌入大模型，有什么费劲的。
: 你说的费劲还停留在上古的后融合方案里面，现在端到端都前融合了，天然解决了多模态对齐的问题。
--
FROM 14.154.57.*