小鹏汽车首席科学家郭彦东:造更懂中国人的智(3)
但是,我们想强调的是在智能车的场景中,往往最有价值的就是所谓的长尾(long-tail)数据。就是说这些数据发生的频次很低,很有可能你开很久的车才会有一次、两次发生,但是这些事情的种类、类别、数量会非常多,想要让我们的车辆适应尽可能多的场景,就要求我们的人工智能平台有快速处理这样一个长尾(long-tail)数据的能力。
这有几个挺有意思的例子,比如我从加州回来之前在路上。因为天气也很好,前面是一个油罐车,这个油罐车很干净,它把后面的车,包括我自己的车倒影在油罐车的油罐上面去了。
如果你对这个场景没有一个特殊的理解和处理的话,很多世界上最好的计算机视觉算法,都有可能误认为倒影是真实的车道线与车辆。
特斯拉曾经发生过一件很惨痛的事故,特斯拉的车没有成功的把一辆白色的大货车认成车,认为是一片云彩,也撞上去了。
右下角就更有意思了,尤其是坐在前排的观众,可以马上发现,这其实是一个披着cosplay衣服的行人走在路上,人类司机都可以完成识别是一个行人。但是计算机视觉,由于这个人穿了一件cosplay的衣服,可能算法不一定能成功检测到是一个人。
这就对我们人工智能学习平台提出的问题——当样本不是那么常见、频次很低的时候,如何快速学习呢?
其实在业界有很多这种类似的方法、技术已经被研发出来了,比如微软的custom vision,我本人也曾参加了custom vision的核心研究工作。将来也会针对小鹏汽车的特殊场景定制和打造可以快速迭代,应对小样本学习的人工智能学习平台。
第三个我想分享的是我们有了数据,有了人工智能训练平台,我们有一个独特的场景,就是量产车场景。
首先我们想说我们有一个全球化的企业布局,我们在硅谷、广州、北京、上海、肇庆、郑州等等地方,也都有我们的研发和生产中心,小鹏也是中国最大规模的单车研发投入。
包括我们现在也跟世界上最好的芯片厂商有紧密的合作,也签署了战略合作协议,我们将会搭载世界上算力最强的人工智能芯片之一,这样也保证我们最新的算法能够在车上跑起来,能够把用户的一些行为能够实时的反馈回来。
如何造更懂中国人的车?
有了这样一个闭环的智能进化能力之后,我们也想更多的探讨一下在中国的场景怎么打造我们的差异化,更懂中国人。
更懂中国人,我们其实把它分两个层面来理解:
第一层面,更懂路上的中国人。
其实我们路上有这样那样的行为,包括开远光灯也好,有时候人车混流也好,需要学习的其实是人的行为,人的文化,也还有人制定的政策和法规。我可能稍微多说一点的就是右上角的图,右上角的图是对比图,就是车辆等红灯时的一些行为,对比图的右边也是我回来之前在加州拍的一张图片,等红灯的时候大家看到,其实在美国车跟车之间的距离是比较远的,但在对比图的左侧我们看到,在中国驾驶场景当中,在等红灯的时候,车跟车的距离非常之近,哪怕非常之近的时候都有车加塞进来,这个环境当中,这个事对智能的要求,就已经超出了普通的物体检测提到的要求。它其实学的是人的行为人的文化,学的是人的政策和法规。
其他几个例子包括中文的路牌、中国特色路牌,包括密集交通、人车混流,甚至中国一些特色天气下的处理,等等都给我们更懂“路上的”中国人提到一些机遇和挑战。
第二层面,更懂车里的中国人。
更懂车里的中国人,我也把它分这么两个层次讨论:
1、更懂车里的中国人,最简单的就是要求智能车听得懂中国话,认得到中国人,符合中国的驾驶习惯。
2、“懂你”。“懂你”指的是说,懂在车里的这一个中国人,这一个中国司机我们要懂他。为了实现这样一个目的,第一我们要人脸识别,知道开车的是谁,他有什么样用户的画像。第二我们需要对用户的情绪状态有这样的感知,为什么有这样的感知呢,情绪信号其实是对我们调教车的用户体验的一个非常强的信号。
最后,我想谈一谈标准化的问题。
现在国际上有两套无人驾驶的法规,包括美国NHTSA和SAE,都有两套这样的规则,或者两套分类的标准。
这两套分类的标准,其实一定程度上偏定性的描述,缺乏一些定量的规定,这是其一。