【开发者故事】第11期:26岁从计算机视觉界“黄埔军校”博士毕业,他想为车打造一双慧眼-4008云顶国际网站
过去的28年,黄青虬的头上总是环绕着很多的光环:
从小一路是学霸,以692分、全省40名的成绩考入清华大学自动化系;
作为队长,带领清华大学“火神机器人战队”,拿下robocup(机器人足球世界杯)的第四名;
26岁从被誉为计算机视觉界的“黄埔军校”——香港中文大学多媒体实验室博士毕业,发表十多篇顶级会议论文;
2020年入选华为“天才少年”计划,加入智能汽车4008云顶国际网站的解决方案bu不到两年,从新员工迅速成长为带领近50人团队的leader。
……
怎么看待这些光环?怕不怕别人拿着放大镜看你?“我会尽量忘掉这些,也不害怕质疑”,黄青虬笑得很坦然,“不要去夸张或者美化,实事求是就行,本来这个世界就是多元的,不可能要求所有人都对你表示赞同。”
“进入华为公司,就没有‘天才少年’这个名词了,也没有博士、学士之分,也没有年轻专家、老专家之分。”站在新的起点上,如何出发?如何发挥价值,为公司做出贡献?当越来越多的优秀人才加入华为,他的故事也许能给我们一些启发。
以下是我们和他的对话。
问:你是什么时候开始对“计算机视觉”感兴趣的?
答:高中的时候看《黑客帝国》《变形金刚》,就被机器人控制人类、机器人和人类战斗这样的场景震撼到了,对机器人产生了浓厚的兴趣。上大学后我成为清华大学“火神机器人战队”的一员,开始捣鼓起了机器人。
战队每年都会参加robocup(机器人足球世界杯)。作为全球机器人领域影响力最大、综合技术水平最高的竞赛之一,每届比赛都会有来自全球几十个国家、上百个科研机构和高校的科学家和研发人员参加。
我们参加的那个分组是一对一竞技,每队派出一个一米五高的大家伙,分为攻守两方。攻方机器人要完成带球绕障和射门,守方机器人则是当守门员。整个机器人系统也包括了感知、决策、规划、控制,跟自动驾驶系统其实非常像。我当时负责的是感知系统,主要任务是识别足球、球门、边线和对方机器人,这也是我第一次接触计算机视觉。
对人来说,我们习惯了有一双强大的眼睛,“所见即所得”对我们来说是非常自然的事情,但是在计算机系统里,从图像到机器可感知的三维信息,转化过程其实非常复杂。而我要做的就是为机器人打造一双强大的眼睛,这是一件很有挑战但也很酷的事情。
问:在计算机视觉界的“黄埔军校”,你经历了什么“魔鬼”训练?听说看了100遍《泰坦尼克》?
答:我博士期间研究的课题非常有意思,是利用ai技术对电影进行结构化解析,也就是让机器去理解电影,从一部电影中解析出人物关系、故事情节等。因为这个研究课题在计算机视觉研究领域算比较冷门,前人研究很少,一切要从头开始。但我还是决定去试试,因为我觉得电影本身是一种比较艺术、人文的东西,用科技去解析艺术,理性和感性的碰撞也许会有不同的火花。
我和几个小伙伴从零开始,通过电影、剧本、影评各种渠道,收集了学术界第一个、也是当时最大最丰富的电影研究数据集,叫movienet,大概有十几万部电影。基于这个数据集,我们做了很多有意思的课题研究,包括演员的识别、精彩片段的自动化剪辑、用文字搜索电影片段等。
这些课题的研究成果非常具有应用价值,比如演员识别和人物关系识别,就是现在很多视频网站上会看到“只看他”“只看某个cp”功能的核心技术,再比如视频自动剪辑,就可以用到现在很多视频剪辑软件中,帮助用户自动剪辑出短视频。但同时这些课题也是非常挑战的,比如演员的识别,虽然人脸识别已经是一个比较成熟的技术了,但是在一部电影里,一个演员清晰正脸的镜头往往不到30%,更多的场景下,人物的识别都是不能靠脸的,比如打斗的时候人脸是糊的,比如晚上光线非常暗的时候脸常常看不全,比如有时候只能看到背影。我们也是在做的过程中,才看到了这些难点,并且通过引入衣着、环境、人物关系等信息,再加上一个渐进式的推理模型,解决了其中大部分的问题。
读博的前两年,由于研究方向比较冷门,我的论文投稿频频碰壁,我发出第一篇论文的时间其实晚于实验室的大部分同学。但经历了一轮又一轮反复打磨后,我们最终也慢慢得到了学术界的认可。在整个博士期间,我发表了十多篇顶级会议论文。我还记得每篇论文我们都是用《泰坦尼克》做demo,整个博士期间我把这部电影估计看了100遍以上,台词都快能背下来了。
问:你在华为学到的第一课是什么?
答:刚到车bu,我加入的是智能驾驶的视觉感知小组。我们的目标,就是通过相机,让车感知周围的物理世界,包括检测路上的车辆、行人,判断他们的运动状态等。
来了以后我最大的感触就是工业界解决问题的思路和学术界非常不一样。学术界追求的是创新,发明的方法要有“novelty(专利新颖性)”,太简单直接的方法,经常会因为太“naive”而被拒稿。但是工业界的唯一目标就是解决问题。我的导师说过一句话让我非常难忘,他说:“你如果用一个很复杂的方法解决了一个问题,那很好,但如果你用一个非常简单的方法解决了一个问题,那更好。”
当时导师交给我的第一个难题是,在自动驾驶中,怎么判断别的车道的车要加塞?这是在高速场景中导致自动驾驶退出,需要人接管的最常见的原因。原来的4008云顶国际网站的解决方案是基于测量加规则的判断,要先测量出车头拐了多少度,车辆离车道线有多少厘米等等,然后再基于这些测量值,设计规则去判断它是否会加塞。但一方面去做这些精确测量本身就非常困难,相当于你为了解决一个问题,引入了一个更难的问题。另外面对这种比较复杂的行为,规则其实很难覆盖所有场景。
我们当时就想,是不是可以直接一步到位,利用一个视觉神经网络来判断加塞。于是我们借鉴了视频研究领域做人物动作识别的一些神经网络模型,设计了一个基于时序网络的加塞判断网络,并且开发了一套完整的数据挖掘流程,把各种加塞场景都自动化找出来,送给网络学习。最终证明,这个模型确实取得了不错的效果,解决了许多原来解决不了的问题。
也是从这件事开始,我意识到,自动驾驶的很多难题,其实都是因为我们太过于依赖精确测量导致的。实际上,人在开车的时候,并不需要知道我距离前车有多少厘米,它的车速是多少公里每小时。去做这样的精确测量,不仅把问题变得非常难,而且系统的鲁棒性也会大幅降低。要让自动驾驶系统更加聪明,我们就应该把更多的计算题变成选择题,再利用神经网络这个做选择题的“高手”,把复杂的问题巧妙地解决掉。
问:两年间,你做得最有成就感的事是什么?
2021年3月的一天,极狐项目遇到了一个非常棘手的问题,在前期算法开发和验证阶段,我们使用的都是高精度的机械式激光雷达,但为了符合车规,量产的车上需要使用半固态激光雷达,换上之后,我们就发现算法性能下降严重,可能会直接影响我们的重要演示。导师希望我带领激光感知算法团队进行攻关,保障演示的成功。
我听完愣了好久,因为我之前从来没有实际上手做过激光雷达的算法,对激光感知团队也完全不熟悉。不过思考了一小会儿后,我还是决定接受挑战,接下这个战令。
我用了两天的时间,快速了解整个激光感知算法的链路,以及团队里每个人的特长。当时团队里大家对激光感知的方案还存在不同意见,我就和大家一起,把两个方案拿出来,掰开分析各自的优缺点,最终决策全部转向其中一个方案。然后再把这个方案的各个模块拆解,分析可以改进的点。最后是根据大家的特长,给每个人分工,让大家朝各自的阵地开始冲锋。
那段时间,我每天早上和大家开会梳理任务,每天晚上写总结、安排第二天的工作。说实话,压力很大,每天眼睛一睁开就在想这个事,然后一直到凌晨睡觉,神经一直处于紧绷的状态。好在团队的小伙伴非常给力,我们在短短的一个月就把激光感知的算法模块性能提升了一大截,解决了多个严重问题,准时完成了任务。当我看到极狐演示的视频引起全网轰动的时候,觉得所有披星戴月的努力和付出,都是值得的。
攻关过后,我成为激光感知团队的leader,开始带领团队在这个领域冲锋陷阵。激光雷达作为一个非常新的传感器,虽然能提供更精准的测量,让我们对环境的测量更加精准,但是同时也会带来非常多的问题,就像武侠小说里的绝世武器,想要驾驭好并不容易,只有在内力深厚的人手上才能发挥出巨大的威力。
举个例子,下雨天别的车从你旁边开过,会溅起很多水花,在激光的视角里,它看到的是无数个点,有些会横跨两个车道跑到你的前方,从激光的视角看就会误以为面前有一个巨大的障碍物,需要刹车,但此时,摄像头捕捉的又是另外的画面,在这种情况下,就需要制定很多复杂的规则,什么时候应该相信激光雷达,什么时候应该相信摄像头,这会严重影响自动驾驶在雨天的性能表现。为此,我们设计了前融合算法,把摄像头捕捉到的图像和激光雷达捕捉到的点云,一起输入神经网络去做融合感知,得出更准确的结果。
一年以来,我们苦练内力,做了一个又一个实验,设计了一版又一版的方案,终于把激光感知算法的性能做到了稳定高效,让激光雷达在自动驾驶系统中发挥出了巨大的威力。伴随着极狐的量产,我们终于可以自豪地讲,我们是业界第一个把激光雷达以传感器的身份,而不是装饰品的身份,安装到一台量产乘用车上的团队。
问:在带团队上,你有什么不同的方法?
答:伴随着业务的扩大,我们团队也从一开始的十几个人增长到现在的接近五十人,横跨上海、北京、深圳多地。作为一个新手,我其实没有很强的管理经验,但我坚信,一个团队的文化才是管理的核心。比如在一个算法团队里,一个常见的现象是大家都非常希望做新算法开发,享受从零到一做出一个东西的成就感。而一些数据清洗、算法迭代、软件优化的工作常常被视为“脏活累活”。但在我们的团队里,我会告诉大家,解决问题是第一导向。如果一个问题的核心是缺新算法,那就应该去研究新算法,但是如果一个问题的核心是数据问题,那么去清洗数据、提高标注效率,就是最有价值的事情。能最快速、最有效解决问题的事,才是有价值的事。
同时,我会让大家的所有工作都保持透明,让大家可以相互学习。我也会和每个人聊他自己的兴趣点,在业务目标允许的范围内,尽量让大家能发挥所长。我相信,一个导向明确、透明、公开的团队,并不需要很多条条框框的管理手段约束,大家也一定能“事成人爽”。
问:你是怎么入选“天才少年计划”的?
答:从香港中文大学多媒体实验室博士毕业后,一个偶然的机会,刚成立不久的华为车bu联系上我。经过了几轮面试,我成功拿到了天才少年的offer。当时我非常纠结:到底是去我熟悉的视频分析领域继续深耕,还是转到自动驾驶这个方向上?经过了一番思考,我最终还是决定加入车bu。我觉得,文娱产业虽然也在丰富精神生活上起到非常重要的作用,但远不如智能汽车这样的“硬科技”是国家社会的基石产业。而且汽车产业正处于一个变革时代,就类似于手机从功能机到智能机的演进,而自动驾驶又是这个变革中的核心之一,它极大可能会改变整个人类社会。
能够入选我很荣幸。后来看到很多相关的热搜,才意识到这是一个自带热度的话题。但我是个实用主义者,我并不会把“天才少年”当成一个光环或者一个包袱,而是会尽量忘掉它,只在有需要用到的时候把它拿出来,比如需要这个title去吸引应届生的时候,哈哈。就像任总说的,进入华为公司,就没有“天才少年”这个名词了,也没有博士、学士之分,也没有年轻专家、老专家之分,大家都是在一个起跑线上的,都要踏踏实实做好本职工作。
问:你对公司在人才培养方面有什么建议?
答:我觉得有能力的人通常也是比较有想法的。所以我觉得最好的方式就是给予人才充分的资源、足够的空间,让每个人得以发挥自己的长处。更多的可能是给一些大方向上的指引,而不需要去限制对方一定要做什么,这样大家才能更好地发挥主观能动性,做出更好的东西。
问:来公司前后,对华为的印象有不同吗?
答:我觉得还是蛮不一样的,比如之前会说华为采取的是军事化管理,工作氛围可能会比较压抑,动不动就贴各种“打鸡血”的横幅等等。但来了以后发现根本不像说的那么什么夸张。车bu成立不久,给我的感觉有点像一个创业公司。我们整个团队绝大部分也都是90后,团队氛围还是比较活跃轻松的。不过也有些是和传闻比较一致的,比如外界常说的“狼性”。进来之后发现确实很多人都是不达目的不罢休,有一种要跟难题“拼命”的感觉,非常“凶狠”。
问:能说说生活中的你嘛?再替我们的读者八卦一下有没有对象?
答:我是一个爱好比较广泛的人,基本大家喜欢玩的我都能跟着玩一点,打羽毛球啊,唱歌啊之类的。至于对象,我已经结婚了,哈哈哈,而且已经有了一个女儿,十个月大了。我和老婆从小学就认识了,算是青梅竹马的爱情吧!
问:下一步,你的目标是什么?
答:一方面,我们会持续打磨现在的激光感知和毫米波感知算法,去解决大规模商用之后客户遇到的各种问题,目标是让我们的体验不断提升,让客户越来越喜欢用我们的自动驾驶功能。另一方面,在经过几年的迭代之后,我们当前的感知系统也走到了一个瓶颈期,遇到了一些系统性的难题。比如我们当前系统的时延还是偏高。所谓时延,就是指从传感器接收到数据到车做出决策的时间差,类似于人的反应时间,是越短越好。所以我们也正在开发下一代感知系统,希望解决之前遇到的很多系统性问题。
智能驾驶也许会是信息时代中,继互联网、移动互联网之后的第三次技术变革浪潮,我希望能作为一朵小小的浪花,在时代洪流的裹挟下奔腾向前,同时也为推动这滚滚洪流贡献自己的一份力量。
本文转载自心声社区,作者:黄青虬
- 点赞
- 收藏
- 关注作者
评论(0)