第622章 深度学习变天了
去读书推荐各位书友阅读:高二分科,我选校花也选亿万身家第622章 深度学习变天了
(去读书 www.qudushu.la) 2014年4月的雅安,大渡河的水声日夜不停,从山谷底部翻涌上来,和机房里几千台设备的嗡鸣混在一起,变成一种单调的、永不消歇的白噪音。
任少卿已经习惯了这种声音。
他甚至觉得,没有这个声音他反而睡不着。
九章基地的AI训练区设在主机房东侧,是去年底新开辟出来的独立区域。
顾屿当初承诺的两千张顶级计算卡早已全部到位。
其中一千六百多张卡正在日夜不休地爬取、清洗着西红柿小说、今日热点以及引力APP的海量中文语料,那是为未来某个庞大计划储备的底层基建。
而任少卿面前的,是划给他视觉组专属的攻坚主堡。
三百二十张英伟达K40计算卡,整整齐齐码在定制的液冷机柜里,指示灯密密麻麻,绿光闪烁,远看像一面会呼吸的墙。
任少卿在这面墙前面蹲了快五个月。
他的皮肤晒黑了不止一圈,因为基地的食堂在另一栋楼,每天来回要走一段露天的山路。
雅安的紫外线不讲道理,尤其三四月份,太阳出来的时候毒辣得很。
他现在的肤色已经跟刚从中科大出来时判若两人。
但他顾不上这些。
此刻是凌晨两点四十七分。
训练区的值班间里,三台显示器同时亮着。
任少卿坐在中间那台前面,两个师弟一左一右。
左边的叫郑宇航,右边的叫陈立秋,都是他从西安交大挖过来的博士生。
准确说不是挖的,是他跟两个人分别打了四个小时电话,把雅安基地的算力配置报了一遍,对面就自己来了。
这年头搞深度学习的人,算力就是命。
“跑完了。”
郑宇航的声音有点抖。
任少卿没动。他盯着屏幕上那组数字,瞳孔里映着绿莹莹的光标。
ImageNet验证集。TOp-5错误率。
5.08%。
五十层。五十层卷积神经网络。TOp-5错误率,5.08%。
他反复确认了三遍训练日志,又让陈立秋重新跑了一次验证脚本。数字没有变。
郑宇航从椅子上站起来,双手撑着桌沿,呼吸急促。
陈立秋摘下眼镜,用衣角反复擦了三遍镜片,又戴上,又摘下来。
“少卿哥。”
郑宇航转过头看他,嘴唇哆嗦了一下,
“这个精度……人类标注员在ImageNet上的平均错误率是5.1%。”
任少卿知道。
他当然知道。
他闭上眼睛,靠上椅背。五个月。
从去年十一月他正式入驻雅安基地开始算,到今天,一百五十三天。
事情要从头说起。
去年夏天在西安交大走廊里被那个顶着黄毛的少年截住之后,任少卿回北京犹豫了整整一周。
不是犹豫要不要去,是犹豫这件事到底是不是真的。
一个高中毕业生说自己手里有几千张GPU,说算力管够。
这种话放在2013年的中国,听起来荒诞得离谱。
然后他拨了名片上那个电话。接电话的是个叫林溪的女人,声音干脆利落。
三天后他就收到了一份正式的Offer,薪资是他在微软亚研院兼职收入的四倍,不含绩效和期权。
他坐火车到了雅安,下了站,一辆黑色比亚迪S6把他接进山里。
第一次走进机房的时候,他站在门口愣了将近两分钟。
几千张GPU。
那个黄毛少年没有骗他。
入职一个月后,他把之前在微软亚研院的那套改进型卷积网络搬了过来,在这边的算力下重新训练。
效果立竿见影。之前四张GTX780跑十二天的任务量,在这边不到两天就能收敛完毕。
算力充裕之后,他开始做一件以前想都不敢想的事。
加深网络。
卷积神经网络的层数越深,理论上能提取的特征就越抽象、越高级。
但实际操作中,网络超过二十层就会出现一个要命的问题:梯度消失。
简单来说,训练信号从输出层往回传的时候,经过太多层的连乘运算,到了前面几层就衰减成了几乎为零的数字。
前面的层学不到东西,整个网络等于白深。
这个问题卡死了全世界所有试图做深层网络的研究者。
任少卿也被卡住了。
他试过各种补救办法。换激活函数,调学习率,加BatCh NOrmaliZatiOn。
有些有用,但都治标不治本,网络超过三十层之后精度就开始往下掉,跟没加深是一个样。
在连续失败了将近两个月之后,某天凌晨三点,他趴在键盘上半睡半醒。脑子里突然蹦出来一个念头。
如果不让梯度穿过所有层呢?
如果给它开一条捷径呢?
他一下子坐直了。
思路很简单。
假设网络有两层,输入是X,经过两层运算之后的输出是F(X)。正常做法是直接用F(X)往下传。
但他的想法是,不要让网络去学习F(X)这个完整的映射,而是让它只学习F(X)和X之间的差值,也就是F(X)-X。最终输出变成F(X)+X。
这个“+X”就是捷径。
就是残差连接。
它的意义在于,哪怕F(X)学废了,输出至少还有一个X兜底,不会比什么都没学更差。
更关键的是,梯度可以沿着这条捷径直接回传到前面的层,不用再经过所有中间层的连乘衰减。
梯度消失的问题,被这条捷径绕过去了。
他当天晚上就写了代码。
第二天跑了一个二十层的测试。
然后是三十层。四十层。精度不仅没有下降,还在持续攀升。
他又花了两周时间反复验证,排除过拟合、数据泄漏等一切干扰因素。
最后把层数推到了五十。
5.08%。
和人类标注员打了个平手。甚至略微超过。
任少卿睁开眼睛,盯着天花板看了很久。值班间的日光灯管有一根坏了,一明一暗地闪着。
“少卿哥,这个结果……”
陈立秋把擦了无数遍的眼镜重新戴好,声音压得很低,
“能发顶会吧?”
“不止能发。”
郑宇航已经从最初的激动中回过神来了,他盯着屏幕上的损失曲线,
“这东西要是公开出去,整个领域都得重新洗牌。以前大家默认深层网络没法训练,所有人都在十几二十层的范围里卷。现在这个假设直接被推翻了。”
任少卿没说话。
他站起来,走到机房那面闪烁的绿色光墙前面,双手插在冲锋衣口袋里。
兴奋吗?当然兴奋。
但兴奋过后,一种更复杂的情绪开始往上涌。
他想起去年在西安交大走廊里,那个黄毛少年对他说的话。
“你的模型在做大量无效计算。”
“让模型只用它需要用的那部分脑子去思考。”
当时他以为那只是一个外行的模糊直觉。
但现在他回过头来看,那个十八岁的少年说的每一句话,都精准地指向了这个领域未来五到十年的核心命题。
残差连接解决了深层网络的训练问题。
但那个少年想要的,显然不止于此。
任少卿盯着那面光墙,脑子里像打开了一扇被堵住很久的门。
五十层的残差网络证明了一件事:网络可以做得很深,深度不再是瓶颈。
那下一个瓶颈是什么?
他几乎是本能地想到了那个词。
宽度。
或者更准确地说,视野。
卷积网络的每一层只能看到一个局部窗口。
三乘三,五乘五,最大也就七乘七。哪怕你把网络堆到一百层,每一层看到的依然是一小块局部区域。
它通过层层叠加来扩大感受野,但这种扩大是间接的,是逐层递推的,不是一步到位的。
如果数据不是图片呢?
如果是一段文字,一个句子,一篇文章?
文字里的语义关联可以跨越整个句子。
第一个字和最后一个字之间可能存在关键的依赖关系。卷积核看不到那么远。
循环神经网络可以看到,但它是串行的,一个字一个字往后递,速度慢得要命,而且同样存在梯度消失。
只不过是时间维度上的梯度消失。
那如果……
任少卿摇了摇头,把这个念头暂时压下去。
他现在面前摆着一堆更紧迫的问题。
论文要不要写?投哪个会议?实验还需要补哪些对照组?
一百层的网络还没跑,一百五十层呢?
目标检测任务上的迁移效果怎么样?
另外,残差连接这个结构目前只在图像分类上验证过。
要推广到其他任务、其他数据类型,工作量巨大。
他手上就两个师弟,根本忙不过来。
这些问题每一个都很具体,每一个都需要人手、时间和资源。
“少卿哥。”
郑宇航不知道什么时候走到他旁边来了,手里端着两杯速溶咖啡,递了一杯过来,
“你是不是该跟上面汇报一下了?”
任少卿接过咖啡,没喝。
“上面”。在这个基地里,“上面”这个词只指向一个人。
他入职快半年了,跟那个黄毛少年只见过一次面。
日常工作对接的是林溪和徐静。林溪管钱管人,徐静管硬件和基建。
两个人都很专业,给他的自由度也大,基本上他要什么给什么,从来不问他每天具体在做什么。
但这次不一样。
这个发现太大了。
大到他自己都说不清它的边界在哪里。
“我给林总发了飞书消息。”
陈立秋从值班间探出头来,
“但我觉得这种事,光发消息说不清楚。”
任少卿看了一眼窗外。天还黑着,大渡河的水声闷闷地从山下传上来。
他沉默了很久。
然后他把那杯没喝的速溶咖啡放在窗台上,转身走回值班间,拿起手机。
不是发消息。是查机票。
雅安到北京,最早的航班在锦城双流机场起飞,早上七点二十。从基地开车到锦城大概要两个半小时,现在出发正好来得及。
他买完票,把手机揣回兜里。
“收拾一下数据和实验日志,打包拷到加密U盘里。”
他看着两个师弟,语气平静,
“我去北京,当面汇报。”
郑宇航愣了一下。
“现在?凌晨三点?”
“现在。”
任少卿拎起那个跟了他快三年的黑色双肩包,把笔记本电脑和充电器塞进去,拉上拉链。去读书 www.qudushu.la
如果您中途有事离开,请按CTRL+D键保存当前页面至收藏夹,以便以后接着观看!