第622章深度学习变天了

去读书推荐各位书友阅读：高二分科，我选校花也选亿万身家第622章深度学习变天了

(去读书 www.qudushu.la)    2014年4月的雅安，大渡河的水声日夜不停，从山谷底部翻涌上来，和机房里几千台设备的嗡鸣混在一起，变成一种单调的、永不消歇的白噪音。

    任少卿已经习惯了这种声音。

    他甚至觉得，没有这个声音他反而睡不着。

    九章基地的AI训练区设在主机房东侧，是去年底新开辟出来的独立区域。

    顾屿当初承诺的两千张顶级计算卡早已全部到位。

    其中一千六百多张卡正在日夜不休地爬取、清洗着西红柿小说、今日热点以及引力APP的海量中文语料，那是为未来某个庞大计划储备的底层基建。

    而任少卿面前的，是划给他视觉组专属的攻坚主堡。

    三百二十张英伟达K40计算卡，整整齐齐码在定制的液冷机柜里，指示灯密密麻麻，绿光闪烁，远看像一面会呼吸的墙。

    任少卿在这面墙前面蹲了快五个月。

    他的皮肤晒黑了不止一圈，因为基地的食堂在另一栋楼，每天来回要走一段露天的山路。

    雅安的紫外线不讲道理，尤其三四月份，太阳出来的时候毒辣得很。

    他现在的肤色已经跟刚从中科大出来时判若两人。

    但他顾不上这些。

    此刻是凌晨两点四十七分。

    训练区的值班间里，三台显示器同时亮着。

    任少卿坐在中间那台前面，两个师弟一左一右。

    左边的叫郑宇航，右边的叫陈立秋，都是他从西安交大挖过来的博士生。

    准确说不是挖的，是他跟两个人分别打了四个小时电话，把雅安基地的算力配置报了一遍，对面就自己来了。

    这年头搞深度学习的人，算力就是命。

    “跑完了。”

    郑宇航的声音有点抖。

    任少卿没动。他盯着屏幕上那组数字，瞳孔里映着绿莹莹的光标。

    ImageNet验证集。TOp-5错误率。

    5.08%。

    五十层。五十层卷积神经网络。TOp-5错误率，5.08%。

    他反复确认了三遍训练日志，又让陈立秋重新跑了一次验证脚本。数字没有变。

    郑宇航从椅子上站起来，双手撑着桌沿，呼吸急促。

    陈立秋摘下眼镜，用衣角反复擦了三遍镜片，又戴上，又摘下来。

    “少卿哥。”

    郑宇航转过头看他，嘴唇哆嗦了一下，

    “这个精度……人类标注员在ImageNet上的平均错误率是5.1%。”

    任少卿知道。

    他当然知道。

    他闭上眼睛，靠上椅背。五个月。

    从去年十一月他正式入驻雅安基地开始算，到今天，一百五十三天。

    事情要从头说起。

    去年夏天在西安交大走廊里被那个顶着黄毛的少年截住之后，任少卿回北京犹豫了整整一周。

    不是犹豫要不要去，是犹豫这件事到底是不是真的。

    一个高中毕业生说自己手里有几千张GPU，说算力管够。

    这种话放在2013年的中国，听起来荒诞得离谱。

    然后他拨了名片上那个电话。接电话的是个叫林溪的女人，声音干脆利落。

    三天后他就收到了一份正式的Offer，薪资是他在微软亚研院兼职收入的四倍，不含绩效和期权。

    他坐火车到了雅安，下了站，一辆黑色比亚迪S6把他接进山里。

    第一次走进机房的时候，他站在门口愣了将近两分钟。

    几千张GPU。

    那个黄毛少年没有骗他。

    入职一个月后，他把之前在微软亚研院的那套改进型卷积网络搬了过来，在这边的算力下重新训练。

    效果立竿见影。之前四张GTX780跑十二天的任务量，在这边不到两天就能收敛完毕。

    算力充裕之后，他开始做一件以前想都不敢想的事。

    加深网络。

    卷积神经网络的层数越深，理论上能提取的特征就越抽象、越高级。

    但实际操作中，网络超过二十层就会出现一个要命的问题：梯度消失。

    简单来说，训练信号从输出层往回传的时候，经过太多层的连乘运算，到了前面几层就衰减成了几乎为零的数字。

    前面的层学不到东西，整个网络等于白深。

    这个问题卡死了全世界所有试图做深层网络的研究者。

    任少卿也被卡住了。

    他试过各种补救办法。换激活函数，调学习率，加BatCh NOrmaliZatiOn。

    有些有用，但都治标不治本，网络超过三十层之后精度就开始往下掉，跟没加深是一个样。

    在连续失败了将近两个月之后，某天凌晨三点，他趴在键盘上半睡半醒。脑子里突然蹦出来一个念头。

    如果不让梯度穿过所有层呢？

    如果给它开一条捷径呢？

    他一下子坐直了。

    思路很简单。

    假设网络有两层，输入是X，经过两层运算之后的输出是F(X)。正常做法是直接用F(X)往下传。

    但他的想法是，不要让网络去学习F(X)这个完整的映射，而是让它只学习F(X)和X之间的差值，也就是F(X)-X。最终输出变成F(X)+X。

    这个“+X”就是捷径。

    就是残差连接。

    它的意义在于，哪怕F(X)学废了，输出至少还有一个X兜底，不会比什么都没学更差。

    更关键的是，梯度可以沿着这条捷径直接回传到前面的层，不用再经过所有中间层的连乘衰减。

    梯度消失的问题，被这条捷径绕过去了。

    他当天晚上就写了代码。

    第二天跑了一个二十层的测试。

    然后是三十层。四十层。精度不仅没有下降，还在持续攀升。

    他又花了两周时间反复验证，排除过拟合、数据泄漏等一切干扰因素。

    最后把层数推到了五十。

    5.08%。

    和人类标注员打了个平手。甚至略微超过。

    任少卿睁开眼睛，盯着天花板看了很久。值班间的日光灯管有一根坏了，一明一暗地闪着。

    “少卿哥，这个结果……”

    陈立秋把擦了无数遍的眼镜重新戴好，声音压得很低，

    “能发顶会吧？”

    “不止能发。”

    郑宇航已经从最初的激动中回过神来了，他盯着屏幕上的损失曲线，

    “这东西要是公开出去，整个领域都得重新洗牌。以前大家默认深层网络没法训练，所有人都在十几二十层的范围里卷。现在这个假设直接被推翻了。”

    任少卿没说话。

    他站起来，走到机房那面闪烁的绿色光墙前面，双手插在冲锋衣口袋里。

    兴奋吗？当然兴奋。

    但兴奋过后，一种更复杂的情绪开始往上涌。

    他想起去年在西安交大走廊里，那个黄毛少年对他说的话。

    “你的模型在做大量无效计算。”

    “让模型只用它需要用的那部分脑子去思考。”

    当时他以为那只是一个外行的模糊直觉。

    但现在他回过头来看，那个十八岁的少年说的每一句话，都精准地指向了这个领域未来五到十年的核心命题。

    残差连接解决了深层网络的训练问题。

    但那个少年想要的，显然不止于此。

    任少卿盯着那面光墙，脑子里像打开了一扇被堵住很久的门。

    五十层的残差网络证明了一件事：网络可以做得很深，深度不再是瓶颈。

    那下一个瓶颈是什么？

    他几乎是本能地想到了那个词。

    宽度。

    或者更准确地说，视野。

    卷积网络的每一层只能看到一个局部窗口。

    三乘三，五乘五，最大也就七乘七。哪怕你把网络堆到一百层，每一层看到的依然是一小块局部区域。

    它通过层层叠加来扩大感受野，但这种扩大是间接的，是逐层递推的，不是一步到位的。

    如果数据不是图片呢？

    如果是一段文字，一个句子，一篇文章？

    文字里的语义关联可以跨越整个句子。

    第一个字和最后一个字之间可能存在关键的依赖关系。卷积核看不到那么远。

    循环神经网络可以看到，但它是串行的，一个字一个字往后递，速度慢得要命，而且同样存在梯度消失。

    只不过是时间维度上的梯度消失。

    那如果……

    任少卿摇了摇头，把这个念头暂时压下去。

    他现在面前摆着一堆更紧迫的问题。

    论文要不要写？投哪个会议？实验还需要补哪些对照组？

    一百层的网络还没跑，一百五十层呢？

    目标检测任务上的迁移效果怎么样？

    另外，残差连接这个结构目前只在图像分类上验证过。

    要推广到其他任务、其他数据类型，工作量巨大。

    他手上就两个师弟，根本忙不过来。

    这些问题每一个都很具体，每一个都需要人手、时间和资源。

    “少卿哥。”

    郑宇航不知道什么时候走到他旁边来了，手里端着两杯速溶咖啡，递了一杯过来，

    “你是不是该跟上面汇报一下了？”

    任少卿接过咖啡，没喝。

    “上面”。在这个基地里，“上面”这个词只指向一个人。

    他入职快半年了，跟那个黄毛少年只见过一次面。

    日常工作对接的是林溪和徐静。林溪管钱管人，徐静管硬件和基建。

    两个人都很专业，给他的自由度也大，基本上他要什么给什么，从来不问他每天具体在做什么。

    但这次不一样。

    这个发现太大了。

    大到他自己都说不清它的边界在哪里。

    “我给林总发了飞书消息。”

    陈立秋从值班间探出头来，

    “但我觉得这种事，光发消息说不清楚。”

    任少卿看了一眼窗外。天还黑着，大渡河的水声闷闷地从山下传上来。

    他沉默了很久。

    然后他把那杯没喝的速溶咖啡放在窗台上，转身走回值班间，拿起手机。

    不是发消息。是查机票。

    雅安到北京，最早的航班在锦城双流机场起飞，早上七点二十。从基地开车到锦城大概要两个半小时，现在出发正好来得及。

    他买完票，把手机揣回兜里。

    “收拾一下数据和实验日志，打包拷到加密U盘里。”

    他看着两个师弟，语气平静，

    “我去北京，当面汇报。”

    郑宇航愣了一下。

    “现在？凌晨三点？”

    “现在。”

    任少卿拎起那个跟了他快三年的黑色双肩包，把笔记本电脑和充电器塞进去，拉上拉链。去读书 www.qudushu.la

如果您中途有事离开，请按CTRL+D键保存当前页面至收藏夹，以便以后接着观看！

上一页高二分科，我选校花也选亿万身家下一页

如果您喜欢,请点击这里把《高二分科，我选校花也选亿万身家》加入书架,方便以后阅读高二分科，我选校花也选亿万身家最新章节更新连载
如果你对《高二分科，我选校花也选亿万身家》有什么建议或者评论，请点击这里发表。

第622章 深度学习变天了

第622章深度学习变天了