第623章 前世的终局与今生的起手
去读书推荐各位书友阅读:高二分科,我选校花也选亿万身家第623章 前世的终局与今生的起手
(去读书 www.qudushu.la) 四月中旬的北京,春天来得理直气壮。
清华六教二楼的阶梯教室里,国际政治专业大一的必修课“当代国际关系概论”正进行到第十一讲。
讲台上的刘教授戴着老花镜,翻着他那本写满批注的讲义,正在分析冷战后中东地缘格局的演变逻辑。
顾屿坐在中间偏后的位置,手里转着一支笔,听得很认真。
教室后门被人从外面轻轻推开了一条缝。
陆知远站在门口,西装外套搭在小臂上,冲讲台上的刘教授微微欠了欠身,语气客气但不拖泥带水:
“刘老师,打扰您了,国政大一的顾屿同学,出来一下。”
刘教授推了推老花镜,扫了一眼后排,点了点头:
“去吧。”
顾屿合上笔记本,起身往外走。
经过沈昭野身边的时候,他小声说道:“你犯事了?”
在全班同学看来,这个场景的解读方式只有一种:辅导员亲自跑到课堂上把人提走,这事儿多半不小。
毕竟陆知远的身份,在所有人眼里就是国际政治专业的博三兼职辅导员。一个管学生日常事务的角色。
没人知道他每个月从回响科技领走的那笔薪水,比在座所有同学四年学费加起来都多。
顾屿出了教室,走廊里只剩他们两个人。
陆知远把门带上,脸上那副对着刘教授时的客气神情收起来,换成了汇报模式。
“任少卿从雅安飞过来了。凌晨三点从基地出发,赶的早班机。”
顾屿脚步顿了一下。
“他说了什么事?”
“没细说。只说实验有重大突破,必须当面汇报。”
陆知远把手机揣回口袋,
“我已经帮你和刘教授那边打好招呼了,下午的课也请了。车在东门外停着,人在中关村办公室等你。”
顾屿没再多问,跟着陆知远往楼下走。
他脑子里在快速过滤信息。
任少卿入驻雅安基地五个月,中间只通过飞书汇报过几次阶段性进展,每次都很克制,措辞严谨。
能让这个人凌晨三点往机场跑的事情,不会小。
从清华东门到中关村那栋写字楼不远,开车十几分钟。
推门进去的时候,任少卿正站在窗边喝水。
纸杯里的水已经凉透了,他好像也没注意到。
半年没见,这家伙黑了不止一个色号。
雅安山里的紫外线确实不是开玩笑的,他现在的肤色跟去年在西安交大走廊里见到的那个白净书生完全是两个人。
冲锋衣袖口磨出了毛边,运动鞋上沾着没刷干净的红土泥点。
任少卿转过头,看见顾屿的第一反应是愣了一下。
“你头发……”
“剪了。”
顾屿随手拉开椅子坐下,
“怎么,怀念黄毛?”
“不是,就是……有点没认出来。”
任少卿放下纸杯,从那个跟了他三年的黑色双肩包里掏出笔记本电脑和那个加密U盘,动作很快,
“顾总,实验结果出来了。”
顾屿瞥了一眼那个外观普通的U盘,眉头皱了一下:
“你就这么把它装在包里,坐经济舱飞过来的?”
任少卿愣了愣:
“这是军工级的加密U盘,防暴力破解的。”
“但在物理层面上,它只需要一杯不小心洒出来的咖啡,或者一次安检时的遗失就会报销。”
顾屿语气平静,却带着压迫感。
“少卿,能让你凌晨三点不管不顾飞过来的东西,其价值不需要我多说。不管这U盘里装的是什么成果,它现在都是公司最高级别的商业机密。下次再遇到这种情况,让林溪派专机和安保团队去接你。别替我省这个钱。”
任少卿张了张嘴,显然被顾屿这种保密意识震了一下,但还是老实地点了点头。
“行了。还有,别叫顾总。”
“那叫什么?”
“随便,叫名字就行。”
任少卿没纠结这个问题。
他把电脑打开,插上U盘,解密后屏幕上出现了一份技术文档,图表密密麻麻。他转过屏幕朝向顾屿,手指点在一张折线图上。
“ImageNet验证集,TOp-5错误率,5.08%。五十层卷积神经网络。”
顾屿盯着那个数字看了三秒。
“人类标注员的平均水平是5.1%。”
任少卿的声音压得很低,但语速在加快,
“我们的模型精度已经追平了人类,甚至略微超过。核心突破点是一个我称之为'残差连接'的结构。简单来说,就是给深层网络开了一条捷径,让训练信号可以跳过中间层直接回传,解决了层数堆叠之后信号衰减的老大难问题。”
他翻到下一页,是不同层数网络的对比实验数据。
二十层、三十层、四十层、五十层,精度曲线一路攀升,没有出现以往深层网络必然遭遇的性能坍塌。
“以前整个学术界都默认,网络超过二十层就没法有效训练了。这个假设,被我们推翻了。”
顾屿靠在椅背上,目光停留在屏幕上那条稳步上升的曲线上。
他没说话。
不是因为震惊。而是因为他太清楚这个东西是什么了。
残差网络。ReSNet。
前世,这篇论文在2015年12月发表,第一作者正是任少卿。
它不仅横扫了当年所有计算机视觉的顶级竞赛,更从根本上改写了整个深度学习的工程范式。
从此以后,“网络可以无限加深”不再是空想,而是被数学和实验双重验证的事实。
它是后来所有大模型架构的地基之一。
没有残差连接,就没有后来的GPT,没有BERT,没有任何你能叫得出名字的大语言模型。
而现在是2014年4月。
任少卿提前了将近一年半。
顾屿闭上眼睛。
前世的记忆潮水般漫上来,不受控制。
2020年。他拿到天使轮的那个夏天,北京五道口的一间地下室办公室,八个人,六台电脑,空调坏了三天没人修。
他站在白板前画TranSfOrmer的架构图,给团队讲什么是自注意力机制,什么是多头注意力,什么是位置编码。那时候他以为自己看到了未来。
2022年。A轮融资到账,团队扩到四十多人,搬进了望京的写字楼。
他们基于TranSfOrmer训练中文大语言模型,做垂直行业应用,对标ChatGPT。烧了两个多亿,模型效果勉强能打。投资人说,再坚持一轮,B轮估值翻三倍,上市不是梦。
他信了。
然后2024年底,DeepSeek的技术报告发了出来。
不到六百万美金的训练成本。
用了一种叫MOE的混合专家架构,让模型学会了“只激活需要的那部分参数”,不用的部分直接休眠。
配合极致的底层算力优化和开源策略,效果直接对标上亿美金训练出来的顶级模型。
一夜之间,他那套靠堆参数、堆数据、堆算力硬撑出来的商业故事,全部归零。
投资人撤资的邮件是凌晨两点发来的,措辞很客气,意思很残忍:赛道逻辑变了,我们需要重新评估。
客户解约的电话是第二天早上九点打来的,对方甚至没听他解释完,只说了一句“DeepSeek免费开源的效果比你们收费的还好,我们没有理由继续付费”。
团队散伙那天,核心算法工程师把工牌放在会议桌上,什么都没说,转身走了。
门没关严,走廊里传来的声音很轻,但顾屿听得清清楚楚。
2025年春天,公司清算完毕。
他在锦城的出租屋里,盯着天花板上那道裂缝,想了很久很久。
然后他重生了。
所以他对AI这条路的理解,从来不是什么“前瞻性预判”。
他是亲手走过那条路上的每一步,踩过每一个坑,最后被终局的浪头拍死的人。
他知道训练大模型时候学习率该怎么调。
知道RLHF的人类反馈强化学习有多少坑。
知道MOE的路由策略为什么能把成本打下来。
这些知识是他的武器,也是他的伤疤。
前世他死在三件事上:起步太晚,资本不够,算力受制于人。
这一世,全都翻过来了。
雅安基地的算力,够。
百亿级的资金储备,够。
任少卿加九章团队的人才密度,够。
而任少卿刚才摆在他面前的这份残差网络实验数据,证明了一件更关键的事情:
这个时代的硬件和人才,已经具备了从卷积神经网络向更通用架构跃迁的基础条件。
前世,全世界花了整整三年,才从2014年注意力机制的萌芽走到2017年TranSfOrmer论文的发表。
但这一世,他不打算走硅谷那条“有钱就是任性”的老路了。
不堆参数,不烧天价算力,不做那头笨重的大猪。
他要走DeepSeek的路。
用最少的资源,做最聪明的架构。
让模型学会自己选择、自己推理、自己纠错。
用MOE让参数按需激活,用极致的工程优化把每一滴算力都拧干。
前世DeepSeek做到了,但它来得太晚,他的公司已经死了。
这辈子,他要自己做这件事。
从头做。
顾屿缓慢地睁开眼睛,视线重新聚焦在屏幕上那条安静攀升的精度曲线上。
任少卿还在旁边等着他的反应,大概以为老板在思考学术问题。
“少卿。”
顾屿的声音恢复了一贯的云淡风轻。
“在。”
“这个东西,你准备叫什么名字?”
任少卿想了想:
“残差网络。ReSidUalNetWOrk。简称ReSNet。”
顾屿点了点头。
然后他把椅子往前拉了拉,双手交叠放在桌面上,目光落在任少卿脸上。
“论文的事我们待会儿再聊。我先问你一个问题。”
“你说。”
“卷积神经网络,本质上在做什么?”去读书 www.qudushu.la
如果您中途有事离开,请按CTRL+D键保存当前页面至收藏夹,以便以后接着观看!