据 AI 科技评论所知,DeepSeek 为做 AGI 所物色的多位 NLP、多模态与强化学习方向的优秀人才,就在 DeepSeek 与字节跳动之间选择了 字节跳动。
据早期为 DeepSeek 服务的猎头透露,DeepSeek 早期也希望从海外的谷歌、Meta、OpenAI 等团队挖顶尖人才,但进展并不顺利,所以只能退而求其次、自己培养。
AGI 的投入,除了要有钱,也要有人,而且是一群绝对的技术理想主义者,以及优秀的组织文化。DeepSeek 的成功或许无法复制,但从 V2、V3 到 R1、R1-Zero,DeepSeek 的技术结果体现了其在资金、人才/理想与组织文化上的优势。
在 DeepSeek 之前,“北九坤、南幻方”就已经在金融量化领域鼎鼎有名,而量化行业对技术人才的高要求也是众所周知的,基本以 Top2 高校、信息学竞赛金牌选手为基准,团队规模往往不大,但能力超强。据 AI 科技评论了解,2024 年上半年 DeepSeek 的团队规模也只有 40 多人,且大多数是原幻方 Top2 的技术高手。
延续原来幻方的风格,DeepSeek 的招聘门槛一直非常高。比如,他们从 2024 年年中就开始物色多模态与强化学习方向的技术大牛,但招了大半年、相关岗位也依然空缺,对人才的招聘宁缺毋滥。R1 爆火后,投递简历虽然暴增,但据知情人士称“合适的并不多”。
DeepSeek 内部的组织文化也非常扁平。据 AI 科技评论了解,无论是北京还是杭州,都只有一个老板:DeepSeek 创始人梁文锋。“梁文锋以下基本全是打工人。”
此外,梁文锋的个人风格也十分明显:有极强的技术信仰,对 AGI 有十足的好奇心与求知欲,并且十分刻苦。接近梁文锋的知情人士形容,梁文锋“说话非常非常慢,每一句话都要思考很久很久才表达出来,而且表达非常简洁。虽然简洁,但说出来的话经常一针见血。”
DeepSeek 的团队文化与宇树、Momenta 这样的公司很相似:一号位都是技术发烧友,对技术有天然的敬畏之心与好奇之心;同时在管理上集权风格明显,文化扁平,因而能在技术探索中遇到困难时能自上而下协调资源,快速达到上传下达的效果。
同时,宇树与 DeepSeek 在招人时也有一套自己的标准,与市面上千篇一律的面试套路很不同。有兴趣的读者可以去了解下。
DeepSeek 梁文锋很早开始探索如何用更低的成本训练出更强的模型,彼时行业还普遍看不懂。同样地,宇树王兴兴也是在大家还看不懂机器狗时就开始做四足机器狗,Momenta 曹旭东也是在自动驾驶行业还普遍沉醉于 L4 时同时开始做 L2 与 L4、两条腿走路。
敢于与主流对着干的创业团队需要一种强大的叛逆精神。在 AI 科技评论与多位投资人的交流中,这种“叛逆”容易被轻易地归类为“年轻人群体”,但在笔者看来,叛逆的底气终究来源于一个团队对自己所要解决的社会问题的认知、判断与技术自信,即:坚信自己的前进方向是未来的,会带来巨大的价值。
3
创新的品味
V2 掀起价格战后,梁文锋在接受《暗涌》的访谈时对这个技术成果的评价是:“在美国每天发生的大量创新里,这是非常普通的一个。”
V3 与 R1 之后,梁文锋暂时还没有对外发过声,但对 DeepSeek 与梁文锋来说,在完全实现 AGI 之前,或许 V3 与 R1 的创新也只是“非常普通的一个”。——这并非否定后两者的突破与可取之处,而是想突出高追求的团队往往会将 100 分的事情说成 80 分,并永远追求附加分。
R1 发布,业内的一位资深强化学习学者向 AI 科技评论分析时表示:“用纯 RL 算法代替 RL+SFT 的范式后,我觉得 AGI 的实现最晚三年。”
Sam Altman 说 2025 年 AI 就会超越人类,马斯克也说 AGI 最晚在 2026 年就可以实现。——在各种“AGI时间点”的预言上,虽然我们很难判断具体会在什么时候发生,但可以感受到这样的大趋势正在发生。
趋势已知,同时 DeepSeek 的打板已经让大家意识到起码两个事实:一是 AGI 的技术还没到天花板,二是中国的科技团队有能力做出引领世界 AGI 的创新。相比沉浸于 DeepSeek 的胜利,接下来怎么推动中国 AGI 的发展,才是更重要的事情。
在过去的半个月,DeepSeek 的风暴让大厂、创业公司、算力厂商、投资人等对 AGI 发展的认知都产生了新的变化。一些过去被忽视的大象般的问题重新得到重视,同时一些过去的陈旧看法也被颠覆。但一致的变化是:所有人都意识到,在现阶段,AGI 的实现仍需要理想主义。
相比猜测 OpenAI 或 DeepSeek 下一步会做什么,推断 AGI 需要解决什么技术问题更重要。换言之,创新比模仿更重要。
事实上,根据过去一年 AI 科技评论的访谈,除了 DeepSeek,国内也有不少 AI 人才在不断坚持创新、不断提出新的解法来解决悬而未决的难题。只列举一二:
香港大学计算与数据科学研究院院长马毅教授在过去两年一直强调:当前通过高算力推进训练的大模型拥有的是知识、而非智能。区别于深度学习的黑盒特质,马毅团队一直致力于研究可解释、可控制的人工智能算法与框架(白盒理论)。(更多信息可以阅读 AI 科技评论往期报道:《港大马毅:现在大模型的「知识」,不等同于「智能」》)
CNCC 2024 上,智谱唐杰提到多模态技术的下一步发展。从 2021 年开始,智谱团队就开始探索多模态大模型。据智谱团队透露,在早期探索中,他们遇到过类似的问题:文本、图像、语音与视频等多模态数据同时灌入训练大模型时,一个模态的数据似乎会削弱另一个模态的知识/智能。多模态虽然趋势,但如何优化跨模态的数据对齐、收集高质量的数据、以及增强多模态模型的常识与推理能力等,也仍有很强的研究空间。(更多内容可以阅读雷峰网往期报道:《五道口大模型简史》)
而据 2024 年 3 月与面壁团队多位创始成员的交流,当前主流的大模型架构其实还无法很好地解决几个关键问题,由此难以靠近 AGI:如经验学习与空间记忆。例如人可以通过多次学习一件事而更熟练,或者迅速熟悉新环境、并将另一个问题的认知有效迁移到新环境中。这些问题是当前 Transformer 不太好表达的。(更多内容可以阅读 AI 科技评论往期报道:《被低估的面壁:打造出不输 OpenAI 的 Scaling Law 曲线》)
随着具身智能的发展,接下来 AGI 也天然分会分为云端 AGI 与端侧 AGI。端侧 AGI 指的是天然能感知环境与进行做高阶推理,并能基于高阶推理做出复杂多步的决策的模型。热门的具身大小脑就是沿着这一趋势发展,而这一方向也仍有许多问题要解决。要解决这些问题,除了资源,还要有强烈的技术实力与技术愿景。
o1 发布后,大模型领域的许多研究开始往推理走,但据小道消息:谷歌的 Gemini 团队近日已完成了新一代的基础模型,并对一小部分用户开放了测试。
虽然 2023 年谷歌被 OpenAI 打得股价暴跌,但如果看 2020 年 6 月到 2022 年期间谷歌的大模型技术,就可以发现谷歌的大模型打法是自下而上构建从底层算力、架构到上层算法的体系。这或许也是谷歌 Gemini 能后来发力的重要原因。
DeepSeek 的路径也是如此。根据 DeepSeek 的技术披露,其研究大模型的路径也是从底层万卡集群、HAI 框架向上贯穿,构建环环相扣的技术体系。
对权威保持警惕、永远从问题的本质倒推,坚定创新,才能引领潮流。短期的快钱或许会流向幸运的人,但长期的资源应该流向那些擅长将资源应用到最好的团队。
大家都是出来卖的,何苦自己人为难自己人
那些活好的,或者活新的,或者花样多的,
或者老板拉皮条功夫好能拉到肯多花钱的客的,
拜托不要老是打击年老色衰的同行了
老鱼记事 老鱼侃棋 老鱼围脖