字节跳动背后的AI核心技术


11月13日早上,一则关于阿里巴巴决定申请仲裁“通义大模型前员工周畅违反竞业协议”的消息在AI圈迅速传播开来。当天中午,就有媒体得到阿里内部人士的确认:情况属实。

早在2020年,周畅就开始在阿里达摩院带领团队训练名为M6的多模态模型,2023年ChatGPT爆火后,他所在的团队在M6基础上研发了“通义千问”大模型。可以说,他就是当今世界上最懂阿里大模型的人。

但这个人现在跳槽到了字节跳动,对于阿里来说这无异于釜底抽薪。

7月中旬,最先曝出来的消息是周畅即将辞职创业,然而10月底,他就已经加入了字节跳动。“辞职创业”只是个幌子,真正的原因是他怕被竞业。在一家服务字节的猎头公司工作的沈曼告诉《第一财经》杂志:“但这次瞒不住了,来字节的不止周畅一个人,他手底下的团队还有十多个人也跟着跳槽了。”

此外,最近几个月加入字节大模型团队的关键人才还包括零一万物前算法副总裁黄文灏、面壁智能原核心成员、序智科技创始人秦禹嘉等。这家中国最年轻也最激进的技术公司一直以拥有庞大的招聘团队著称,HR部门巅峰时有5000多名员工,其中绝大部分人唯一的工作就是招聘,再辅以同等规模的外包猎头体系,共同构成了一座史无前例的抢人工厂。

其他体量相近的技术公司在招聘团队规模上与它有着约一个数量级的差距,这意味着只要字节决定入场,每家竞对公司都将面临人才流失的风险。

张一鸣在新技术时代展现了他的雄心。那时的字节,并不被认为是“大厂”,它创立仅四年,只有今日头条一个爆款应用,无论公司的资历还是业务体量都无法与阿里巴巴、百度、腾讯等巨头相比。

那一轮AI Lab建设浪潮中,字节跳动是鲜见的初创公司,而且它的决定时间比阿里更早。2017年5月,字节才宣布成立达摩院。张一鸣在数字中国建设峰会上发表演讲时提到:“人工智能技术是字节跳动在全球市场取得优势地位的关键。”他称AI技术为全球用户提供了统一的产品体验。

然而,当抖音、TikTok等核心应用取得了绝对优势的市场地位,并开始步入“流量如何商业化”的阶段,AI Lab在字节的位置就开始松动。AI Lab负责人马维英的汇报对象从张一鸣变为当时的抖音负责人张楠,这意味着AI Lab不再是个集团级的前瞻性项目,变成了服务于抖音这一应用的技术团队。

2020年年中,马维英宣布离开字节跳动,回到清华大学智能产业研究院任教。同年李磊和王长虎也离职,其中李磊重返学界,而王长虎则投入视频生成模型领域的创业。

随着核心团队成员的离开,AI Lab体系开始进一步被弱化和拆分。乐雁说,他2020年加入AI Lab时这个部门还是字节跳动AI研究的核心部门,团队规模上百人。但次年,AI Lab重组,各个组被拆分到不同的业务线,比如图像视觉的一部分人就被划到商业化团队下,为公司一些业务提供技术中台支持。

这次重组后,整个AI Lab只剩下不到50人,主要做一些偏学术方向的研究,比如机器人等,原先的视觉模型、自然语言处理等方向都已不存在。张一鸣很早就意识到了AI在内容分发上的巨大潜力,不过他可能没有意识到AI在内容生产上的潜力更大,大到可能颠覆其基于内容分发技术构建的产品形态和竞争优势。

目前,业内已有不少创业项目都在基于生成式AI构建新一代内容社区,其中既包括可能取代小红书的文字、图文社区,也包括可能颠覆抖音、TikTok的短视频社区。如果字节不能提供相似或更好水平的内容生产技术,用户很可能会转移至其他平台。毕竟社区的本质首先是为创作者提供创作工具,其次才是表达渠道。Instagram、小红书、抖音的崛起一再说明了这一点。

公开资料显示,早在2017年马维英就公开表达过:“在内容分发上AI算法已经做得很好了,但很多信息的需求不是靠搜索3个网页就可以满足……我们希望AI能够在创作端释放出人更多的创意。”

字节公司再次展示了其拿手好戏:内部赛马、外部“小步快跑、敏捷迭代”,以及烧钱策略。乐雁对《第一财经》杂志表示,“现在Seed和Flow是字节明面上的生成式模型与应用部门,但当公司高层都把目光投向这个领域时,每个有AI研发能力的团队都在尝试研发出更好的模型或产品,争夺更多的资源与升职机会。”

“就比如Seed最近同时发了两款视频模型(SeaWeed和PixelDance),这两个模型其实是不同小组做出来的。最后都放出来说明两个模型确实在能力上各有千秋。”乐雁继续说道,“如果其中某个团队的模型哪怕稍微弱一点,那压根就不会被外面看到,字节一直都是这种赛马模式。”

面对外部,字节则采取了一贯的“饱和式攻击”。以Coze为例,它对应的是AI智能体最热门的应用场景之一。用户可以自定义聊天机器人,这些机器人能将各种功能节点(如插件、模型、代码)按照一定的顺序和逻辑关系连接起来,实现特定的任务或功能。白话Agent主理人古德白告诉《第一财经》杂志,“Coze几乎每天都在更新版本,这需要大量资源投入和团队配置。字节雇用了大量外包公司完成最后的产品测试。”

“创业公司很难应对这样的饱和式攻击。”古德白说。

而且Coze推出时直接采取“模型免费使用”策略,导致国内最早落地AI工作流功能的另一个平台FastGPT迅速沉寂,Coze则后来居上。字节也是今年年中国内大模型价格战的发起者。2024年5月,火山引擎FORCE原动力大会上,字节跳动在正式发布豆包大模型的同时向模型的B端价格挥起屠刀。“豆包通用模型pro-32k版的推理输入价格仅为0.0008元/千tokens。”AppGrowing统计显示,“这比行业均价低99.3%。这意味着客户花一元钱就能让豆包模型处理200万个汉字,相当于3本《三国演义》——当时花同样的钱只能向GPT-4输入不到4000字,甚至不够一篇短篇小说。”面对字节发起的价格战,竞争对手不得不快速跟进。阿里云将其通义千问主力模型的价格下调97%;百度甚至直接宣布文心两款轻量级模型免 费。“面向C端用户的AI应用上,字节烧起钱来更是毫不手软,花钱投流买量成为它实现产品冷启动最直接快速的方式。”AppGrowing统计显示,“豆包智能助手4月、5月的投放金额接近1800万元,等到6月上旬,投放金额飙升至1.24亿 元。”

与此同时,抖音平台上的竞争对手豆包也受到了限制,其中受影响最大的就是智能助手Kimi。

在豆包下场前,Kimi依靠在抖音、哔哩哔哩等社交平台的广告投放快速起量。但在字节跳动的强大支持下,Kimi被限制了在抖音内的广告推送,结果在今年3月,Kimi凭借社交平台的广告投放超过了百度旗下的文小言(原文心一言),成为月活最高的原生生成式AI应用。

4个月后,Kimi被豆包超越。一个月内,豆包的用户数量从904万陡然上升至5127万,把其他对手远远甩在后面。“AI产品榜”的数据显示,在10月,豆包的排名以近7000万月活用户在中国AI产品中达到断崖式领先,而Kimi和文小言分别只有约3900万和3400万月活。

用花钱买用户的成本目前不算高。一位熟悉Kimi投放策略的人士对《第一财经》杂志说:“目前Kimi、豆包的用户留存率还很健康,单个用户获取成本只有十几元,这是相当划算的数字,成熟阶段互联网产品的用户获取成本都在好几百 元。”但这些用户忠诚度就是另外一回事了。以视频生成领域为例,今年7月,Luma AI发布的最新模型Dream Machine 4天内获得了1000多万用户,这些人最早是Runway的用户,后来pika发布时也曾涌入Pika。

而且,广告投流能带来的边际效益也在减少。综合Similarweb发布的投流数据和App Growing发布的用户数据,不久前阶跃星辰的智能助手跃问也在疯狂投放,花了近7000万元,但截至今年10月只转化来不到2万个新用户。

与字节的激进形成对比的是国内其他大厂和初创公司们的谨慎。除了字节,其他中国技术公司对生成式AI的热情都在消退——以积极的视角看,这个领域正在变得理性。

最早押注AI的李彦宏在刚刚召开的第三季度总监会上表示,“百度不碰sora类的视频生成”,并且在文小言的推广上选择“稳健”而非“激进”;阿里不再执着于开发all in one的AI超级应用,而是将更多精力放在AI云服务上;短视频巨头快手至今没有推出过语言模型应用,而是集中在视频模型的开发与应用上。

多位人士向《第一财经》杂志证实,随着国内模型在能力上逼近GPT-4,以及GPT-5的一再延迟,多家公司尤其资源有限的初创公司对于投入训练下一代基础模型(通称“预训练”)变得谨慎。甚至有投资人称暂停“预训练”的AI六小龙不止两家。

一位业内人士告诉《第一财经》杂志,独角兽们选择暂缓预训练下一代大语言模型的原因之一,是即便预训练一个比现有模型好1代甚至1.5代、超越GPT-4的模型,其推理能力仍然达不到让终端应用从陪伴领域进入生产力领域的产品需求。GPT-4目前在生产力领域的应用状况已经说明了这一点。

根据阶跃星辰创始人姜大昕在阿里云栖大会上提到的数据,GPT-4达到万亿级参数后,再去提升参数量,边际收益是下降的。

字节却没有减速的迹象。沈曼对《第一财经》杂志透露,预训练人才是字节目前最急要的人才类型。最近字节成立了一个叫“大模型研究院”的机构,从名字看,它可能承担比基于现有算法训练模型更为前沿的任务。

最初的市场传言称,从阿里云挖来周畅就是让他负责这个团队。不过也有消息称,为避开竞业协议,周畅被派去了新加坡就职,工作方向是具身智能,研究机器人在物理世界中自由行动需要的“世界模型”(world model)。

AI Lab在字节式微,其仍然被张一鸣看重并重点投入的最后一个研究方向就是机器人,这些机器人被认为可以服务于字节的电商履约需求。豆包目前还没有盈利,据Acecamp上一份专家访谈纪要,字节跳动对于大模型的财务政策是“推理层不亏”,即模型训练阶段所需要的研发投入、芯片算力投入、人员成本方面可以承受战略性亏损,而模型投入应用后每次调用的成本需要降低。豆包目前对B端用户按照API调用收费,平均每1亿个tokens调用收费约为80元至200元,豆包能从这种调用中获得8%-10%的毛利。尚未向C端用户收费。

访谈纪要称,从2023年至2024年,字节跳动通过“模型蒸馏”,将模型尺寸从300B降到了80B左右,大幅降低了算力开销。目前,豆包还没有向C端用户收费,一大原因仍然是产品不够,一旦开始收费用户就可能流失。

纪要提供的数据称,每个豆包用户每天使用该应用的平均时长只有10到11分钟,而且这个时长是多次使用后的累积数字,如果平摊到每次使用时长,数字就会降低为2分钟,即用户每次打开豆包基本只会进行3到4轮对话就会结束。“如果2分钟内未能满足需求,他们可能会切换到其他应用,而不一定是其他AI工具。例如,用户可能会打开微信、小红书等应用。”纪要中称。

豆包已经是目前国内用户量最大的原生AI了。然而字节对此有个更激进的目标,即今年年底实现1亿月活。日后看,字节的饱和式投入中一定有不少比例是浪费的,但眼下的现实状况是,它不得不为新技术时代的到来做足准备。

作为字节一直以来——从社交媒体到元宇宙——的战略对标对象,Meta也在以上百亿美元的规模投入AI,MetaCEO扎克伯克在最近一次与英伟达CEO黄仁勋的对谈中解释为什么这么做时说:“今天你在Instagram上看到的大部分内容是根据你的兴趣匹配给你的……在未来,我认为这些内容会由创作者使用AI工具创造,或者由AI综合生 成。”

字节的财务状况在众多大厂中还算不错。据科技媒体The Information报道,2024年上半年字节跳动的营收约为730亿美元(约合5280亿元人民币),这一数字已经远远超过腾讯同期3206亿元的营收,接近Meta。而字节目前的估值只有Meta的1/5。

若有资金需要,它还比其他公司都多一个可观的融资渠道:上市。不过它的造血业务——广告和电商的增速已在快速放缓。今年前三季度,字节中国区单季度广告同比增速从40%左右跌至17%以内,已有两个季度未能达成既定目标。与此同时,抖音电商的销售额增速也已从年初的超过60%跌至9月的不到20%。

成熟业务的增速一旦变成个位数,字节能够支持新业务的现金流就会受限。不过对一个试图进行重大转型的公司来说,上市并不是个好选择——上市之前转型成功的公司多见,上市后成功的则不多。对字节而言,造血能力决定一切。

(编者注:本文为作者根据网传信息整理撰写,请以官方渠道发布为准)