“我劝过梁文锋很多次,DeepSeek要融资”(图)
大鱼新闻 科技 21 hours, 3 minutes
爆火的DeepSeek,足以载入史册。很多年后人们回想起这一刻,结论或许是从2022年底OpenAI发布Chatgpt,中国AI发展的主流叙事始终是“追赶”,而DeepSeek横空出世,将“追赶“变成了“创新”和“普及”,甚至是“重塑”和“超越”。
但VC们显然是失意的,因为包括“大模型六小龙”在内,他们支持的大模型创业项目,自始没有一个达到DeepSeek这样的全球热度,几乎与DeepSeek同时发布的,Kimi全新强化学习模型k1.5,虽然是全球继OpenAI之后首个多模态类o1模型,在诸多层面能力接近o1甚至是超越,但没有溅起多大水花,同样淹没在了DeepSeek狂热的舆论中。
一切或许要从DeepSeek创始人梁文锋登上新闻联播,成为总理的座上宾开始。他在这次会上说了什么,可能不是最重要的,舆论关心的是,为什么一个留着长刘海的80后,会突然得到高层的关注?再看看朋友圈,哦?做量化基金的。更好奇了。
作为长期跟踪AI产业的一级市场观察者,舆论发酵速度低于我的预期,程度却远超我的想象。1月20日,周日晚间梁文锋登上新闻联播,发酵了足足一周,颠覆全世界的“DeepSeek R1 550万美元训练成本”,只让周五英伟达的股价下跌3.12%,转过头来的下周一,却让A股创业板收获了根-2.73%的大阴线。当时我的评价是,DeepSeek打了英伟达们一个嘴巴,转头却更狠地踹了A股一脚。
打脸来得很快,1月27日当天,英伟达低开低走下跌接近17%,全世界的算力一片哀嚎,高喊“狼来了”,DeepSeek就是那条狼。当然了,我个人的荣辱不算什么,打脸也是经常的事。但中国VC却几乎成了AI算力之外,最大的“受害者”,舆论不吝给予梁文锋和他的理想主义最大程度的赞扬,同时也施加给中国VC极致的羞辱和讨伐,比如小红书有篇帖子,标题为“DeepSeek再次证明,中国VC就是个笑话”。更不幸的是,点赞还过千了。
但我还是要旗帜鲜明地说一句,道德层面的讨伐很低级,这个阶段讨论“VC为什么没投到DeepSeek”,除了情绪上的宣泄,也没太大意义,没投到就是没投到,任何客观或主观的原因都像是辩解。进一步的反思虽然非常有必要,但也不是立刻,纵观国内一级市场,从LP到GP,再到募投管退的各个环节,大量“顽疾”很难短时间根除,很多也根本不是VC/PE们能决定的。
我认为亟待讨论的是现在和未来,至少包括三个问题:现在DeepSeek能不能投到以及估值多少?DeepSeek对此前已经投资的各类AI项目有什么影响?DeepSeek引发的AI产业变革,对VC下一步在AI的资本部署,有哪些积极指引?
DeepSeek融资?梁文锋“打太极”
关于DeepSeek估值多少以及能不能投到,这两天已经有不少消息流出了。就在昨天晚间,有消息称阿里将以100亿美元估值,投资10亿美元占股10%。对此阿里副总裁颜乔很快通过朋友圈辟谣称,“外界流传阿里投资 DeepSeek的信息是假消息”。不过,一位可能接近此次交易的投资人向投中网表示,“现在比较敏感,他们也不方便说,要再等等”,因此这笔被否认的交易,不排除还可能存在一些变数。
而在此之前,就有某AI投资人对投中网表示,DeepSeek正与投资人接触,他透露的估值是80亿美元,与前述“阿里给出100亿美元估值”的“假消息”有差距,而不管是80亿美元,还是100亿美元,DeepSeek的估值目前已远超“大模型六小龙”中最高的MiniMax——40亿美元。
据投中网了解,这几天有不少投资人,都直接或间接找到梁文锋确认是否正式启动融资,估值也大致围绕上述范围,但梁文锋并未给出承认或否认的正面回应,而是以“打太极”为主。也有不少投资人找到DeepSeek负责IR的相关人士询问是否正在进行融资,截至昨天都得到了否认的结果。
另外还有一层信息是,DeepSeek内部也有人“劝过梁文锋很多次,DeepSeek要不要融资”。这至少意味着两点,一是对于是否进行融资,DeepSeek内部意见也许并不统一,但决定权一定在梁文锋,只有他握着开启宝藏的钥匙;二是梁文锋近期很可能与一些投资人或产业资本有过接触,但维持在一个极小的圈子。
比如多次对投资大模型嗤之以鼻的朱总,就肯定不在这个圈子中,即使DeepSeek让他转变了对大模型的态度,表示“我肯定会投啊”,但投中网向他询问是否听说DeepSeek融资的消息时,得到的回复是“没有”。但朱总毕竟是朱总,对VC应不应该参与DeepSeek融资的重点拿捏得很准,“这个价格已经不太重要了,关键是参与在这里面”。
扯远了,总之现在VC对于DeepSeek融资这件事,预期是很高的,多位投资人从C端流量承接、激增的带宽和算力成本、未来继续scale up,以及最重要的,留住人才以保持持续的创新能力等角度,向投中网叙述了DeepSeek融资的必要性。
当然了,还是那句话,钥匙只在梁文锋,以及可以决定DeepSeek能否走向更大叙事可能的人的手中。接下来的,就是时间问题了。但从我个人出发,更乐于看到DeepSeek能否再坚持一段时间,一方面时间越长,期间博弈一定更加精彩;另一方面如某投资人在朋友圈中所说,“DeepSeek若能保持private company to build public good的纯粹,这种优美是稀缺的。”
“无论如何要跪进去一些份额”
DeepSeek在春节前后的出圈,令大模型投资人心情复杂。惊喜在于,中国大模型企业能够这么快赶上世界水平,恐慌则在于,整个AI投资的逻辑可能会发生巨大的变化。
“至少在国内,DeepSeek已经赢了这场战争。它正在进行的一轮融资估值已经达到80亿美元,是行业里估值最高的一家,这都得抢破头或只能定向融。”一位AI投资人告诉我。
DeepSeek此前并未开放融资,初期资金由幻方量化支持。按照梁文峰在访谈中的说法,他也尝试过找资方,但碍于自己专注于研究的想法和VC更多考虑商业化的诉求不相符,于是断了念想。与之形成鲜明对比的是,爆火之后的DeepSeek开始被投资人包围。
锋芒已露,纵然想要善刀而藏也是难事,在前述投资人看来,如今融资也是形势所迫,不得已而为之。“现在DAU飙涨到2000万,流量来得如此迅猛,已经明显承接不住。如果DeepSeek只是开发模型,不做应用,那没问题,但做了应用,现在每一天都要花几百甚至上千万出去,必须考虑服务器、网络资源之类的问题。另外,已经跑通了单点,现在要去scale up,scale up也是要花钱的。”
但这一消息并未得到当事方的承认。面对最近前来问询的投资人,DeepSeek融资负责人给出的说法仍然是,“没有融资打算”。昨晚“阿里计划以100亿美元的估值,投资10亿美元认购DeepSeek10%股权”的消息也被阿里副总裁明确否认,而这不妨碍阿里巴巴美股盘前一度涨超6%。一笔投得出几十亿的国资和大厂,被认为是最有可能入局DeepSeek融资局的候选人。一些有意思的细节是,幻方杭州总部所在的汇金国际大厦,与浙江省金控在同个写字楼不同座,目前已经挤满了记者和投资人,DeepSeek北京办公室所在的融科大厦,又跟百度投资在一座楼上。
一位省级国资的投资人对投中网表示,最近他们机构“从上到下”,都在跟DeepSeek方面接触,无论如何希望“跪一部分份额”进去,但DeepSeek口咬得很死,坚称目前并没有开放融资窗口。
事实上,对AI圈子里的人来说,DeepSeek不算神秘,疫情期间囤了一万张A100的江湖传说流传甚广。我从投资人处了解到的信息是,2023年初,DeepSeek曾经聊过一圈大模型公司和投资机构,也包括小红书的创始人毛文超。不过在今年1月,DeepSeek和小红书达成合作,目前DeepSeek入驻的官方社交媒体,也只有小红书、X、微信公众号。显然,梁文锋对小红书是有些偏爱的。
跟梁文峰的说法一样,聊完以后,梁文峰和VC们发现大家的目标并不一致。“VC都是帮LP管钱,都得赚钱,所以就谈不到一块去。”2023年7月,梁文锋成立杭州深度求索(DeepSeek)人工智能基础技术研究有限公司,专注于通用人工智能与大模型研发。巧的是,字节开始投入AI研发也是在那个时间点。
另外的细节是,2022年左右,量化基金被政策持续打压,幻方管理规模也持续缩减。而梁文锋在创立DeepSeek前除了接触过VC外,因为手握大量的GPU算力集群,再加上梁文锋自己的钱,曾想通过投资入股、找云厂商合作等方式,将手中富裕的算力“用出去”,还为此招了两个人专门做战投,看了大量包括低空等在内的科技项目,但幻方的结论是,“外面能做的,自己也能做”,多数项目“意思不大”,最终“一个也没投”。后来基于梁文锋技术理想主义的情怀,DeepSeek应运而生。
大模型市场的变化瞬息万变,DeepSeek很快将成为搅动市场的鲶鱼。“我去看各种AI项目的时候,基本上都会问对方在用哪些基座,觉得哪些模型比较好,到2024年的时候,大家的普遍反馈已经是通义、豆包和DeepSeek。”一家投资机构的合伙人Eric(化名)告诉我。
DeepSeek在大众层面的普及来源于两个模型。1月13日,DeepSeek推出App版本,使用V3大模型,这是一个全开源MoE(混合专家)模型。DeepSeek报告称其V3模型的训练成本仅为600万美元,只有Llama 3的1%。1月20日,DeepSeek发布开源大模型R1,又以极低训练成本达到与OpenAI最新O1模型相近的性能。一天后,DeepSeek登顶苹果中美地区应用商店免费下载排行榜。
“应该没有人能预想到DeepSeek会这么火。发布V3的时候,业内都注意到了,但因为当时 App没上线,所以还没有引爆C端。当应用发布之后,普通人都觉得产品效果好,DeepSeek便开始出现在街谈巷议之中。自然流量和买来的流量,这时候差异一下就显出来了。”一家机构的合伙人Jared(化名)说。
任何产品的火爆离不开天时地利人和,时点很重要。在Eric看来,当下AI的上升曲线已经变缓,预训练的数据差不多用光了,大语言模型能力不再容易上升,只能转换思路转向以OpenAI的 O1和DeepSeek的 R1为代表的推理模型。“这个时候,是选择继续砸大钱去搏一个上限,还是不追求那5%的进步而是把成本降到原来的1/10?DeepSeek代表的降成本路线恰恰出现在一个合适的时间点上。”
“六小龙”不走差异化之路,将很难再融到钱
“国内大模型训练的综合成本(数据,人工,电力和算力)比美国低,而DeepSeek因为其出色的工程能力,更是把成本控制到极致。在未来两个季度里,DeepSeek会成为行业基准线,降成本是大势所趋。如果为了提高5%的上限,再花10倍的钱,从资本和商业角度考量,这是不值当的。”Jared认为。
大模型过去烧钱凶猛,研发成本降低,首先动摇的是对这些企业的估值逻辑。
Eric认为,DeepSeek之所以在海外引发这么高的恐慌情绪,正是因为那些大公司的估值要重新评价了。“过去大家相信,大模型本质上是资本的竞争,正如我们说2023年5月之前如果没拿到1亿美金,在国内就别搞大模型了。但当大家发现不需要那么多钱,大模型公司的估值恐怕很难撑得住。长期来看,估值是建立在你创造的价值基础上,短期来看取决于大家认为你的壁垒有多高。”
王荣进则认为,DeepSeek出现后会不会对现有大模型公司估值产生影响,现在还不好说,但他们极低的成本对业内还是带来冲击。如果大模型企业能通过其他方式去创新降低训练或推理成本,估值受到影响或许比较有限。“不排除国内的公司通过其他方式去创新达到类似的效果,关于这一点也值得期待。”
Jared的态度比较悲观。他相信,如果“六小龙”不走差异化之路,将很难再融到钱。大厂有资本加持,可以继续战斗,但创业公司如果在单一项目上卷不到第一,基本上没有太大意义。“当然,只要有差异化,并且不烧钱,苟活着也是个出路。”
事实上,“六小龙”已经分化出不同的路径。有的公司仍在烧钱训练大模型,比如我了解到某公司去年收入3个亿左右,但成本却高达20多亿。有的公司已经放弃,比如零一万物已与阿里云成立 “产业大模型联合实验室”,不再追求训练超级大模型,但会继续训练参数适中的更快、更便宜的模型,基于后者打造可以赚钱的应用。
“当预训练结果已经不如开源模型时,每个公司都不应该执着于预训练。”在《晚点》访谈中,李开复如是说。也有的公司投入更多精力在多模态上,比如MiniMax。还有的公司转向扎根垂直行业,比如百川的重点已经落在了做医疗大模型上。Jared认为,最终这些大模型企业估值是否重构还是取决于商业化的成果,DeepSeek如果融资也会面临一样的商业化问题。
关于DeepSeek的共识和分歧
DeepSeek已经被一些人视为“国运”的象征,但能否独占鳌头在投资人眼中仍有分歧。
Jared相信,大厂很难做出DeepSeek那样的创新。原因在于,大厂资源过剩,反而就没有人会想着如何极致地优化成本。同时内部赛马严重,更多是在卷人,而不是卷事情。KPI通常被简化为“实现多少DAU”这一通过买流量就能实现的目标,也会导致大家很难扎扎实实做技术创新。而做对冲基金出身的人对资源和成本看得很重,总是在想着怎么工程化创新降低成本,这跟大厂的基因和技能点也不一样。
但Eric认为,在那些明星创业公司里DeepSeek会长期居于第一位,但还很难说DeepSeek比阿里和字节的大模型厉害,从所采用的技术范式上来看,理论上OpenAI的O1的范式上限要高于DeepSeek 的R1。“到底应该省钱,还是追求高上限,这是一个选择问题。放在国内来讲,大家的能力都很强,只不过侧重点不一样,豆包和通义都做了多模态模型,DeepSeek做得更聚焦,只做语言模型,它最强大的地方还是在于省钱。”
春节期间,轩元资本创始合伙人王荣进一直在找资料研究DeepSeek的底层逻辑。在他看来,DeepSeek在应用、工程、架构等多个方面做了很多创新。至于市场讨论的借鉴方面,他觉得这也没什么,OpenAI的Transformer源于Google,苹果的iOS部分参考了富士施乐,微软的Microsoft的GUI部分参考的是富士施乐的Xerox Alto,大家都是站在巨人的肩膀上更进一步。”
外媒的描述更有意思。有的媒体将OpenAI和DeepSeek之间的不同路径比作17世纪英国内战中“错误但浪漫”的保皇党与“正确但令人反感”的圆颅党之间的冲突。人工智能保皇党不惜一切代价追求AGI,而人工智能圆颅党专注于更实际的目标,尽可能高效地解决特定问题。海外有关大模型融资的最新消息是,Ilya Sutskever 创立的Safe Superintelligenc正以200亿美元估值洽谈融资——仍然是一个昂贵的价格。
弥漫在行业上空的还是一团迷雾。“连着几年,大模型在年初都有让人震撼的新进展,而且往往年初和后面发生的事情脱节,所以现在谁也不能预测年底到底会发生什么。”Jared说。
Eric认为,R1代表的这种后训练模型模式刚刚开始,DeepSeek只是在中间提出了一个分叉,到底会跑成什么样还不知道,但毫无疑问创业的需求会急剧加大。在他看来,DeepSeek更重要的意义在于带来一种全新的价值观。“他们的目标不是说赚多少钱,而是能不能做出有价值的创新,这个价值观值得中国企业尤其是大公司思考。”
正如梁文峰在采访中所说,“以后硬核创新会越来越多。当这个社会让硬核创新的人功成名就,群体性想法就会改变。我们只是还需要一堆事实和一个过程。”过去四十年,房地产和互联网的造富运动都并非由底层创新驱动,而只有当人们看到回报和付出有一定的关系,投机才不会成为中国商业社会最大的价值观。
“2025年,AI应用会迎来爆发之年。”
这是我在去年年底从投资人和FA口中听到的最多的观点,甚至有投资人明确表示:2025年只看AI应用。
春节过后,有了DeepSeek这把火,投资人和企业们对于AI应用的期盼更加强烈了。但兴奋之余,他们眼中也难掩迷茫:知道机会来了,可看不到机会在哪儿?
需要承认的是,面对DeepSeek带来的变革,大部分公司都没来得及在战略层面做调整,但从行动来看,都在紧急围绕DeepSeek开会。也有投资人表示,开工之后接连两天,都在开关于DeepSeek的会,已经做了紧急部署。
提到DeepSeek,很多人的第一印象是高性价比。单就这一点带来的影响,业界也并未达成一致。
TrainiCEO孙邻家认为,“技术过度平权不一定是好事,会失去创新的驱动力。现在看来,2025年是一个从闭源套壳转为开源套壳的年份,造成的结果可能是出现一堆同质化产品,依然找不到盈利的方法。目前,能做Fine-tuning(大模型微调)的公司没有想象中的那么多,能持续做并且有创新的就更少,缺数据和人才。”
当然,他也承认,模型变小和经济性提高,对应用肯定是积极影响,但是在应用侧,技术不是最大的制约,而是对产业的理解。
其实,现在Prompt已经可以满足很多应用的需求了,似乎没有做出什么好产品。如果因为iOS闭源,我们有了安卓系统,也没有出现很多手机品牌。在安卓上长出的软件应用也没有杀死iOS和其应用。Llama的能力也很强大,可以满足多数应用的需求,离我们期待的也差很远。
更多的人还是愿意看到DeepSeek给应用端带来的积极一面,比如有投资人指出,DeepSeek出来之后,做应用的厂商只需要专注在应用本身的前后端交互体验,同时再基于场景做打磨就可以了,这省去了很多基础层面的投入。
合思创始人兼CEO马春荃指出,AI的发展就像电力的发展一样,会催生出非常多的应用的厂商,这是一个基础的能力。DeepSeek的出现把这种基础能力的成本变成白菜价。
他进一步解释称:很多原来舍不得用AI的地方,现在可以去进行探索和创新,因为当下AI在算力上的消耗成本,相比于客户价值或者输出结果相比,已经是九牛一毛了。比如在小票识别领域,我们过去只敢小小批量应用,如今几乎变成了零成本,我们就可以“肆无忌惮”地应用了。
需要指出的是,究竟是C端应用还是B端应用更能让VC们青睐时,我从投资人那里得到了统一的答案——那就是to B应用更具投资性价比。
就连非投资行业的企业内部人员,也认为今年DeepSeek相关项目在投资市场会比较火爆,因为在他们看来,完全开源的DeepSeek,会加速很多细分场景模型的诞生。
首先,B端用户是最具付费能力的,而且所有B端应用都还是沿着原来企业软件的思路,也就是说每个领域都将有自己的大模型。这是因为不同领域间的数据库和知识库存在差异。
但当下的问题是,应用厂商自己不做模型,看不到需求和效果,更重要的,应用创业不同于大模型,投资人们不会给企业很多的时间和资金来试错。
同样,现在还无法预测哪些场景会爆发,只能说这些细分应用的出现正在加速。
其次,成本低了,之前只能在实验室里进行的,可以应用到每个角落。换句话说,当前很多没有被AI覆盖的场景,会有更多的厂商用非常低成本的AI去进行改造。
在国科嘉和高级合伙人陆佳清看来,如果有特色应用能够出现,那可以很快起量。尤其是有应用场景的上市公司,之前打造一个行业应用可能需要几百台服务器,现在只需要十台,成本骤降。
第三,AI应用肯定会越来越多,而且会占据市场更多的眼球,因为眼下应用还没有实现真正大规模的商业化。
对于为何不会选择C端产品,这是因为投资人们有这样一个共识——C端应用迟早是大厂们的天下,这在之前是有迹可循的。
除了应用层外,在更底端的硬件层也在发生巨变。比如为了承接住DeepSeek带来的流量洪流,此前各地建造的闲置计算中心也被盘活了,相关从业者表示,这些计算中心当下已经开始产生收益。而DeepSeek本身也因为此前浙江省建造的数据中心获益。有接近DeepSeek的投资人表示,自从节前爆火后,浙江将很多空余的数据中心低价给了DeepSeek。
据某云服务厂商的体感来看,上线了DeepSeek R1版本之后,用户的注册量有一个非常明显的提升,一两天内注册量增长了一个数量级,大约是10~20倍的水平。而这些注册用户主要分为两类,一类是个人开发者,他们会去验证自己的一些创新思路,另一类是企业的开发人员,这类用户则更多是想通过AI与业务结合做创新应用。
在这个领域,业界也存在着一些非共识。
“DeepSeek的出现短期内可以颠覆对算力的逻辑,但长期来看,AI和应用的蓬勃发展,必然带来总体需求的增长,算力还是有价值的。当然,对于国产GPU来讲还是偏利空的,因为低制程的芯片可以用了,市场就不需要存在那么多家了,未来能够上市的也将只有一两家。对于其他国产大模型公司也是偏利空的。”陆佳清如此判断。
另一位芯片投资人表示:“这对芯片行业算是绝对利好,核心在于可以用算力比较低的芯片做出很好的训练效果,这意味着很多芯片厂商能够获得相关订单。同时,越低的训练成本越有助于人工智能在应用领域的渗透。”
作为专注于智能汽车产业链的投资机构,王荣进也会关注DeepSeek是否会对智驾格局产生影响,会不会引起其他公司快速迭代,冲出一条新的路出来,从而导致相关标的的估值的重估。
关于DeepSeek带来的变革和机会,我相信远远不止上述讨论。更重要的是,DeepSeek的崛起不仅是一次技术迭代,更带动了国内目前最稀缺的东西——信心。我不由想起了《人类简史》关于“讲故事”和“相信故事”的观点,人类社会几千年来,就是从一次次旧叙事崩塌和新叙事构建螺旋向上发展的,乐观点看,也许DeepSeek就是中国经济在各阶层重新凝聚信心的转折点。
但VC们显然是失意的,因为包括“大模型六小龙”在内,他们支持的大模型创业项目,自始没有一个达到DeepSeek这样的全球热度,几乎与DeepSeek同时发布的,Kimi全新强化学习模型k1.5,虽然是全球继OpenAI之后首个多模态类o1模型,在诸多层面能力接近o1甚至是超越,但没有溅起多大水花,同样淹没在了DeepSeek狂热的舆论中。
一切或许要从DeepSeek创始人梁文锋登上新闻联播,成为总理的座上宾开始。他在这次会上说了什么,可能不是最重要的,舆论关心的是,为什么一个留着长刘海的80后,会突然得到高层的关注?再看看朋友圈,哦?做量化基金的。更好奇了。
作为长期跟踪AI产业的一级市场观察者,舆论发酵速度低于我的预期,程度却远超我的想象。1月20日,周日晚间梁文锋登上新闻联播,发酵了足足一周,颠覆全世界的“DeepSeek R1 550万美元训练成本”,只让周五英伟达的股价下跌3.12%,转过头来的下周一,却让A股创业板收获了根-2.73%的大阴线。当时我的评价是,DeepSeek打了英伟达们一个嘴巴,转头却更狠地踹了A股一脚。
打脸来得很快,1月27日当天,英伟达低开低走下跌接近17%,全世界的算力一片哀嚎,高喊“狼来了”,DeepSeek就是那条狼。当然了,我个人的荣辱不算什么,打脸也是经常的事。但中国VC却几乎成了AI算力之外,最大的“受害者”,舆论不吝给予梁文锋和他的理想主义最大程度的赞扬,同时也施加给中国VC极致的羞辱和讨伐,比如小红书有篇帖子,标题为“DeepSeek再次证明,中国VC就是个笑话”。更不幸的是,点赞还过千了。
但我还是要旗帜鲜明地说一句,道德层面的讨伐很低级,这个阶段讨论“VC为什么没投到DeepSeek”,除了情绪上的宣泄,也没太大意义,没投到就是没投到,任何客观或主观的原因都像是辩解。进一步的反思虽然非常有必要,但也不是立刻,纵观国内一级市场,从LP到GP,再到募投管退的各个环节,大量“顽疾”很难短时间根除,很多也根本不是VC/PE们能决定的。
我认为亟待讨论的是现在和未来,至少包括三个问题:现在DeepSeek能不能投到以及估值多少?DeepSeek对此前已经投资的各类AI项目有什么影响?DeepSeek引发的AI产业变革,对VC下一步在AI的资本部署,有哪些积极指引?
DeepSeek融资?梁文锋“打太极”
关于DeepSeek估值多少以及能不能投到,这两天已经有不少消息流出了。就在昨天晚间,有消息称阿里将以100亿美元估值,投资10亿美元占股10%。对此阿里副总裁颜乔很快通过朋友圈辟谣称,“外界流传阿里投资 DeepSeek的信息是假消息”。不过,一位可能接近此次交易的投资人向投中网表示,“现在比较敏感,他们也不方便说,要再等等”,因此这笔被否认的交易,不排除还可能存在一些变数。
而在此之前,就有某AI投资人对投中网表示,DeepSeek正与投资人接触,他透露的估值是80亿美元,与前述“阿里给出100亿美元估值”的“假消息”有差距,而不管是80亿美元,还是100亿美元,DeepSeek的估值目前已远超“大模型六小龙”中最高的MiniMax——40亿美元。
据投中网了解,这几天有不少投资人,都直接或间接找到梁文锋确认是否正式启动融资,估值也大致围绕上述范围,但梁文锋并未给出承认或否认的正面回应,而是以“打太极”为主。也有不少投资人找到DeepSeek负责IR的相关人士询问是否正在进行融资,截至昨天都得到了否认的结果。
另外还有一层信息是,DeepSeek内部也有人“劝过梁文锋很多次,DeepSeek要不要融资”。这至少意味着两点,一是对于是否进行融资,DeepSeek内部意见也许并不统一,但决定权一定在梁文锋,只有他握着开启宝藏的钥匙;二是梁文锋近期很可能与一些投资人或产业资本有过接触,但维持在一个极小的圈子。
比如多次对投资大模型嗤之以鼻的朱总,就肯定不在这个圈子中,即使DeepSeek让他转变了对大模型的态度,表示“我肯定会投啊”,但投中网向他询问是否听说DeepSeek融资的消息时,得到的回复是“没有”。但朱总毕竟是朱总,对VC应不应该参与DeepSeek融资的重点拿捏得很准,“这个价格已经不太重要了,关键是参与在这里面”。
扯远了,总之现在VC对于DeepSeek融资这件事,预期是很高的,多位投资人从C端流量承接、激增的带宽和算力成本、未来继续scale up,以及最重要的,留住人才以保持持续的创新能力等角度,向投中网叙述了DeepSeek融资的必要性。
当然了,还是那句话,钥匙只在梁文锋,以及可以决定DeepSeek能否走向更大叙事可能的人的手中。接下来的,就是时间问题了。但从我个人出发,更乐于看到DeepSeek能否再坚持一段时间,一方面时间越长,期间博弈一定更加精彩;另一方面如某投资人在朋友圈中所说,“DeepSeek若能保持private company to build public good的纯粹,这种优美是稀缺的。”
“无论如何要跪进去一些份额”
DeepSeek在春节前后的出圈,令大模型投资人心情复杂。惊喜在于,中国大模型企业能够这么快赶上世界水平,恐慌则在于,整个AI投资的逻辑可能会发生巨大的变化。
“至少在国内,DeepSeek已经赢了这场战争。它正在进行的一轮融资估值已经达到80亿美元,是行业里估值最高的一家,这都得抢破头或只能定向融。”一位AI投资人告诉我。
DeepSeek此前并未开放融资,初期资金由幻方量化支持。按照梁文峰在访谈中的说法,他也尝试过找资方,但碍于自己专注于研究的想法和VC更多考虑商业化的诉求不相符,于是断了念想。与之形成鲜明对比的是,爆火之后的DeepSeek开始被投资人包围。
锋芒已露,纵然想要善刀而藏也是难事,在前述投资人看来,如今融资也是形势所迫,不得已而为之。“现在DAU飙涨到2000万,流量来得如此迅猛,已经明显承接不住。如果DeepSeek只是开发模型,不做应用,那没问题,但做了应用,现在每一天都要花几百甚至上千万出去,必须考虑服务器、网络资源之类的问题。另外,已经跑通了单点,现在要去scale up,scale up也是要花钱的。”
但这一消息并未得到当事方的承认。面对最近前来问询的投资人,DeepSeek融资负责人给出的说法仍然是,“没有融资打算”。昨晚“阿里计划以100亿美元的估值,投资10亿美元认购DeepSeek10%股权”的消息也被阿里副总裁明确否认,而这不妨碍阿里巴巴美股盘前一度涨超6%。一笔投得出几十亿的国资和大厂,被认为是最有可能入局DeepSeek融资局的候选人。一些有意思的细节是,幻方杭州总部所在的汇金国际大厦,与浙江省金控在同个写字楼不同座,目前已经挤满了记者和投资人,DeepSeek北京办公室所在的融科大厦,又跟百度投资在一座楼上。
一位省级国资的投资人对投中网表示,最近他们机构“从上到下”,都在跟DeepSeek方面接触,无论如何希望“跪一部分份额”进去,但DeepSeek口咬得很死,坚称目前并没有开放融资窗口。
事实上,对AI圈子里的人来说,DeepSeek不算神秘,疫情期间囤了一万张A100的江湖传说流传甚广。我从投资人处了解到的信息是,2023年初,DeepSeek曾经聊过一圈大模型公司和投资机构,也包括小红书的创始人毛文超。不过在今年1月,DeepSeek和小红书达成合作,目前DeepSeek入驻的官方社交媒体,也只有小红书、X、微信公众号。显然,梁文锋对小红书是有些偏爱的。
跟梁文峰的说法一样,聊完以后,梁文峰和VC们发现大家的目标并不一致。“VC都是帮LP管钱,都得赚钱,所以就谈不到一块去。”2023年7月,梁文锋成立杭州深度求索(DeepSeek)人工智能基础技术研究有限公司,专注于通用人工智能与大模型研发。巧的是,字节开始投入AI研发也是在那个时间点。
另外的细节是,2022年左右,量化基金被政策持续打压,幻方管理规模也持续缩减。而梁文锋在创立DeepSeek前除了接触过VC外,因为手握大量的GPU算力集群,再加上梁文锋自己的钱,曾想通过投资入股、找云厂商合作等方式,将手中富裕的算力“用出去”,还为此招了两个人专门做战投,看了大量包括低空等在内的科技项目,但幻方的结论是,“外面能做的,自己也能做”,多数项目“意思不大”,最终“一个也没投”。后来基于梁文锋技术理想主义的情怀,DeepSeek应运而生。
大模型市场的变化瞬息万变,DeepSeek很快将成为搅动市场的鲶鱼。“我去看各种AI项目的时候,基本上都会问对方在用哪些基座,觉得哪些模型比较好,到2024年的时候,大家的普遍反馈已经是通义、豆包和DeepSeek。”一家投资机构的合伙人Eric(化名)告诉我。
DeepSeek在大众层面的普及来源于两个模型。1月13日,DeepSeek推出App版本,使用V3大模型,这是一个全开源MoE(混合专家)模型。DeepSeek报告称其V3模型的训练成本仅为600万美元,只有Llama 3的1%。1月20日,DeepSeek发布开源大模型R1,又以极低训练成本达到与OpenAI最新O1模型相近的性能。一天后,DeepSeek登顶苹果中美地区应用商店免费下载排行榜。
“应该没有人能预想到DeepSeek会这么火。发布V3的时候,业内都注意到了,但因为当时 App没上线,所以还没有引爆C端。当应用发布之后,普通人都觉得产品效果好,DeepSeek便开始出现在街谈巷议之中。自然流量和买来的流量,这时候差异一下就显出来了。”一家机构的合伙人Jared(化名)说。
任何产品的火爆离不开天时地利人和,时点很重要。在Eric看来,当下AI的上升曲线已经变缓,预训练的数据差不多用光了,大语言模型能力不再容易上升,只能转换思路转向以OpenAI的 O1和DeepSeek的 R1为代表的推理模型。“这个时候,是选择继续砸大钱去搏一个上限,还是不追求那5%的进步而是把成本降到原来的1/10?DeepSeek代表的降成本路线恰恰出现在一个合适的时间点上。”
“六小龙”不走差异化之路,将很难再融到钱
“国内大模型训练的综合成本(数据,人工,电力和算力)比美国低,而DeepSeek因为其出色的工程能力,更是把成本控制到极致。在未来两个季度里,DeepSeek会成为行业基准线,降成本是大势所趋。如果为了提高5%的上限,再花10倍的钱,从资本和商业角度考量,这是不值当的。”Jared认为。
大模型过去烧钱凶猛,研发成本降低,首先动摇的是对这些企业的估值逻辑。
Eric认为,DeepSeek之所以在海外引发这么高的恐慌情绪,正是因为那些大公司的估值要重新评价了。“过去大家相信,大模型本质上是资本的竞争,正如我们说2023年5月之前如果没拿到1亿美金,在国内就别搞大模型了。但当大家发现不需要那么多钱,大模型公司的估值恐怕很难撑得住。长期来看,估值是建立在你创造的价值基础上,短期来看取决于大家认为你的壁垒有多高。”
王荣进则认为,DeepSeek出现后会不会对现有大模型公司估值产生影响,现在还不好说,但他们极低的成本对业内还是带来冲击。如果大模型企业能通过其他方式去创新降低训练或推理成本,估值受到影响或许比较有限。“不排除国内的公司通过其他方式去创新达到类似的效果,关于这一点也值得期待。”
Jared的态度比较悲观。他相信,如果“六小龙”不走差异化之路,将很难再融到钱。大厂有资本加持,可以继续战斗,但创业公司如果在单一项目上卷不到第一,基本上没有太大意义。“当然,只要有差异化,并且不烧钱,苟活着也是个出路。”
事实上,“六小龙”已经分化出不同的路径。有的公司仍在烧钱训练大模型,比如我了解到某公司去年收入3个亿左右,但成本却高达20多亿。有的公司已经放弃,比如零一万物已与阿里云成立 “产业大模型联合实验室”,不再追求训练超级大模型,但会继续训练参数适中的更快、更便宜的模型,基于后者打造可以赚钱的应用。
“当预训练结果已经不如开源模型时,每个公司都不应该执着于预训练。”在《晚点》访谈中,李开复如是说。也有的公司投入更多精力在多模态上,比如MiniMax。还有的公司转向扎根垂直行业,比如百川的重点已经落在了做医疗大模型上。Jared认为,最终这些大模型企业估值是否重构还是取决于商业化的成果,DeepSeek如果融资也会面临一样的商业化问题。
关于DeepSeek的共识和分歧
DeepSeek已经被一些人视为“国运”的象征,但能否独占鳌头在投资人眼中仍有分歧。
Jared相信,大厂很难做出DeepSeek那样的创新。原因在于,大厂资源过剩,反而就没有人会想着如何极致地优化成本。同时内部赛马严重,更多是在卷人,而不是卷事情。KPI通常被简化为“实现多少DAU”这一通过买流量就能实现的目标,也会导致大家很难扎扎实实做技术创新。而做对冲基金出身的人对资源和成本看得很重,总是在想着怎么工程化创新降低成本,这跟大厂的基因和技能点也不一样。
但Eric认为,在那些明星创业公司里DeepSeek会长期居于第一位,但还很难说DeepSeek比阿里和字节的大模型厉害,从所采用的技术范式上来看,理论上OpenAI的O1的范式上限要高于DeepSeek 的R1。“到底应该省钱,还是追求高上限,这是一个选择问题。放在国内来讲,大家的能力都很强,只不过侧重点不一样,豆包和通义都做了多模态模型,DeepSeek做得更聚焦,只做语言模型,它最强大的地方还是在于省钱。”
春节期间,轩元资本创始合伙人王荣进一直在找资料研究DeepSeek的底层逻辑。在他看来,DeepSeek在应用、工程、架构等多个方面做了很多创新。至于市场讨论的借鉴方面,他觉得这也没什么,OpenAI的Transformer源于Google,苹果的iOS部分参考了富士施乐,微软的Microsoft的GUI部分参考的是富士施乐的Xerox Alto,大家都是站在巨人的肩膀上更进一步。”
外媒的描述更有意思。有的媒体将OpenAI和DeepSeek之间的不同路径比作17世纪英国内战中“错误但浪漫”的保皇党与“正确但令人反感”的圆颅党之间的冲突。人工智能保皇党不惜一切代价追求AGI,而人工智能圆颅党专注于更实际的目标,尽可能高效地解决特定问题。海外有关大模型融资的最新消息是,Ilya Sutskever 创立的Safe Superintelligenc正以200亿美元估值洽谈融资——仍然是一个昂贵的价格。
弥漫在行业上空的还是一团迷雾。“连着几年,大模型在年初都有让人震撼的新进展,而且往往年初和后面发生的事情脱节,所以现在谁也不能预测年底到底会发生什么。”Jared说。
Eric认为,R1代表的这种后训练模型模式刚刚开始,DeepSeek只是在中间提出了一个分叉,到底会跑成什么样还不知道,但毫无疑问创业的需求会急剧加大。在他看来,DeepSeek更重要的意义在于带来一种全新的价值观。“他们的目标不是说赚多少钱,而是能不能做出有价值的创新,这个价值观值得中国企业尤其是大公司思考。”
正如梁文峰在采访中所说,“以后硬核创新会越来越多。当这个社会让硬核创新的人功成名就,群体性想法就会改变。我们只是还需要一堆事实和一个过程。”过去四十年,房地产和互联网的造富运动都并非由底层创新驱动,而只有当人们看到回报和付出有一定的关系,投机才不会成为中国商业社会最大的价值观。
“2025年,AI应用会迎来爆发之年。”
这是我在去年年底从投资人和FA口中听到的最多的观点,甚至有投资人明确表示:2025年只看AI应用。
春节过后,有了DeepSeek这把火,投资人和企业们对于AI应用的期盼更加强烈了。但兴奋之余,他们眼中也难掩迷茫:知道机会来了,可看不到机会在哪儿?
需要承认的是,面对DeepSeek带来的变革,大部分公司都没来得及在战略层面做调整,但从行动来看,都在紧急围绕DeepSeek开会。也有投资人表示,开工之后接连两天,都在开关于DeepSeek的会,已经做了紧急部署。
提到DeepSeek,很多人的第一印象是高性价比。单就这一点带来的影响,业界也并未达成一致。
TrainiCEO孙邻家认为,“技术过度平权不一定是好事,会失去创新的驱动力。现在看来,2025年是一个从闭源套壳转为开源套壳的年份,造成的结果可能是出现一堆同质化产品,依然找不到盈利的方法。目前,能做Fine-tuning(大模型微调)的公司没有想象中的那么多,能持续做并且有创新的就更少,缺数据和人才。”
当然,他也承认,模型变小和经济性提高,对应用肯定是积极影响,但是在应用侧,技术不是最大的制约,而是对产业的理解。
其实,现在Prompt已经可以满足很多应用的需求了,似乎没有做出什么好产品。如果因为iOS闭源,我们有了安卓系统,也没有出现很多手机品牌。在安卓上长出的软件应用也没有杀死iOS和其应用。Llama的能力也很强大,可以满足多数应用的需求,离我们期待的也差很远。
更多的人还是愿意看到DeepSeek给应用端带来的积极一面,比如有投资人指出,DeepSeek出来之后,做应用的厂商只需要专注在应用本身的前后端交互体验,同时再基于场景做打磨就可以了,这省去了很多基础层面的投入。
合思创始人兼CEO马春荃指出,AI的发展就像电力的发展一样,会催生出非常多的应用的厂商,这是一个基础的能力。DeepSeek的出现把这种基础能力的成本变成白菜价。
他进一步解释称:很多原来舍不得用AI的地方,现在可以去进行探索和创新,因为当下AI在算力上的消耗成本,相比于客户价值或者输出结果相比,已经是九牛一毛了。比如在小票识别领域,我们过去只敢小小批量应用,如今几乎变成了零成本,我们就可以“肆无忌惮”地应用了。
需要指出的是,究竟是C端应用还是B端应用更能让VC们青睐时,我从投资人那里得到了统一的答案——那就是to B应用更具投资性价比。
就连非投资行业的企业内部人员,也认为今年DeepSeek相关项目在投资市场会比较火爆,因为在他们看来,完全开源的DeepSeek,会加速很多细分场景模型的诞生。
首先,B端用户是最具付费能力的,而且所有B端应用都还是沿着原来企业软件的思路,也就是说每个领域都将有自己的大模型。这是因为不同领域间的数据库和知识库存在差异。
但当下的问题是,应用厂商自己不做模型,看不到需求和效果,更重要的,应用创业不同于大模型,投资人们不会给企业很多的时间和资金来试错。
同样,现在还无法预测哪些场景会爆发,只能说这些细分应用的出现正在加速。
其次,成本低了,之前只能在实验室里进行的,可以应用到每个角落。换句话说,当前很多没有被AI覆盖的场景,会有更多的厂商用非常低成本的AI去进行改造。
在国科嘉和高级合伙人陆佳清看来,如果有特色应用能够出现,那可以很快起量。尤其是有应用场景的上市公司,之前打造一个行业应用可能需要几百台服务器,现在只需要十台,成本骤降。
第三,AI应用肯定会越来越多,而且会占据市场更多的眼球,因为眼下应用还没有实现真正大规模的商业化。
对于为何不会选择C端产品,这是因为投资人们有这样一个共识——C端应用迟早是大厂们的天下,这在之前是有迹可循的。
除了应用层外,在更底端的硬件层也在发生巨变。比如为了承接住DeepSeek带来的流量洪流,此前各地建造的闲置计算中心也被盘活了,相关从业者表示,这些计算中心当下已经开始产生收益。而DeepSeek本身也因为此前浙江省建造的数据中心获益。有接近DeepSeek的投资人表示,自从节前爆火后,浙江将很多空余的数据中心低价给了DeepSeek。
据某云服务厂商的体感来看,上线了DeepSeek R1版本之后,用户的注册量有一个非常明显的提升,一两天内注册量增长了一个数量级,大约是10~20倍的水平。而这些注册用户主要分为两类,一类是个人开发者,他们会去验证自己的一些创新思路,另一类是企业的开发人员,这类用户则更多是想通过AI与业务结合做创新应用。
在这个领域,业界也存在着一些非共识。
“DeepSeek的出现短期内可以颠覆对算力的逻辑,但长期来看,AI和应用的蓬勃发展,必然带来总体需求的增长,算力还是有价值的。当然,对于国产GPU来讲还是偏利空的,因为低制程的芯片可以用了,市场就不需要存在那么多家了,未来能够上市的也将只有一两家。对于其他国产大模型公司也是偏利空的。”陆佳清如此判断。
另一位芯片投资人表示:“这对芯片行业算是绝对利好,核心在于可以用算力比较低的芯片做出很好的训练效果,这意味着很多芯片厂商能够获得相关订单。同时,越低的训练成本越有助于人工智能在应用领域的渗透。”
作为专注于智能汽车产业链的投资机构,王荣进也会关注DeepSeek是否会对智驾格局产生影响,会不会引起其他公司快速迭代,冲出一条新的路出来,从而导致相关标的的估值的重估。
关于DeepSeek带来的变革和机会,我相信远远不止上述讨论。更重要的是,DeepSeek的崛起不仅是一次技术迭代,更带动了国内目前最稀缺的东西——信心。我不由想起了《人类简史》关于“讲故事”和“相信故事”的观点,人类社会几千年来,就是从一次次旧叙事崩塌和新叙事构建螺旋向上发展的,乐观点看,也许DeepSeek就是中国经济在各阶层重新凝聚信心的转折点。
Advertisements
相关新闻
- 应届博士无缘DeepSeek:名校是基础,筛选的都是天才(图)
- 美媒:DeepSeek跌落神坛?安全性遭质疑,多国禁用 (图)
- 媒体:DeepSeek冲击下,留给OpenAI的时间不多了(组图)
- DeepSeek淘金热:日入百万,20天过亿,谁在被割(组图)
- 澳洲大选将至 DeepSeek:艾博年胜选最符合中国利益(图)
- Deepseek爆火 百度失落 留给它的时间不多了(组图)
- DeepSeek成“中国的斯普特尼克时刻”?不是啥好词(图)
- 45天优惠价格体验期已结束 DeepSeek宣布涨价(图)
- 中国吃掉世界?DeepSeek引爆的冲击波 才刚开始(组图)
- 公司裁员95%!首批DeepSeek“受害者”出现了(组图)