2025年02月05日菁英论坛

【菁英论坛】专家揭秘DeepSeek 科技战还是宣传战?

【新唐人北京时间2025年02月05日讯】出大事儿了!过去一年备受华尔街投资者宠爱的英伟达,最近突然一天之内暴跌一成六,市值损失了超过6000亿美元。原因是因为中国一个名不见经传的小公司,推出了一款叫深度求索DeepSeek的AI模型工具,自吹这个功能非常厉害,而且花的成本又非常低。
大家知道,英伟达之所以受到追捧,是因为它开发的高端AI芯片。投资者现在突然发现,不用你英伟达这种先进的AI芯片,有人同样已经做出了先进的AI模型,所以英伟达的股票就被抛售了。但真实情况真的是如此吗?DeepSeek到底在中国大陆、那个深不见底的黑洞当中,探索出了什么样的绝招呢?还是中共搞的宣传战?

专家:DeepSeek遭业界争议 并不厉害

独立电视制片人李军在新唐人《菁英论坛》节目中表示,DeepSeek造成了很大的风波,它大概是在2024年圣诞节前后抛出来的。当时网上到处都在传,说中国在AI技术上又一次弯道超车了,一下子遥遥领先了。
DeepSeek是杭州深度求索人工智能基础技术研究有限公司的产品。深度求索公司于2023年7月,由中国量化资管巨头幻方量化创立。创始人和首席执行官,是现年40岁的梁文锋。
李军说,这个公司花了500万美元,就训练出了可以堪比Chat GPT、OpenAI一样的人工智能。而且消息发布的当天,就上了中共央视新闻。党媒要宣传它,肯定要通过中宣部同意的,而且几乎所有的媒体都在报,说DeepSeek开发的模型,在多项测试中表现都优于OpenAI,而且训练成本只有美国的十分之一、百分之一。它的收费以后可能也就是OpenAI的1%。说DeepSeek的最新突破,已经动摇了美国科技行业的无敌地位。
但不久,国内外的学者就在思考一个问题了。这家据说只有4个人交社保的公司,凭什么能做到这一点?有一家美国AI企业的CEO说,他知道DeepSeek至少用了5万块英伟达H100芯片,而且是用4纳米的工艺制造的最先进的芯片。CEO质疑,美国对中国全面芯片制裁,这5万块4纳米的芯片是哪来的?
当然这里面可能最关心此事的应该是微软了,因为它是OpenAI的主要投资人,还有一些高科技公司,大家发现的问题越来越多。金融时报报导说,微软安全研究人员发现,DeepSeek有关联的个人,使用OpenAI应用程式设计发展介面API,窃取了大量资料。
李军说,据媒体报导,川普总统的人工智能主管萨克斯表示,有大量证据表明,DeepSeek依靠蒸馏OpenAI 模型的资料来开发自家技术。路透社消息称,Deepseek信息准确性只有17%,远低于西方流行的人工智能软件水准。总之,Deep seek既不是原创,也不先进,但是赢在宣传的能力上。
台湾人工智能实验室创办人杜奕瑾在《菁英论坛》表示,我想DeepSeek其实有两阶段的论文。第一阶段是DeepSeek V3,它是自己训练的基础模型。这个基础模型里面有提到它用混合专家的模型,以及有一个叫多层注意力机制的这种方式,让基础模型的训练可以降到比较低阶的GPU,278.8万个小时就可以训练出来。
如果说这是真实的话,的确它这个基础模型的训练相对来讲是低的。但是它为什么使用知识蒸馏,去提取OpenAI的资料呢?就是说,当我们在做基础模型训练的时候,原本的资料整理是非常重要的。但你不是自己整理的,而很多是用知识蒸馏的方式。知识蒸馏的方式,就好比说有一个不是那么厉害的模型,要回答类似问题的时候,你会拿一个非常昂贵的基础模型,去教导一个小的模型,获得更好的性能。
所以,从OpenAI所得到的信息,看起来就是OpenAI它过去是有提供知识蒸馏的方法,这个知识蒸馏的方法是收费的。但原本是让别人去知识蒸馏,变成它的比如说o1-mini的小模型。但是,看起来deepseep把这个知识蒸馏的内容拿出来之后,训练成为它自己的模型,而且甚至在开源的原始码里面也有这一段原始码出来。所以,这就是比较有争议的地方。
也就是说,现在在讲训练大模型,最复杂的也最昂贵的就是在于基础模型。但是这个资料的准备到模型的训练,你都是直接利用大模型训练结果,再去做自己的模型的训练,那其实并不代表你的东西是省成本的,而是你把别人的模型的结果,再来做一个知识蒸馏之后,自己再做训练,这当然是会节省。
另外一个,就是DeepSeek发布的模型推理能力。过去大型语言模型是很快去回答,比较没有推理的能力。当我们问大型语言模型一个问题,GPT4跟 o1的差别是,o1会经过一个推理的过程之后再告诉你答案,而并不是象GPT4直接回答你。用经过推理的结果再去回答的这个成果,是会比没有推理过的来的好,相对来讲它所需要的时间和成本也会比较高。
所以,DeepSeek这次有一个叫R1的模型发布的部分,我看从DeepSeek的发布到OpenAI的回应,DeepSeek学习到了o1怎么去做模型的推理能力,所以它是可以用相对比较小的资源,做到模型的训练。
杜奕瑾说,我们刚才讲到这个混合专家模型或是模型蒸馏,是过去我们人工智能业界广泛都有在使用的。现在很多人认为, DeepSeek做的事情,就是mini现在这个OpenAI在做o1的这种方法,只是过去OpenAI没有把这个论文发表出来。
所以这也就是为什么可以看到,市场上有这样的极端,就是很多人说这个成果是很好的,可以逼近到OpenAI大模型的成果。但你是用了很小的算力,其实你看DeepSeek它的知识提取里面,用到openAI的知识去做模型的蒸馏,你就可以知道它的这个成果,是基于很多的、已经既有的成果再去堆叠起来的。那你这样做,说你花了很少的资源,其实让有些真正在做模型训练的就会觉得说,这个好像没有什么厉害的。
杜奕瑾表示,关于仅投资500万美元,刚刚我们讲到,有几个很重要的投资。第一个就是能力成本的投资,这个是算力的投资;还有资料收集和整理的投资。以这三个角度来讲,我相信DeepSeek讲只花500万美元,是没有把能力资源算进去。又因为它是直接把OpenAI的内容,知识蒸馏提取出来,所以相对来讲,资料整理的投资也是比较少的。
我看的话,因为DeepSeekV3并没有提到原本的开源,原本它的资料整理的内容,也让我觉得,它在讲说用了几百万美元,它是真的把大量的3个兆的资料,去做基础模型训练,还是说它是拿别人知识提取的内容,再去做促进训练的成本,它并没有把它公开,并没有把它讲得非常的清楚。
所以,这就会让真正在做模型基础训练的会觉得,这个500万美元相对来讲,你如果不把我们讲的成本算进去,其实也没什么厉害。因为在这个市场上,已经有非常多的在做这种知识蒸馏的小模型。

DeepSeek靠中共宣传力量推上去

杜奕瑾在《菁英论坛》表示,这一次DeepSeek的发布,跟过去传统上我们在做这种资料的技术演进的发布,有很大的不一样。比如说你可以比较,现在有非常多的AI小新创,不管是OpenAI或者是新创,在做这种新的模型发布或者是演进。其实人工智能相关模型的进步,是不断地堆叠累积上去的。
杜奕瑾说,Deep Seek这个发布,我们团队也有注意到,中共官媒有大力宣传。我们观察微博相关的协同团体,也是同时在发动,再到短影音的部分,可以看到在脸书、YouTube上面开始有很多大量的这种帐号,有点像僵尸帐号。它实际上没有什么朋友关注,但它就是不断地发大量的信息,类似Deep Seek横空出世、英伟达以后没有前景了等等。而短影音从声音到影像,都是用AI合成的。
也就是说,它是有一波从官媒带领到网路平台的炒作。它选的时间点也蛮有趣的,在农历新年的小年夜,在美国市场开盘前的盘前交易去炒作。说英伟达的股票跌了百分之十几,透过这个宣传造成股票前的市场跌了,之后再去放大英伟达的股票跌百分之十几,那是盘前交易的下跌。但因为这个消息被宣传得太大了。所以,也就造成后面交易市场股票的下跌。
杜奕瑾说,所以,它并不是象一般传统科技公司,我们过去在发表新的技术之后,大家就来试用,但Deep Seek是完全不同规格的待遇跟操作。那就可以知道,这个Deep Seek信息,其实在后面是有国家级推手给推上去的。

中国不缺技术和人才 缺乏系统和环境

资深媒体人郭君在《菁英论坛》表示,过去20年,中国的科技创新确实发展很快,美国已经感到前所未有的危机。美国菁英和中国菁英们探讨的问题,现在都涉及到这种技术上的激烈竞争。但在我看来,所有的这些竞争,都不是一个技术、两个技术的问题,而是一套体制,一个完整的生态环境、生态系统。我认为中国能够在这些竞争中胜出,因为一两个技术突破不是决定性的因素。
郭君说,中国和苏联60年代的时候,都在半导体的科技上有突破,当时都很先进,但到了80年代全面落后了。原因不在于技术和人才,而在于缺乏这个系统和环境。
过去这些年,中国有一些技术、新公司,这些都是过去20年,美国和中国全面合作的结果。很多中国的技术或者是中国的高科技公司,都是发端于美国的,而且是凭藉美国的这个生态系统长出来的。
通俗地说,是矽谷加华尔街模式。矽谷提供技术创新、华尔街提供资金。但实际上,华尔街不仅仅提供资金,而且提供市场营销、工程管理、财务管理,还有吸引更多投资者的策略等等一系列的服务,他不是一个射后不理的机制。
一个创新公司,背后有一堆专家帮助它的管理层,这才是华尔街公司的作用。这些在中国,并不是非常发达,因为这需要一大批职业经理人,而且是游离在系统之外的职业经理人,他能够独立。中国的这批人,现在大量都在离开中国。
郭君说,现在,中美之间正在发生的是全面脱钩,资金脱钩、技术脱钩只是一个层面,而整个培育新科技的生态脱钩,可能才是最重要的。缺了这个生态系统,中国可能会有超越性的新技术,然后出现一些新公司,但它很难继续生长。过去那个环境,长出了阿里巴巴、腾讯、华为公司的生态环境,现在已经全部都改变了。
郭君表示,我们只要看一个问题,美国大学毕业生,最希望去高科技公司,甚至是新创的公司工作。但中国大学毕业的年轻人,现在最希望去当公务员、去当官。这是两种体制,最后会有不同的结果,以前美国和苏联的竞争,已经给出了这个答案。
新唐人、大纪元推出的新档电视节目《菁英论坛》,是立足于华人世界的高端电视论坛,该节目将汇集全球各界精英,聚焦热点议题,剖析天下大势,为观众提供有关社会时事和历史真相的深度观察。
本期《菁英论坛》全部内容,敬请线上收看。
《菁英论坛》制作组
转载和引用《菁英论坛》文章 ,请保持原文内容,并标明出处。
(责任编辑:刘明湘)

推薦視頻