🐱 算神的小窝 🤓

DeepSeek-R1不一样的声音.md


CreationTime:3/3/2025 8:51:46 AM LastAccessTime:4/23/2025 6:35:00 AM


目前国内跟风上马 DeepSeek-R1(甚至强调满血版),这对整个中国来说总体当然是个利好,除此以外,在铺天盖地已经有点过头了的视听中,我们也需要冷静一下:

  1. DeepSeek-R1 是推理模型(Reasoning-Model),并不是大家熟悉的聊天(Chat 微调)模型,因此并不适合大部分人带着环境信息的请求方式进行对话,更不适合多轮对话,因此使用场景是更受限的。它不是万能的,甚至使用更局限。所以什么用途都上这个模型有点简单粗暴了。

  2. 推理模型需要更多的算力资源完成所谓“深度思考”(这里我真的必须加上“所谓”),事实上目前适合升级的信息化项目(尤其拿我们关注的政务、医疗、教育、金融、智能制造这几个垂直场景),大部分并不需要过强的推理能力,我们需要的反而是准确性和速度,加上一定的理解能力和推理能力,以及内容风格和应用场景的一致性,而这几点 DeepSeek-R1都没有做到极致,有些甚至并不好。匆忙上马只会耽误事,造成大量浪费和未来的限制。

  3. 大量推理算力的分散采购和部署,会让本就紧张的研发用的训练算力更加紧张、成本上升,形成拆屋顶补西墙的更糟糕局面。即使在 Llama、Gemini 曾经爆火的时间,也没有见到哪个国家或地区如此狂暴的操作,并且哪怕没有如此狂暴,科研成果依旧层出不穷,反观我们目前还停留在知识库、聊天的基础上。这波操作的总投入算上未来的运维费用不会比当年核酸少。当然问题不是费用,而是产出在哪里?如果说核酸是一次性投入,这次需要大量运维成本的错误投入将带来规模更大的持续性的支出。可以预测一下将来是否会有半数以上为当前 DeepSeek-R1 添置的硬件将成为“僵尸”。

  4. 春节时候我已经发了对 DeepSeek 初步的测试结果,其中说到我觉得很可怕的事情是它的“幻觉”实在太严重,事后通过全社会大量的测试,也证实了这一点。如果继续允许大量错误信息在公网发布,中文训练数据恐将成为世界上最糟糕的数据。更大的危害不用我说。

另外说几个和技术发展以及开源有关问题:

  1. 官方在模型大火之后,和大家一起看到了一些问题,于是发布了说明:使用 DeepSeek 不建议用传统提示词,也不建议多轮对话。很多人都在转发说提示词工程过时了,我不知道这个结论是通过什么脑回路得出来的,至少不会是了解大模型的人说的。这是一个极大的误区。首先,DeepSeek 的推理模型能力只能代表 AI 模型应用的一个面,并不能代表整体,如果把 DeepSeek(R1)中目前被媒体追捧的这些技术看成是大模型未来主流形态的雏形(甚至是 AGI),那我要说这是科技的倒退。如果不同意可以来辩一辩,也可以 5 年后回过来看。其次,所有基于 Transformer 以及大量目前大模型、NLP 模型的使用,提示词本身至今是一个不可或缺的存在,就像不能把 ChatGPT 等同于大模型一样,我们也不能把特殊的提示词等同于提示词这个名词,甚至是提示词工程,这是不同层面的事情(严格地讲,就是说一句“Hello”,也是提示词,至于我们所希望的不要那么工程化,也是工程化研究的一部分)。如果放弃对于提示词重要性的理解,以及对提示词的研究,将又会是一次倒退。

  2. 目前包含 MoE(混合专家模型)在内的一系列架构和方法是不是一定能代表目前最先进的做法?显然并不是,但由于某些原因,不用我解释,懂的都懂。前段时间有人把某品牌遥遥领先的做法形容为“技术霸权主义”,我认为描述还挺贴切,某些混淆视听的说法,有时候不光迷惑了对手,也迷惑的自己人(当然对他们来说其他人可能都是打击对象),导致大量国内研发资源的消耗和浪费,例如很多已经初有成果的研究课题被迫终止,最后造谣者赢家通吃。在这里,商业公司乱吹牛和不诚信行为的违法成本低到令人发指。

  3. 这次许多地方包括政府单位匆忙上马 DeepSeek 各种版本,对行业内的人看来,像是一个个照妖镜,举个例子,你们仔细去看,但凡说自己部署了“DeepSeek-R1 70b”还放在面上宣传的单位,不是没看论文,就是没有比较早时间进入这个行业,也进行深入研究,也没关注和学习过行业里比较有名的模型(llama 以及相关协议),甚至可能都不太了解开源协议和规则,又或许不太懂法律,当然也不排除人家就是头比较铁,无视知识产权和最基本的职业操守,更别提法律。这是我们应该有的体统吗?

  4. 曾经,我们痴迷于短平快的工业发展方式,追求廉价、卷成本,以此吸引订单快速发展。最后我们确实得到了大量的订单,同时也失去了发展高端研发的诸多机会,至今大部分工业仍然处于全球化供应链条的中下游,翻身代价巨大。这次模型的浪潮也是一样,虽然降低成本是一件好事,但是如果在宣传过程中,过渡强调低成本以及奇技淫巧,而不是冷静看待各种过程、可能性或者更好的融合结果,盲目自信,拿了 80 分沾沾自喜,还在嘲笑拿了 90 分的人付出了超过几倍的努力,这是重蹈覆辙的前奏。

说明:DeepSeek 是一个伟大的发明,已经改变了国内大量网民对于人工智能的认知程度。以上只是从另外一个视角提倡冷静思考一下。

An unhandled error has occurred. Reload 🗙