首页 / What is DeepSeek and why is ChatGPT worried?

What is DeepSeek and why is ChatGPT worried?

2025/1/30 07:00:14
DeepSeek 是一款开源生成式AI模型,性能与 GPT-3 等顶级模型相当,但训练成本仅为数百万美元,远低于竞争对手。该模型由中国工程师开发,可用于多种应用,并支持商业用途。DeepSeek 的独特之处在于它可以将大型模型“提炼”成更小的模型,保持同等推理能力,这对于本地运行和降低硬件需求具有重大意义。尽管存在偏见和审查的担忧,但 DeepSeek 仍被视为生成式人工智能领域的重大突破。
What is DeepSeek and why is ChatGPT worried?

DeepSeek 是一款开源人工智能,声称具有强大功能。像GPT-3、Claude 或 Llama 这样,DeepSeek 是一个生成式人工智能模型。更准确地说,它是一组针对不同应用设计的变体模型。

与例如 OpenAI 的 GPT 模型不同,DeepSeek 是基于 MIT 许可证开源的,允许商业用途。这意味着模型的所有内部运作机制都公开透明。任何人都可以免费使用它,无需支付任何许可费用,并且没有任何人阻止某人修改或构建已完成的工作。这是 DeepSeek 短期内导致市场混乱的主要原因之一,这种混乱可能会演变成长期市场调整。

然而,如果DeepSeek本身效果不佳,这一切都毫无意义。让大家谈论这个AI模型的另一个重要因素是它的性能如何。在AI基准测试中,DeepSeek的表现与GPT-o1和其他顶级生成模型一样出色,甚至在某些方面表现更好。当然,任何人都可以验证这一点,但真正令人震惊的是开发该模型的成本。

DeepSeek 声称该模型的训练成本不到六百万美元。 这听起来像是很多钱,直到你考虑到它竞争对手的模型训练成本超过了一亿美元。 更重要的是,DeepSeek 在比美国 OpenAI 等公司可用的硬件更弱的硬件上进行训练。当然,这是其中一项难以核实的声明,并且 quoted 金额可能远低于事实真相。然而,目前没有确凿证据表明成本高于声称的金额。

我认为DeepSeek最值得一提的“重大突破”在于它被用来将大型、密集且计算成本高的模型(如Llama)“提炼”成更小的模型,这些小型模型具有相当同等的推理能力。简单来说,DeepSeek会训练一个模型来模仿更大更复杂模型的输出,而无需复杂的内部机制。这实际上是将大型模型压缩成小型模型,到目前为止,似乎没有明显的缺点。这对本地运行复杂模型、使用更少的电力和硬件需求是一个重大飞跃。

深度探测器由中国工程师开发

DeepSeek是由梁文峰(39岁)领导的一家初创公司,他最初作为对冲基金经理取得成功。具体来说,他是量化对冲基金经理。这种投资方法使用机器学习来预测市场趋势,以便投资者从中获利。这就是为什么文峰已经拥有训练此类模型所需的强大硬件的原因。

DeepSeek 似乎是一个充满热情的个人项目,并不打算将其作为营利性企业。事实上,该模型已经开源免费提供给所有人。 Ironically,美国对来自英伟达等公司强大 AI 芯片的出口禁令,可能正是 DeepSeek 的开发人员被迫使其如此高效的原因。

你可以立即尝试DeepSeek

如果您访问 DeepSeek 网站,可以获取该应用程序以及下载到您自己的硬件上使用的实际模型链接。在您自己的硬件上运行 DeepSeek 的一些版本最简单的方法是使用 Ollama。

当然,你不可能在笔记本电脑上运行 GPT-o1 级别的 DeepSeek 模型。但是,如果你花几千美元购买高性能 GPU 和 RAM,完全可以做到。当然,还有许多规模较小的 DeepSeek 模型,它们的效果没有那么好,但可以在你现在拥有的计算机上运行良好。 甚至还有一个版本可以(勉强)在 Raspberry Pi 上运行。

DeepSeek存在一些特殊关注点

鉴于DeepSeek的部分故事听起来有些过于理想化,再加上它来自中国,这引发了关于偏见、审查甚至网络安全的担忧,因此一些人工智能行业专家对DeepSeek持谨慎态度不足为奇。

的确,向在线托管版本的LLM提问那些对当前中国政府敏感的问题,它可能不会像你期望的那样坦诚。然而,由于代码对所有人开放,只要有知识的人可以调整它的行为方式。这些问题原则上是可以解决的。

DeepSeek 还处于早期阶段,要看看最终效果还需要一段时间,但我毫无疑问的是,自ChatGPT 首次面向公众发布以来,生成式人工智能行业刚刚经历了其第一个重大范式转变。