中國科技公司 DeepSeek 發布了其 v3 模型,這一開源 AI 模型備受關注和驚喜。然而,有人發現該模型在回答時自稱「ChatGPT」,因此被戲稱為抄襲,這引發了對其技術和創新的深入探討。這並非傳統的淘寶模式,而是一項可能改變市場規則的 AI 技術突破。
DeepSeek 的背景
DeepSeek 是由中國私募基金「幻方量化」在 2023 年創立的人工智慧公司,以開發先進 AI 技術為焦點。儘管成立不久,憑藉有效的技術創新,DeepSeek 很快成為 AI 領域的焦點。其最新的 DeepSeek-V3 模型擁有 6710 億個參數,在性能與成本之間找到了新的平衡。
關鍵技術的革新
DeepSeek 在 2 年內以 557 萬美元的成本開發了高性能 AI 模型,遠低於 OpenAI 的 GPT-4 模型訓練成本,並可能超越未來 GPT-5 的預算。這些成果主要來自以下技術創新:
1. **精準開啟部分參數運算**:減少了運算資源的需求。
2. **數據處理及節能創新**:透過混合專家架構和多頭潛在注意力技術,大幅降低資源消耗。
手機及平板的革命性應用
DeepSeek-V3 的設計在推理過程中大幅降低了資源需求。其創新的「混合專家架構」只需激活 370 億參數進行推理,相比完整版的 GPT-4 需要大量運算能力和內存資源。MLA 技術與 RoPE 的結合,大幅減少高達 96% 的資源消耗,並改善推理速度與準確性,預示著 AI 能在消費性裝置上運行,為市場提供平民化技術體驗。
訓練模型的質疑與挑戰
儘管展示出巨大潛力,DeepSeek 也遭受了一些質疑。DeepSeek-V3 在測試中自稱 ChatGPT,引發了對其訓練數據透明性和獨立性的討論。至今,DeepSeek 尚未針對此問題作出正式回應,提示 AI 發展中的透明化與規範化必要性。
深耕技術與市場反應
以下為 DeepSeek 在業界引發強烈迴響的原因:
1. 低成本與高效率:顯示出其在成本控制上的顯著優勢。
2. 保持卓越性能:在不犧牲性能的情況下,實現了高效運行。
3. 突破硬件限制:讓 AI 運行在更廣泛的設備上變得可行。
4. 挑戰巨頭市場優勢:對現有市場格局形成潛在威脅。
5. 技術創新帶來的啟示:為投資者和行業提供新思路。
### 總結
中國市場擁有全球最豐富的數據資源,但在算力上面臨限制,使得中國 AI 公司更加重視效率優化。DeepSeek 的成功顯示了在有限資源下達成最佳結果的新模式。這種以技術創新減少資源浪費的道路,或成為改變市場規則的關鍵。未來的 AI 競爭不僅在於技術本身,更需要考量如何達到資源效能的平衡。