工程院院士與DeepSeek過了一招探討AI發展路徑問題

2025-03-03 10:09:51

字體：大中小

來源：轉載

供稿：網友

近日，DeepSeek的出現引發了全球科技領域的廣泛關注和深入討論。中國科協會刊《科技導報》2025年第3期刊發了中國計算機學會原理事長李國杰院士的文章《DeepSeek引發的AI發展路徑思考》，探討了DeepSeek背后所蘊含的AI發展路徑問題。

李國杰是中國工程院院士、發展中國家科學院（TWAS）院士，研究方向涵蓋計算機體系結構、并行算法、人工智能等多個領域。

DeepSeek的橫空出世是人工智能發展史上的標志性事件。短短7天內，用戶增長超過1億，打破了用戶增長速度的世界紀錄。與此同時，英偉達股價單日暴跌17%，市值縮水5890億美元，創下美國上市公司單日最大損失紀錄。這表明，高算力和高投入不再是發展人工智能的唯一途徑，集成電路制程優勢也不再等于人工智能技術霸權。DeepSeek引領行業進入以算法和模型架構優化為主的新時期，同時高度重視數據質量和規模，并理性提高算力。此外，DeepSeek標志著中國科技公司從“追趕者”變為“規則改寫者”，在全球人工智能領域展現出顛覆性創新。

全球人工智能龍頭企業紛紛擁抱DeepSeek，微軟最早宣布將其R1模型添加到Azure AI Foundry，亞馬遜云科技（AWS）、英偉達、超威半導體（AMD）等也相繼部署DeepSeek V3和R1模型。上億用戶和眾多大公司根據性價比和親身體驗主動融入DeepSeek生態。DeepSeek推出的高效率、低成本推理模型和開源商業模式，引領了人工智能行業新潮流。

V3和R1模型受歡迎的原因在于其在模型算法和系統軟件層次的重大創新。V3模型參數量高達6710億，但采用混合專家模型（MoE）架構后，每次調用僅激活約370億個參數，顯著降低了訓練計算成本。改進的多頭潛在注意力機制（MLA）減少了鍵值緩存開銷，將顯存占用降至其他大模型的5%~13%，提升了運行效率。R1模型摒棄傳統監督微調（SFT），提出群組相對策略優化（GRPO），通過強化學習激發推理能力，簡化了訓練流程。這些發明雖非首次提出，但DeepSeek通過努力將技術做到極致，在前人成果基礎上登上新的技術高峰。

上一篇：湯姆貓：公司融合豆包與DeepSeek能力

下一篇：孫正義被曝擬借款240億美元投資AI 推進AI領域的戰略布局