← 返回新聞列表

阿里巴巴 Qwen3-Max-Thinking 超越美國基準:中國 AI 再創佳績

通義千問最新推理模型在多項頂級測試中擊敗美國競爭對手

阿里巴巴旗下通義實驗室發布的 Qwen3-Max-Thinking 推理模型,在多項標準化測試中超越了美國主要基準,包括被稱為「人類最後考試」(Humanity's Last Exam)的超高難度測試。這一成就再次證明中國 AI 公司的快速崛起。

什麼是「人類最後考試」?

「人類最後考試」是一套由頂尖學者設計的極高難度測試,涵蓋數學、物理、生物、哲學等多個學科的前沿問題。這些問題難到連該領域的專家有時也會感到棘手,旨在測試 AI 是否真正具備深層推理能力。

此前,這項測試一直被認為是大語言模型的「天花板」,大多數模型的得分都相當有限。

Qwen3-Max-Thinking 亮點

  • 「人類最後考試」:超越主要美國模型
  • 模型類型:推理專用(Thinking)模型
  • 開發商:阿里巴巴通義實驗室
  • 特色:深度思考鏈(Chain-of-Thought)優化

推理模型的崛起

Qwen3-Max-Thinking 是所謂「推理模型」或「思考模型」的最新代表。與傳統的大語言模型不同,推理模型被設計為在回答問題前進行更深入的「思考」——分解問題、考慮多種可能性、逐步推理。

這種方法最初由 OpenAI 的 o1 系列普及,現在已被各大 AI 實驗室採用。阿里巴巴的 Qwen3-Max-Thinking 展示了中國公司在這一新興領域的競爭力。

中國 AI 的全面崛起

Qwen3-Max-Thinking 的成功是中國 AI 產業全面崛起的一部分:

  • DeepSeek R1:以有限資源達到世界級性能的推理模型
  • Moonshot Kimi K2.5:萬億參數開源多模態模型
  • 百度文心:持續迭代的大語言模型
  • 騰訊混元:多模態和長上下文能力
「中國 AI 公司不再只是追趕者,在某些領域已經成為引領者。這種競爭對整個 AI 產業都是好事。」

美國出口管制的影響

值得注意的是,這些成就是在美國對中國實施嚴格 AI 晶片出口管制的背景下取得的。中國公司無法獲得 NVIDIA 最先進的 GPU,但通過軟件創新和算法優化,仍然能夠開發出具有競爭力的模型。

這表明,在 AI 競爭中,軟件創新可能比硬件優勢更為重要。或者說,硬件限制可以在一定程度上被軟件創新所彌補。

對全球 AI 格局的影響

中國 AI 公司的崛起正在重塑全球 AI 競爭格局:

多極化發展

AI 領導地位不再是美國的專利。中國、歐洲、甚至一些新興市場都在發展自己的 AI 能力。

開源策略

許多中國公司選擇開源策略,這與 OpenAI 等美國公司的閉源傾向形成對比。開源策略幫助中國公司贏得全球開發者的信任。

價格競爭

中國 AI 服務通常價格更低,這對於價格敏感的市場和開發者具有吸引力。

對香港的機遇

作為連接中國與國際市場的橋樑,香港在 AI 領域有獨特的定位:

  • 可以同時獲取中美兩邊的 AI 技術和服務
  • 為國際企業評估和採用中國 AI 模型提供諮詢
  • 發展面向全球市場的 AI 應用
  • 促進學術和產業的國際合作

本文要點總結

  • 阿里巴巴 Qwen3-Max-Thinking 在「人類最後考試」中超越美國模型
  • 推理模型成為 AI 發展新方向
  • 中國 AI 在晶片限制下仍取得重大突破
  • 開源和價格策略幫助中國 AI 贏得全球市場
  • 全球 AI 格局正在走向多極化