← 返回新聞列表

Taalas HC1 將 AI 模型硬連線進矽晶片:每秒 17,000 tokens 的革命性 ASIC 架構

總部位於加拿大多倫多的 AI 晶片新創公司 Taalas 推出 HC1,將 Llama 3.1 8B 模型的每一個參數永久燒錄進矽晶片電路,實現每用戶每秒 17,000 tokens 的推理速度——較當前最快的 GPU 方案快近 10 倍,建造成本僅為二十分之一

在 AI 推理硬體的競賽中,過去兩年的主旋律一直是「更大的 GPU 叢集、更快的記憶體頻寬、更複雜的互連拓撲」。從 Nvidia 的 H200 到 Cerebras 的晶圓級引擎,從 Groq 的 LPU 到 SambaNova 的可重配置資料流架構,各家廠商都在同一個基本框架內角力:如何更高效地把模型權重從記憶體載入到計算單元。然而,一家來自加拿大多倫多的新創公司正在徹底改寫這個框架。Taalas 於 2026 年 2 月正式發表 HC1——一顆將 Meta 的 Llama 3.1 8B 模型完整「硬連線」(hardwired)進矽晶片的專用積體電路(ASIC),實現了每用戶每秒 17,000 tokens 的推理吞吐量。這個數字不僅遠超當前所有 GPU 和專用加速器方案,更從根本上挑戰了我們對 AI 晶片應該如何設計的既有認知。

從「載入模型」到「燒錄模型」:一場範式轉移

要理解 HC1 的革命性所在,首先必須理解傳統 AI 推理硬體面臨的根本瓶頸。無論是 Nvidia GPU、Google TPU 還是各種新興加速器,它們本質上都是「通用」的可程式設計處理器——模型的權重(parameters)儲存在外部記憶體(通常是 HBM 或 DRAM)中,推理時需要將這些權重不斷載入到計算單元進行運算。這個「記憶體到計算」的資料搬運過程,正是目前 AI 推理的最大瓶頸,業界稱之為「記憶體牆」(memory wall)。

以 Nvidia H200 為例,其配備的 HBM3e 提供約 4.8 TB/s 的記憶體頻寬,但即便如此,在運行 8B 參數模型時,每一次前向傳播(forward pass)都需要將數十 GB 的權重從 HBM 讀取到計算核心。這個過程的延遲和能耗構成了推理速度的硬上限——H200 在運行 Llama 3.1 8B 時的典型推理速度約為每秒 230 tokens。

Taalas 的解決方案徹底繞過了記憶體牆。HC1 不使用任何外部記憶體來儲存模型權重——取而代之的是,Llama 3.1 8B 的每一個參數都被直接編碼進晶片的電晶體電路之中。模型權重不再是儲存在記憶體中、需要動態載入的「數據」,而是成為晶片物理結構的一部分,如同將軟體變成了硬體。這意味著推理過程中完全不需要存取外部記憶體,計算單元可以以晶片內部電路的速度直接讀取所有參數,從而徹底消除了記憶體頻寬這一瓶頸。

「我們重新思考了一個最基本的問題:如果你知道要運行哪個模型,為什麼還要在每次推理時花費大量時間和能量去搬運同樣的數據?直接把模型寫進電路,讓電子以光速流過邏輯閘——這就是 HC1 的核心理念。」——Taalas 創辦人兼執行長 Ljubisa Bajic

HC1 技術規格:53 億電晶體的矽晶片巨獸

HC1 的技術參數令人印象深刻。這顆 ASIC 採用台積電(TSMC)6 奈米製程生產,擁有約 530 億個電晶體,晶片面積達到 815 平方毫米。作為對比,Nvidia 的 H100 約有 800 億個電晶體、814 平方毫米的晶片面積——兩者在矽面積上幾乎相同,但設計哲學截然不同。H100 的電晶體被用來建構通用的 CUDA 核心、Tensor 核心、HBM 控制器和高速互連介面;HC1 的電晶體則幾乎全部用於編碼 Llama 3.1 8B 的模型結構和參數。

HC1 核心規格一覽

  • 晶片類型:專用積體電路(ASIC),模型硬連線架構
  • 製程:台積電 6 奈米
  • 電晶體數量:約 530 億
  • 晶片面積:815 mm²
  • 功耗:約 250W
  • 硬連線模型:Meta Llama 3.1 8B
  • 推理速度:每用戶每秒 17,000 tokens
  • 數據格式:專有 3-bit 數據格式,6-bit 參數精度
  • 伺服器配置:10 張 HC1 卡約需 2.5 kW(標準風冷機架)

HC1 採用了 Taalas 自主研發的專有 3-bit 數據格式,搭配 6-bit 的參數精度。這是一個極為激進的量化方案——目前業界的主流做法是 FP16(16 位元浮點數)或 INT8(8 位元整數),即使是最激進的量化方案通常也至少使用 4-bit。Taalas 的 3-bit/6-bit 方案在理論上會帶來一定程度的精度損失,但公司表示,通過針對硬連線架構的深度優化,他們在大多數基準測試中實現了與 FP16 版本「在統計上不可區分」的輸出品質。這一點仍需更多獨立的第三方驗證,但如果屬實,將是量化技術的重要突破。

在功耗方面,HC1 的表現同樣令人矚目。單顆 HC1 的功耗約為 250W,在一台標準的 2U 伺服器中可以安裝 10 張 HC1 加速卡,整機功耗約為 2.5 kW。相比之下,一台搭載 8 顆 Nvidia H200 的 DGX 系統功耗通常在 10 kW 以上,而推理吞吐量卻遠低於 10 張 HC1 的組合。更重要的是,2.5 kW 的功耗水準完全可以在標準風冷機架中運行,無需昂貴的液冷基礎設施——這對數據中心的部署靈活性和總體擁有成本(TCO)都是巨大的優勢。

性能對比:重新定義「最快」的含義

HC1 每用戶每秒 17,000 tokens 的推理速度,在當前的 AI 硬體格局中是一個令人震驚的數字。讓我們將其與主要競爭對手進行系統性的比較。

Nvidia H200 是目前部署最廣泛的 AI 推理加速器,在運行 Llama 3.1 8B 時的典型推理速度約為每秒 230 tokens。這意味著 HC1 的速度約為 H200 的 74 倍——不是 74%,而是 7,400%。即使考慮到 H200 是一顆通用 GPU、可以運行任意模型這一重要差異,這個性能差距仍然令人難以忽視。

在專用推理加速器領域,Cerebras 是此前公認的速度之王,其晶圓級引擎在 Llama 3.1 8B 上可達約每秒 1,936 tokens——HC1 的速度仍然是其 8.8 倍。SambaNova 的可重配置資料流架構達到約每秒 916 tokens,Groq 的 LPU 約為每秒 609 tokens。HC1 相較於這些已被視為「極速」的方案,仍然快了一個數量級。

建造成本方面的優勢同樣驚人。Taalas 聲稱 HC1 的製造成本較同等推理能力的 GPU 方案低 20 倍,能耗則低 10 倍。這背後的邏輯是清晰的:HC1 不需要昂貴的 HBM 記憶體(HBM 通常佔據 AI 晶片總成本的 30-50%),不需要複雜的記憶體控制器電路,不需要支援通用程式設計的指令解碼器和暫存器堆——所有這些在傳統 AI 晶片中不可或缺的組件,在 HC1 上都被省略了,因為它們根本不需要。晶片上的每一個電晶體都在為一個目的服務:盡可能快地運行 Llama 3.1 8B。

「GPU 是一把瑞士軍刀——什麼都能做,但沒有一樣做到極致。HC1 是一把為特定任務鍛造的武士刀。如果你知道需要切什麼,為什麼還要帶著開罐器和螺絲起子?」——Ljubisa Bajic 在一次技術訪談中這樣類比。

硬連線的代價:靈活性與專用性的根本取捨

HC1 的驚人性能並非沒有代價。最根本的限制在於:這顆晶片只能運行 Llama 3.1 8B。它無法運行 GPT-4、無法運行 Claude、無法運行任何其他模型——模型已被物理性地寫入電路,如同一本已經印刷完成的書,無法更改其中的文字。這是硬連線架構與生俱來的特性,也是其飽受質疑的焦點。

批評者指出,AI 領域的模型迭代速度極快。Llama 3.1 8B 在今天可能是一個有競爭力的開源模型,但六個月後可能就會被下一代模型超越。花費大量資源去生產一顆只能運行特定模型的晶片,是否會面臨迅速過時的風險?這是一個合理且重要的質疑。

Taalas 對此有幾個層面的回應。首先,HC1 支援通過 LoRA(Low-Rank Adaptation)進行微調。LoRA 是一種參數高效的微調技術,通過在凍結的基礎模型權重之上添加少量可訓練的低秩矩陣,實現對模型行為的定制。在 HC1 上,基礎模型的權重雖然是硬連線的,但 LoRA 適配器的參數可以動態載入,使得用戶能夠在不改變晶片硬體的前提下,將模型適配到不同的下游任務和應用場景。

其次,Taalas 在晶片設計上採用了一個巧妙的架構策略:在整個 HC1 的光罩組(mask set)中,僅有兩層光罩(mask)需要根據不同的模型進行客製化。這意味著當需要為新模型生產晶片時,不需要從零開始設計——只需修改這兩層光罩,其餘的光罩可以完全重用。據 Taalas 表示,從確定新模型到完成晶片生產的周轉時間約為兩個月。在半導體產業中,這是一個極為快速的迭代週期——一顆全新設計的 ASIC 通常需要 12 至 18 個月的開發時間。

這種「兩層光罩」的架構設計是 HC1 商業模式的關鍵。它使得 Taalas 能夠在保持硬連線架構的極端性能優勢的同時,維持一定程度的模型更新能力。雖然兩個月的週轉時間仍然遠不如 GPU「即插即用」的靈活性,但對於那些已經確定使用特定模型的大規模部署場景而言,這個時間框架是可以接受的。

3-bit 量化與品質取捨:精度損失有多嚴重?

HC1 採用的專有 3-bit 數據格式和 6-bit 參數精度,是另一個引發廣泛討論的技術選擇。在深度學習領域,模型量化——即用更少的位元數來表示模型的權重和激活值——是提升推理速度和降低功耗的標準技術。但 3-bit 是一個極為激進的量化等級,距離業界的舒適區有相當距離。

標準的 FP16(16 位元浮點數)推理是品質基準線。INT8 量化在大多數場景中幾乎無損,已被廣泛採用。INT4/FP4 量化會帶來輕微的品質下降,但對大多數應用而言仍然可以接受。而 3-bit 量化則進入了一個更為微妙的領域——理論上,每個參數能表示的狀態數從 FP16 的 65,536 個驟降至 8 個,信息損失是顯而易見的。

Taalas 表示,他們的量化方案並非簡單的均勻量化,而是針對硬連線架構的特性進行了深度定制。6-bit 的參數精度提供了比單純 3-bit 更多的表示空間,而 3-bit 的數據格式則是用於中間計算的激活值。公司聲稱,在 MMLU、HumanEval、GSM8K 等標準基準測試上,HC1 的輸出品質與 FP16 版本的 Llama 3.1 8B 相比差異在統計噪音範圍內。

然而,對於這一說法,業界的態度是謹慎的。量化研究的經驗表明,基準測試的得分不一定能完全反映真實使用場景中的品質差異——特別是在需要精確數學推理、長上下文理解或處理罕見語言模式的任務中,極端量化可能會暴露出隱藏的品質問題。在獨立的第三方大規模評測結果公布之前,3-bit/6-bit 方案的品質表現仍然是一個有待驗證的問題。

產品路線圖:從 8B 到前沿級模型的雄心

HC1 只是 Taalas 路線圖的起點。公司已經公佈了一個雄心勃勃的產品發展計劃,目標是在短短一年內將硬連線架構從 8B 參數級別擴展至前沿級模型。

近期目標方面,Taalas 計劃在 2026 年夏季推出支援 200 億參數模型的新版晶片。這將是 HC1 的直接繼任者,參數規模擴大約 2.5 倍,預計需要更大的晶片面積或更先進的製程節點——或兩者兼備。200 億參數的模型在能力上較 8B 模型有顯著提升,能夠處理更複雜的推理任務和更長的上下文窗口,將大幅拓寬硬連線架構的適用場景。

更值得關注的是年底的計劃:Taalas 預計在 2026 年底推出代號為 HC2 的下一代晶片,目標是支援「前沿級」(frontier-class)參數規模的模型。雖然公司尚未公佈 HC2 的具體參數規模,但「前沿級」這一描述暗示目標可能在數百億甚至千億參數的量級。如果 Taalas 能夠實現這一目標,將意味著硬連線架構可以直接與 GPT-4、Claude 和 Gemini 等最頂級模型所使用的硬體基礎設施競爭。

值得注意的是,Taalas 已經展示了一個令人矚目的技術演示:在 30 張晶片的配置下運行 DeepSeek R1 模型,實現了每用戶每秒 12,000 tokens 的推理速度。DeepSeek R1 是一個在推理能力方面表現出色的模型,其參數規模遠大於 Llama 3.1 8B。這一演示不僅證明了硬連線架構可以擴展到更大的模型,也展示了多晶片協作方案的可行性——對於超出單晶片容量的模型,可以通過將模型拆分到多顆 HC 系列晶片上來實現。

Taalas 產品路線圖

  • 2026 年 Q1(現在):HC1 發表——Llama 3.1 8B 硬連線,17,000 tok/s/user
  • 2026 年夏季:200 億參數模型版本——擴展硬連線架構至更大規模
  • 2026 年底:HC2——前沿級模型支援,挑戰頂級 AI 基礎設施
  • 已完成演示:DeepSeek R1 在 30 張晶片配置下達到 12,000 tok/s/user

團隊與資本:從 Tenstorrent 到 Taalas

Taalas 的創辦人兼執行長 Ljubisa Bajic 在 AI 晶片領域有著深厚的背景。他此前任職於 Tenstorrent——另一家位於多倫多的 AI 晶片公司,由傳奇晶片架構師 Jim Keller 領導。在 Tenstorrent 的經歷使 Bajic 深刻理解了通用 AI 加速器的設計哲學和其固有的局限性,這直接啟發了他對硬連線架構這條截然不同路線的探索。

多倫多是全球深度學習研究的搖籃之一——Geoffrey Hinton 在多倫多大學開創了深度學習的現代復興,Ilya Sutskever 和眾多 AI 領域的開拓者都與這座城市有著深厚的淵源。Taalas 選擇在這裡建立總部,得以接觸到北美最頂尖的 AI 和半導體人才庫。

在資本方面,Taalas 已累計融資超過 2 億美元。對於一家硬體新創公司而言,這是一筆可觀但並非充裕的資金——晶片設計和流片(tape-out)的成本極高,一次先進製程的流片費用可能就高達數千萬美元。然而,HC1 的「兩層光罩」架構在這裡展現了其成本優勢:由於大部分光罩可以在不同模型版本間重用,每次為新模型生產晶片的邊際成本遠低於全新設計一顆 ASIC。

Bajic 曾在多個場合強調,硬連線架構的經濟模型與傳統 AI 晶片截然不同。GPU 的研發成本極高(Nvidia 每代 GPU 的研發投入以數十億美元計),但一旦量產即可適用於所有模型和場景。HC 系列晶片的單次研發成本更低(因為大部分設計可重用),但需要為每個模型單獨生產。這種「低固定成本、按模型定制」的經濟模型,在 AI 推理市場走向少數幾個主流模型集中化的趨勢下,可能具有獨特的成本優勢。

對香港及亞太 AI 生態的啟示

Taalas HC1 的出現對香港和亞太地區的 AI 產業發展有著多重啟示意義。

推理經濟學的重新計算

香港正積極推動 AI 應用的落地,從金融科技到智慧城市、從醫療健康到法律服務,大量場景需要大規模的語言模型推理能力。傳統方案下,部署足夠的 GPU 算力來支撐這些應用的成本極為高昂——一台 DGX H200 的售價超過 50 萬美元,還需要加上電費、冷卻和機房空間的成本。如果 HC1 的性價比優勢在商業部署中得到驗證,它可能為香港的 AI 應用部署提供一個成本更低、能效更高的替代方案。每秒 17,000 tokens 的速度也意味著同等規模的硬體可以同時服務更多用戶,對於人口密集的城市環境而言尤其具有吸引力。

數據中心的能效革命

香港的數據中心面臨著嚴峻的電力和空間限制。土地成本居全球最高之列,電力供應受限且價格不菲。HC1 僅需約 250W 的功耗、在標準風冷機架中即可運行的特性,對香港的數據中心運營商而言是極具吸引力的——無需為部署 AI 推理能力而大規模改造冷卻系統或升級電力基礎設施。10 張 HC1 卡僅需 2.5 kW 的功耗,卻能提供相當於數十張高端 GPU 的推理吞吐量,這種能效比可能在寸土寸金的香港創造出獨特的部署機會。

供應鏈多元化的新選擇

在中美科技博弈持續升溫、先進晶片出口管制不斷收緊的背景下,亞太地區的企業和機構迫切需要多元化的 AI 硬體供應來源。HC1 雖然同樣是由台積電代工(且因此可能受到同樣的出口管制),但其「模型硬連線」的架構意味著最終產品的性質與通用 GPU 有本質不同——一顆只能運行特定開源模型的 ASIC,其出口管制分類可能與通用 AI 加速器不同。這一點值得政策研究者和產業界密切關注,因為它可能為受管制地區獲取高性能 AI 推理能力開闢一條新的路徑。

硬體投資策略的啟示

對香港的科技投資者而言,Taalas 代表了一個全新的 AI 硬體投資範式。過去幾年,AI 晶片投資幾乎等同於「Nvidia 及其挑戰者」的故事——Cerebras、Groq、SambaNova 等公司本質上都在爭奪 GPU 替代品的市場。Taalas 的硬連線架構則開闢了一個全新的類別:不是替代 GPU,而是在特定場景中完全繞過 GPU 的必要性。這種「正交創新」(orthogonal innovation)在風險投資中往往具有非對稱的回報潛力——如果成功,它定義的是一個全新市場,而非在現有市場中爭搶份額。

「HC1 的出現迫使我們重新思考 AI 基礎設施投資的基本框架。不再是『誰能做出更好的 GPU 替代品』,而是『在什麼場景下,通用計算架構本身就是一個不必要的妥協?』這個思維轉變對香港和亞太地區的 AI 產業布局有深遠的影響。」——一位香港科技投資基金合夥人評論道。

展望:硬連線架構是 AI 推理的未來嗎?

Taalas HC1 的出現引發了一個更深層的產業問題:AI 推理硬體的未來,究竟是走向更強大的通用處理器,還是走向為特定模型深度定制的專用晶片?

歷史可以提供一些啟示。在加密貨幣挖礦領域,幾乎完全一樣的演進路徑已經發生過——從 CPU 到 GPU,再到 FPGA,最終到專用 ASIC(如 Bitmain 的螞蟻礦機)。ASIC 礦機在效率上對 GPU 的碾壓是如此徹底,以至於 GPU 挖礦在大多數加密貨幣上已經完全失去經濟可行性。AI 推理是否會走上同樣的道路?

關鍵的區別在於:加密貨幣挖礦算法很少改變,而 AI 模型的迭代速度極快。比特幣的 SHA-256 算法從 2009 年至今未變,但 AI 領域每隔幾個月就會出現新的模型架構和權重更新。這意味著硬連線 AI 晶片面臨的模型過時風險遠高於加密貨幣 ASIC。Taalas 的「兩層光罩、兩個月周轉」策略是否足以應對這種迭代速度,是決定其商業模式能否持續的核心問題。

一個可能的未來場景是「混合架構」——大規模的 AI 推理基礎設施同時部署通用加速器和硬連線 ASIC。通用加速器用於靈活地運行各種模型、進行實驗和開發;當某個模型的使用量達到足夠規模且趨於穩定時,便將其遷移到硬連線 ASIC 上以獲取極致的速度和成本效率。這種策略類似於雲端計算中「通用實例 + 專用實例」的部署模式,在經濟和技術上都具有合理性。

對於 Taalas 而言,接下來的幾個季度至關重要。HC1 需要在真實的商業部署中驗證其性能和品質承諾;200 億參數版本和 HC2 需要按時推出以證明架構的可擴展性;更重要的是,需要有重量級的客戶願意將生產工作負載遷移到硬連線晶片上。17,000 tokens/sec 的數字確實令人振奮,但從技術演示到大規模商業部署之間的鴻溝,在半導體歷史上已經吞噬了太多有前途的技術。

無論 Taalas 最終能否成功,HC1 所代表的「將模型寫入矽晶片」的理念已經不可逆轉地拓寬了 AI 硬體產業的想像空間。在一個每秒 tokens 數直接決定用戶體驗和商業競爭力的時代,17,000 tok/s 的標竿將迫使所有 AI 硬體廠商重新審視自己的技術路線。比起 HC1 本身,這種對整個產業的催化效應,或許才是 Taalas 最深遠的貢獻。

本文要點總結

  • Taalas 推出 HC1 晶片,將 Llama 3.1 8B 模型永久硬連線進矽晶片電路,實現每用戶每秒 17,000 tokens 的推理速度,較當前最快方案快近 10 倍
  • 性能對比:Nvidia H200 約 230 tok/s、Cerebras 約 1,936 tok/s、SambaNova 約 916 tok/s、Groq 約 609 tok/s——HC1 以數量級的差距領先
  • HC1 採用台積電 6 奈米製程,約 530 億電晶體,815 mm² 晶片面積,功耗僅約 250W,10 張卡的伺服器僅需 2.5 kW(標準風冷)
  • 建造成本較 GPU 方案低 20 倍、能耗低 10 倍,徹底消除了記憶體牆瓶頸
  • 採用專有 3-bit 數據格式和 6-bit 參數精度,品質取捨仍待獨立驗證
  • HC1 僅能運行 Llama 3.1 8B(硬連線限制),但支援 LoRA 微調,更換模型僅需修改 2 層光罩、約 2 個月周轉
  • 路線圖:2026 夏季推出 200 億參數版本,年底推出 HC2 支援前沿級模型;已演示 DeepSeek R1 在 30 張晶片上達 12,000 tok/s
  • 由前 Tenstorrent 成員 Ljubisa Bajic 創立於多倫多,已累計融資超過 2 億美元
  • 對香港的啟示:推理經濟學重新計算、數據中心能效革命、供應鏈多元化新選擇、以及硬體投資策略的根本性反思