Taalas HC1 將 AI 模型硬連線進矽晶片：每秒 17,000 tokens 的革命性 ASIC 架構

在 AI 推理硬體的競賽中，過去兩年的主旋律一直是「更大的 GPU 叢集、更快的記憶體頻寬、更複雜的互連拓撲」。從 Nvidia 的 H200 到 Cerebras 的晶圓級引擎，從 Groq 的 LPU 到 SambaNova 的可重配置資料流架構，各家廠商都在同一個基本框架內角力：如何更高效地把模型權重從記憶體載入到計算單元。然而，一家來自加拿大多倫多的新創公司正在徹底改寫這個框架。Taalas 於 2026 年 2 月正式發表 HC1——一顆將 Meta 的 Llama 3.1 8B 模型完整「硬連線」（hardwired）進矽晶片的專用積體電路（ASIC），實現了每用戶每秒 17,000 tokens 的推理吞吐量。這個數字不僅遠超當前所有 GPU 和專用加速器方案，更從根本上挑戰了我們對 AI 晶片應該如何設計的既有認知。

從「載入模型」到「燒錄模型」：一場範式轉移

要理解 HC1 的革命性所在，首先必須理解傳統 AI 推理硬體面臨的根本瓶頸。無論是 Nvidia GPU、Google TPU 還是各種新興加速器，它們本質上都是「通用」的可程式設計處理器——模型的權重（parameters）儲存在外部記憶體（通常是 HBM 或 DRAM）中，推理時需要將這些權重不斷載入到計算單元進行運算。這個「記憶體到計算」的資料搬運過程，正是目前 AI 推理的最大瓶頸，業界稱之為「記憶體牆」（memory wall）。

以 Nvidia H200 為例，其配備的 HBM3e 提供約 4.8 TB/s 的記憶體頻寬，但即便如此，在運行 8B 參數模型時，每一次前向傳播（forward pass）都需要將數十 GB 的權重從 HBM 讀取到計算核心。這個過程的延遲和能耗構成了推理速度的硬上限——H200 在運行 Llama 3.1 8B 時的典型推理速度約為每秒 230 tokens。

Taalas 的解決方案徹底繞過了記憶體牆。HC1 不使用任何外部記憶體來儲存模型權重——取而代之的是，Llama 3.1 8B 的每一個參數都被直接編碼進晶片的電晶體電路之中。模型權重不再是儲存在記憶體中、需要動態載入的「數據」，而是成為晶片物理結構的一部分，如同將軟體變成了硬體。這意味著推理過程中完全不需要存取外部記憶體，計算單元可以以晶片內部電路的速度直接讀取所有參數，從而徹底消除了記憶體頻寬這一瓶頸。

「我們重新思考了一個最基本的問題：如果你知道要運行哪個模型，為什麼還要在每次推理時花費大量時間和能量去搬運同樣的數據？直接把模型寫進電路，讓電子以光速流過邏輯閘——這就是 HC1 的核心理念。」——Taalas 創辦人兼執行長 Ljubisa Bajic

HC1 技術規格：53 億電晶體的矽晶片巨獸

HC1 的技術參數令人印象深刻。這顆 ASIC 採用台積電（TSMC）6 奈米製程生產，擁有約 530 億個電晶體，晶片面積達到 815 平方毫米。作為對比，Nvidia 的 H100 約有 800 億個電晶體、814 平方毫米的晶片面積——兩者在矽面積上幾乎相同，但設計哲學截然不同。H100 的電晶體被用來建構通用的 CUDA 核心、Tensor 核心、HBM 控制器和高速互連介面；HC1 的電晶體則幾乎全部用於編碼 Llama 3.1 8B 的模型結構和參數。

                        HC1 核心規格一覽
                        晶片類型：專用積體電路（ASIC），模型硬連線架構
製程：台積電 6 奈米
電晶體數量：約 530 億
晶片面積：815 mm²
功耗：約 250W
硬連線模型：Meta Llama 3.1 8B
推理速度：每用戶每秒 17,000 tokens
數據格式：專有 3-bit 數據格式，6-bit 參數精度
伺服器配置：10 張 HC1 卡約需 2.5 kW（標準風冷機架）

                    

HC1 採用了 Taalas 自主研發的專有 3-bit 數據格式，搭配 6-bit 的參數精度。這是一個極為激進的量化方案——目前業界的主流做法是 FP16（16 位元浮點數）或 INT8（8 位元整數），即使是最激進的量化方案通常也至少使用 4-bit。Taalas 的 3-bit/6-bit 方案在理論上會帶來一定程度的精度損失，但公司表示，通過針對硬連線架構的深度優化，他們在大多數基準測試中實現了與 FP16 版本「在統計上不可區分」的輸出品質。這一點仍需更多獨立的第三方驗證，但如果屬實，將是量化技術的重要突破。

在功耗方面，HC1 的表現同樣令人矚目。單顆 HC1 的功耗約為 250W，在一台標準的 2U 伺服器中可以安裝 10 張 HC1 加速卡，整機功耗約為 2.5 kW。相比之下，一台搭載 8 顆 Nvidia H200 的 DGX 系統功耗通常在 10 kW 以上，而推理吞吐量卻遠低於 10 張 HC1 的組合。更重要的是，2.5 kW 的功耗水準完全可以在標準風冷機架中運行，無需昂貴的液冷基礎設施——這對數據中心的部署靈活性和總體擁有成本（TCO）都是巨大的優勢。

性能對比：重新定義「最快」的含義

HC1 每用戶每秒 17,000 tokens 的推理速度，在當前的 AI 硬體格局中是一個令人震驚的數字。讓我們將其與主要競爭對手進行系統性的比較。

Nvidia H200 是目前部署最廣泛的 AI 推理加速器，在運行 Llama 3.1 8B 時的典型推理速度約為每秒 230 tokens。這意味著 HC1 的速度約為 H200 的 74 倍——不是 74%，而是 7,400%。即使考慮到 H200 是一顆通用 GPU、可以運行任意模型這一重要差異，這個性能差距仍然令人難以忽視。

在專用推理加速器領域，Cerebras 是此前公認的速度之王，其晶圓級引擎在 Llama 3.1 8B 上可達約每秒 1,936 tokens——HC1 的速度仍然是其 8.8 倍。SambaNova 的可重配置資料流架構達到約每秒 916 tokens，Groq 的 LPU 約為每秒 609 tokens。HC1 相較於這些已被視為「極速」的方案，仍然快了一個數量級。

建造成本方面的優勢同樣驚人。Taalas 聲稱 HC1 的製造成本較同等推理能力的 GPU 方案低 20 倍，能耗則低 10 倍。這背後的邏輯是清晰的：HC1 不需要昂貴的 HBM 記憶體（HBM 通常佔據 AI 晶片總成本的 30-50%），不需要複雜的記憶體控制器電路，不需要支援通用程式設計的指令解碼器和暫存器堆——所有這些在傳統 AI 晶片中不可或缺的組件，在 HC1 上都被省略了，因為它們根本不需要。晶片上的每一個電晶體都在為一個目的服務：盡可能快地運行 Llama 3.1 8B。

「GPU 是一把瑞士軍刀——什麼都能做，但沒有一樣做到極致。HC1 是一把為特定任務鍛造的武士刀。如果你知道需要切什麼，為什麼還要帶著開罐器和螺絲起子？」——Ljubisa Bajic 在一次技術訪談中這樣類比。

硬連線的代價：靈活性與專用性的根本取捨

HC1 的驚人性能並非沒有代價。最根本的限制在於：這顆晶片只能運行 Llama 3.1 8B。它無法運行 GPT-4、無法運行 Claude、無法運行任何其他模型——模型已被物理性地寫入電路，如同一本已經印刷完成的書，無法更改其中的文字。這是硬連線架構與生俱來的特性，也是其飽受質疑的焦點。

批評者指出，AI 領域的模型迭代速度極快。Llama 3.1 8B 在今天可能是一個有競爭力的開源模型，但六個月後可能就會被下一代模型超越。花費大量資源去生產一顆只能運行特定模型的晶片，是否會面臨迅速過時的風險？這是一個合理且重要的質疑。

Taalas 對此有幾個層面的回應。首先，HC1 支援通過 LoRA（Low-Rank Adaptation）進行微調。LoRA 是一種參數高效的微調技術，通過在凍結的基礎模型權重之上添加少量可訓練的低秩矩陣，實現對模型行為的定制。在 HC1 上，基礎模型的權重雖然是硬連線的，但 LoRA 適配器的參數可以動態載入，使得用戶能夠在不改變晶片硬體的前提下，將模型適配到不同的下游任務和應用場景。

其次，Taalas 在晶片設計上採用了一個巧妙的架構策略：在整個 HC1 的光罩組（mask set）中，僅有兩層光罩（mask）需要根據不同的模型進行客製化。這意味著當需要為新模型生產晶片時，不需要從零開始設計——只需修改這兩層光罩，其餘的光罩可以完全重用。據 Taalas 表示，從確定新模型到完成晶片生產的周轉時間約為兩個月。在半導體產業中，這是一個極為快速的迭代週期——一顆全新設計的 ASIC 通常需要 12 至 18 個月的開發時間。

這種「兩層光罩」的架構設計是 HC1 商業模式的關鍵。它使得 Taalas 能夠在保持硬連線架構的極端性能優勢的同時，維持一定程度的模型更新能力。雖然兩個月的週轉時間仍然遠不如 GPU「即插即用」的靈活性，但對於那些已經確定使用特定模型的大規模部署場景而言，這個時間框架是可以接受的。

3-bit 量化與品質取捨：精度損失有多嚴重？

HC1 採用的專有 3-bit 數據格式和 6-bit 參數精度，是另一個引發廣泛討論的技術選擇。在深度學習領域，模型量化——即用更少的位元數來表示模型的權重和激活值——是提升推理速度和降低功耗的標準技術。但 3-bit 是一個極為激進的量化等級，距離業界的舒適區有相當距離。

標準的 FP16（16 位元浮點數）推理是品質基準線。INT8 量化在大多數場景中幾乎無損，已被廣泛採用。INT4/FP4 量化會帶來輕微的品質下降，但對大多數應用而言仍然可以接受。而 3-bit 量化則進入了一個更為微妙的領域——理論上，每個參數能表示的狀態數從 FP16 的 65,536 個驟降至 8 個，信息損失是顯而易見的。

Taalas 表示，他們的量化方案並非簡單的均勻量化，而是針對硬連線架構的特性進行了深度定制。6-bit 的參數精度提供了比單純 3-bit 更多的表示空間，而 3-bit 的數據格式則是用於中間計算的激活值。公司聲稱，在 MMLU、HumanEval、GSM8K 等標準基準測試上，HC1 的輸出品質與 FP16 版本的 Llama 3.1 8B 相比差異在統計噪音範圍內。

然而，對於這一說法，業界的態度是謹慎的。量化研究的經驗表明，基準測試的得分不一定能完全反映真實使用場景中的品質差異——特別是在需要精確數學推理、長上下文理解或處理罕見語言模式的任務中，極端量化可能會暴露出隱藏的品質問題。在獨立的第三方大規模評測結果公布之前，3-bit/6-bit 方案的品質表現仍然是一個有待驗證的問題。

產品路線圖：從 8B 到前沿級模型的雄心

HC1 只是 Taalas 路線圖的起點。公司已經公佈了一個雄心勃勃的產品發展計劃，目標是在短短一年內將硬連線架構從 8B 參數級別擴展至前沿級模型。

近期目標方面，Taalas 計劃在 2026 年夏季推出支援 200 億參數模型的新版晶片。這將是 HC1 的直接繼任者，參數規模擴大約 2.5 倍，預計需要更大的晶片面積或更先進的製程節點——或兩者兼備。200 億參數的模型在能力上較 8B 模型有顯著提升，能夠處理更複雜的推理任務和更長的上下文窗口，將大幅拓寬硬連線架構的適用場景。

更值得關注的是年底的計劃：Taalas 預計在 2026 年底推出代號為 HC2 的下一代晶片，目標是支援「前沿級」（frontier-class）參數規模的模型。雖然公司尚未公佈 HC2 的具體參數規模，但「前沿級」這一描述暗示目標可能在數百億甚至千億參數的量級。如果 Taalas 能夠實現這一目標，將意味著硬連線架構可以直接與 GPT-4、Claude 和 Gemini 等最頂級模型所使用的硬體基礎設施競爭。

值得注意的是，Taalas 已經展示了一個令人矚目的技術演示：在 30 張晶片的配置下運行 DeepSeek R1 模型，實現了每用戶每秒 12,000 tokens 的推理速度。DeepSeek R1 是一個在推理能力方面表現出色的模型，其參數規模遠大於 Llama 3.1 8B。這一演示不僅證明了硬連線架構可以擴展到更大的模型，也展示了多晶片協作方案的可行性——對於超出單晶片容量的模型，可以通過將模型拆分到多顆 HC 系列晶片上來實現。

                        Taalas 產品路線圖
                        2026 年 Q1（現在）：HC1 發表——Llama 3.1 8B 硬連線，17,000 tok/s/user
2026 年夏季：200 億參數模型版本——擴展硬連線架構至更大規模
2026 年底：HC2——前沿級模型支援，挑戰頂級 AI 基礎設施
已完成演示：DeepSeek R1 在 30 張晶片配置下達到 12,000 tok/s/user

                    

團隊與資本：從 Tenstorrent 到 Taalas

Taalas 的創辦人兼執行長 Ljubisa Bajic 在 AI 晶片領域有著深厚的背景。他此前任職於 Tenstorrent——另一家位於多倫多的 AI 晶片公司，由傳奇晶片架構師 Jim Keller 領導。在 Tenstorrent 的經歷使 Bajic 深刻理解了通用 AI 加速器的設計哲學和其固有的局限性，這直接啟發了他對硬連線架構這條截然不同路線的探索。

多倫多是全球深度學習研究的搖籃之一——Geoffrey Hinton 在多倫多大學開創了深度學習的現代復興，Ilya Sutskever 和眾多 AI 領域的開拓者都與這座城市有著深厚的淵源。Taalas 選擇在這裡建立總部，得以接觸到北美最頂尖的 AI 和半導體人才庫。

在資本方面，Taalas 已累計融資超過 2 億美元。對於一家硬體新創公司而言，這是一筆可觀但並非充裕的資金——晶片設計和流片（tape-out）的成本極高，一次先進製程的流片費用可能就高達數千萬美元。然而，HC1 的「兩層光罩」架構在這裡展現了其成本優勢：由於大部分光罩可以在不同模型版本間重用，每次為新模型生產晶片的邊際成本遠低於全新設計一顆 ASIC。

Bajic 曾在多個場合強調，硬連線架構的經濟模型與傳統 AI 晶片截然不同。GPU 的研發成本極高（Nvidia 每代 GPU 的研發投入以數十億美元計），但一旦量產即可適用於所有模型和場景。HC 系列晶片的單次研發成本更低（因為大部分設計可重用），但需要為每個模型單獨生產。這種「低固定成本、按模型定制」的經濟模型，在 AI 推理市場走向少數幾個主流模型集中化的趨勢下，可能具有獨特的成本優勢。

對香港及亞太 AI 生態的啟示

Taalas HC1 的出現對香港和亞太地區的 AI 產業發展有著多重啟示意義。

推理經濟學的重新計算

香港正積極推動 AI 應用的落地，從金融科技到智慧城市、從醫療健康到法律服務，大量場景需要大規模的語言模型推理能力。傳統方案下，部署足夠的 GPU 算力來支撐這些應用的成本極為高昂——一台 DGX H200 的售價超過 50 萬美元，還需要加上電費、冷卻和機房空間的成本。如果 HC1 的性價比優勢在商業部署中得到驗證，它可能為香港的 AI 應用部署提供一個成本更低、能效更高的替代方案。每秒 17,000 tokens 的速度也意味著同等規模的硬體可以同時服務更多用戶，對於人口密集的城市環境而言尤其具有吸引力。

數據中心的能效革命

香港的數據中心面臨著嚴峻的電力和空間限制。土地成本居全球最高之列，電力供應受限且價格不菲。HC1 僅需約 250W 的功耗、在標準風冷機架中即可運行的特性，對香港的數據中心運營商而言是極具吸引力的——無需為部署 AI 推理能力而大規模改造冷卻系統或升級電力基礎設施。10 張 HC1 卡僅需 2.5 kW 的功耗，卻能提供相當於數十張高端 GPU 的推理吞吐量，這種能效比可能在寸土寸金的香港創造出獨特的部署機會。

供應鏈多元化的新選擇

在中美科技博弈持續升溫、先進晶片出口管制不斷收緊的背景下，亞太地區的企業和機構迫切需要多元化的 AI 硬體供應來源。HC1 雖然同樣是由台積電代工（且因此可能受到同樣的出口管制），但其「模型硬連線」的架構意味著最終產品的性質與通用 GPU 有本質不同——一顆只能運行特定開源模型的 ASIC，其出口管制分類可能與通用 AI 加速器不同。這一點值得政策研究者和產業界密切關注，因為它可能為受管制地區獲取高性能 AI 推理能力開闢一條新的路徑。

硬體投資策略的啟示

對香港的科技投資者而言，Taalas 代表了一個全新的 AI 硬體投資範式。過去幾年，AI 晶片投資幾乎等同於「Nvidia 及其挑戰者」的故事——Cerebras、Groq、SambaNova 等公司本質上都在爭奪 GPU 替代品的市場。Taalas 的硬連線架構則開闢了一個全新的類別：不是替代 GPU，而是在特定場景中完全繞過 GPU 的必要性。這種「正交創新」（orthogonal innovation）在風險投資中往往具有非對稱的回報潛力——如果成功，它定義的是一個全新市場，而非在現有市場中爭搶份額。

「HC1 的出現迫使我們重新思考 AI 基礎設施投資的基本框架。不再是『誰能做出更好的 GPU 替代品』，而是『在什麼場景下，通用計算架構本身就是一個不必要的妥協？』這個思維轉變對香港和亞太地區的 AI 產業布局有深遠的影響。」——一位香港科技投資基金合夥人評論道。

展望：硬連線架構是 AI 推理的未來嗎？

Taalas HC1 的出現引發了一個更深層的產業問題：AI 推理硬體的未來，究竟是走向更強大的通用處理器，還是走向為特定模型深度定制的專用晶片？

歷史可以提供一些啟示。在加密貨幣挖礦領域，幾乎完全一樣的演進路徑已經發生過——從 CPU 到 GPU，再到 FPGA，最終到專用 ASIC（如 Bitmain 的螞蟻礦機）。ASIC 礦機在效率上對 GPU 的碾壓是如此徹底，以至於 GPU 挖礦在大多數加密貨幣上已經完全失去經濟可行性。AI 推理是否會走上同樣的道路？

關鍵的區別在於：加密貨幣挖礦算法很少改變，而 AI 模型的迭代速度極快。比特幣的 SHA-256 算法從 2009 年至今未變，但 AI 領域每隔幾個月就會出現新的模型架構和權重更新。這意味著硬連線 AI 晶片面臨的模型過時風險遠高於加密貨幣 ASIC。Taalas 的「兩層光罩、兩個月周轉」策略是否足以應對這種迭代速度，是決定其商業模式能否持續的核心問題。

一個可能的未來場景是「混合架構」——大規模的 AI 推理基礎設施同時部署通用加速器和硬連線 ASIC。通用加速器用於靈活地運行各種模型、進行實驗和開發；當某個模型的使用量達到足夠規模且趨於穩定時，便將其遷移到硬連線 ASIC 上以獲取極致的速度和成本效率。這種策略類似於雲端計算中「通用實例 + 專用實例」的部署模式，在經濟和技術上都具有合理性。

對於 Taalas 而言，接下來的幾個季度至關重要。HC1 需要在真實的商業部署中驗證其性能和品質承諾；200 億參數版本和 HC2 需要按時推出以證明架構的可擴展性；更重要的是，需要有重量級的客戶願意將生產工作負載遷移到硬連線晶片上。17,000 tokens/sec 的數字確實令人振奮，但從技術演示到大規模商業部署之間的鴻溝，在半導體歷史上已經吞噬了太多有前途的技術。

無論 Taalas 最終能否成功，HC1 所代表的「將模型寫入矽晶片」的理念已經不可逆轉地拓寬了 AI 硬體產業的想像空間。在一個每秒 tokens 數直接決定用戶體驗和商業競爭力的時代，17,000 tok/s 的標竿將迫使所有 AI 硬體廠商重新審視自己的技術路線。比起 HC1 本身，這種對整個產業的催化效應，或許才是 Taalas 最深遠的貢獻。

                        本文要點總結
                        Taalas 推出 HC1 晶片，將 Llama 3.1 8B 模型永久硬連線進矽晶片電路，實現每用戶每秒 17,000 tokens 的推理速度，較當前最快方案快近 10 倍
性能對比：Nvidia H200 約 230 tok/s、Cerebras 約 1,936 tok/s、SambaNova 約 916 tok/s、Groq 約 609 tok/s——HC1 以數量級的差距領先
HC1 採用台積電 6 奈米製程，約 530 億電晶體，815 mm² 晶片面積，功耗僅約 250W，10 張卡的伺服器僅需 2.5 kW（標準風冷）
建造成本較 GPU 方案低 20 倍、能耗低 10 倍，徹底消除了記憶體牆瓶頸
採用專有 3-bit 數據格式和 6-bit 參數精度，品質取捨仍待獨立驗證
HC1 僅能運行 Llama 3.1 8B（硬連線限制），但支援 LoRA 微調，更換模型僅需修改 2 層光罩、約 2 個月周轉
路線圖：2026 夏季推出 200 億參數版本，年底推出 HC2 支援前沿級模型；已演示 DeepSeek R1 在 30 張晶片上達 12,000 tok/s
由前 Tenstorrent 成員 Ljubisa Bajic 創立於多倫多，已累計融資超過 2 億美元
對香港的啟示：推理經濟學重新計算、數據中心能效革命、供應鏈多元化新選擇、以及硬體投資策略的根本性反思