亞洲最大的幾家云服務商正采取哪些措施來滿足日益增長的AI推理需求?Omdia的最新研究深入分析了AI推理運營所面臨的不斷演變的挑戰,吞吐量、延遲與支持多樣化AI模型之間的關鍵權衡,以及可能的解決方案。該報告詳細涵蓋了華為、百度、阿里巴巴、字節跳動、騰訊、NAVER和SK Telecom Enterprise等公司,考察了這些公司所提供的GPU、AI加速器和經過AI優化的CPU及其定價、英偉達(NVIDIA) GPU的庫存、AI服務組合,以及自有AI模型和定制芯片項目的現狀。
盡管在2024年至2025年初美國實施出口管制前,中國企業大量囤積了英偉達 H800和H20 GPU,但在國內云服務中卻難以見到這些高性能芯片的身影,這表明它們主要被用于頂級云服務商自身的模型開發項目。同樣,采用中國本土AI芯片項目的方案也相對較少,例外情況包括百度的本地云產品和華為云的部分服務,但這類應用仍十分有限。中國頂級云服務商在采用“預填充與生成分離”等最佳實踐方面已相當成熟,且在基礎AI領域發表了具有開創性的研究成果;然而,除少數顯著案例外,這些研究論文中常提到訓練過程使用的是西方的GPU。
Omdia首席分析師Alexander Harrowell表示:“中國半導體領域的真正成就體現在CPU而非加速器上。中國基于Arm架構的CPU顯然已實現規模化生產,且通常像亞馬遜云科技(AWS)的Graviton系列那樣針對并行工作負載進行了優化。例如,阿里巴巴的倚天710等產品為企業部署當前一代小型AI模型(如阿里巴巴通義千問3)提供了經濟實惠的解決方案,適用于用戶基數相對較小、工作負載多樣性較高的場景。”
若需使用現代化的GPU,Omdia發現最具競爭力的方案是SK Telecom與Lambda Labs合作打造的“GPU即服務”產品。Omdia注意到,許多中國企業熱衷于將工作負載遷移至防火墻之外,以期獲取現代化GPU和潛在的額外訓練數據。其他重要發現包括:幾乎所有公司如今都提供“模型即服務”平臺,支持微調及其他定制化操作,這已成為企業獲取AI能力最常見的方式之一。中國超大規模云服務商對支持邊緣AI應用尤為感興趣。例如,字節跳動(ByteDance)提供了一套預整合解決方案,可用于監控餐廳廚房并報告廚師是否佩戴了工作帽。