近日,產聯智庫舉辦“AI賦能產業升級與經濟發展”圓桌對話,邀請來自學界、產業界的嘉賓,圍繞2026年AI智能體熱潮、AI與產業融合、中小企業智能化轉型等核心話題展開深入探討。
在對話中,北京工業大學教授、IEEE China Council常務理事兼工業合作與創新委員會主席李文正,結合自身在人工智能大模型與高性能異構計算機群計算領域的深耕經驗,圍繞當前人工智能大模型與智能體發展,Agentic AI時代計算架構的底層范式轉移及算力與電力協同優化創新等核心問題,發表了觀點。
他表示,AI大模型本質是對人類知識的壓縮與對齊,使得機器具有通用對話與生成的能力。當前AI大模型正邁向“Agentic AI”階段,形成“大模型+智能體+環境”的協同生態,深刻影響物理與數字世界。
2026年開年,OpenClaw等開源智能體的爆火引發了行業對“AI獨立上崗”的熱烈討論。
業界普遍關注這波熱潮究竟是巨頭壟斷,還是混戰的開始。Gartner預測多智能體系統將迎來突破之際,如何界定智能體的能力邊界成為焦點。
李文正回顧了人工智能從判別式AI到生成式AI,再到如今Agentic AI的發展歷程。他指出,大模型的本質是對人類知識的壓縮與對齊,解決了機器通用對話與生成的能力。智能體的出現,標志著AI大模型從“對話”向“執行真任務”以及“解決真問題”轉變。
他指出,從實現技術路徑上有兩條技術路徑:一條是以OpenAI GPT5.4為代表大一統模型,將大模型原生深度集成到工作流之中,使得 GPT-5.4 原生電腦操作,超越人類,解鎖電腦操作,讓AI大模型從對話工具變成執行智能體;另一條是以Anthropic Claude Opus 4.6為代表多AI Agent協同大框架。
從產品形態上,兩個名字尤為耀眼,一個是體驗極致的全球首款通用型 AI 智能體Manus,另一個是開源新星OpenClaw。Manus是定位通用型自主AI智能體,屬于數字員工,主要運行在云端。OpenClaw定位是開源的本地AI智能體框架,打造自己的數字分身,在數字世界里執行任務,主要運行在自己的本地電腦設備上。Manus 、OpenClaw無自有模型,依靠大框架、工具與生態與強大模型適配與優化。
他強調,Agentic AI強調AI系統以高度自治、主動、目標驅動的運作范式。Agentic AI時代的核心特征是自治性、感知能力、決策/推理能力、行動能力、目標導向。從而使AI大模型從“對話”到“執行”邁向“多智能體協同”新階段。
AI大模型演進趨勢是從 “對話”到“執行”,從“會說”到“會做”
從“對話”到“執行”走向“解決真問題,真解決問題”,但對于企業而言,既是挑戰又是機遇,機遇與挑戰并存。
李文正表示,AI智能體的發展仍處于快速發展的初級階段,未來仍需聚焦數字空間智能與物理世界的深度融合,數字空間智能如何與現實物理世界對應,并建立起有意義的聯結?成為關注熱點。即符號落地問題的解決, 這樣才能真正實現從“會說”到“會做”的跨越。
在談到Agentic AI時代如何影響未來智慧城市運營與城市基礎設施時,李文正首先分析了Agentic AI時代智慧城市的特點,他把智慧城市比喻為從一個“能看、能思考”的城市大腦,進化為一個“能動手、能執行”的城市智能體。這不僅意味著城市運營模式的徹底變革,更對城市的智能基礎設施提出了前所未有的苛刻要求。
智能體的自主決策與執行能力,將推動城市運營實現三大躍遷:
1. 運營模式:從“被動處置”到“主動預防”
2. 服務體驗:從“千人一面”到“極致個性化”
3. 管理對象:從“物理空間”到“虛實融合”
這些變化對城市智能基礎設施將帶來四大核心挑戰:
1. 算力架構:從“中心化”到“云邊端一體化”的實時協同
智能體需要實時處理海量數據并做出毫秒級響應,這要求算力必須下沉。例如,一個城市要處理數萬路攝像頭,需構建從云端訓練到邊緣端推理的協同架構。這要求網絡具備高吞吐、低時延能力。
2. 數據治理:從“部門孤島”到“全域融合”的語義理解
智能體要理解復雜城市事件,必須打破部門之間的數據壁壘,實現跨模態數據的融合,讓智能體能夠即時檢索理解歷史數據并做出精準決策。
3. 信任體系:從“技術工具”到“權力代理”的倫理對齊
當智能體自主控制交通信號或派遣應急資源時,它已成為實際上的“權力代理”。這帶來了尖銳挑戰:我們敢不敢用?這要求基礎設施內置可解釋性、偏見檢測機制,并通過數字孿生沙盤先模擬驗證再執行。
4. 容錯標準:從“體驗降級”到“生命攸關”的零故障容忍
對話問答場景出錯只是體驗問題,但交通指揮或應急調度出錯則可能危及生命。這意味著城市核心系統對智能體的容錯度極低。
Agentic AI時代智慧城市核心特征是從“連接”與“感知”走向極致的“人智共創”這不僅是一場技術升級,更是一次城市治理理念的深刻變革。未來的城市基礎設施,將是一個集算力、數據、知識和倫理于一體的“城市有機生命體”的神經系統。
降低大模型幻覺:自驗證與算力成本平衡
最近新加坡國立大學和OpenAI發表了一篇文章,指出幻覺不可避免,幻覺是大語言模型固有的局限性。為了減少AI幻覺,一種方法就是增強模型的邏輯推理能力即讓AI做更復雜的推理計算,復雜的推理計算對算力消耗自然也會增加。因此, 如何減少大模型幻覺成為研究熱點。
李文正引用丹尼爾·卡內曼(Daniel Kahneman)在其著作《思考,快與慢》(Thinking, Fast and Slow)的雙系統理論,指出人腦存在兩個思維系統,具有直覺思維“快思考”與理性思維“慢思考”。
受其啟發, OpenAI o1, DeepSeek-R1等為代表的推理模型(Large Reasoning Models,LRMs)通過“鏈式思維”(Chain-of-Thought,CoT)或自我反思機制等技術路徑,有效提升了復雜推理任務的解決能力。
Reasoning model(推理模型)能有效減少幻覺,思維鏈(CoT)是一種引導AI模型進行分步推理的技術,本質是強迫模型從直覺思維“快思考”切換到理性思維“慢思考”。推理時延長思維鏈能有效提升了對復雜推理任務的解決能力,減少了幻覺。如何讓模型“深思熟慮”以減少幻覺,又希望其“思考成本”不要太高昂,這便是研究熱點。
如何平衡模型性能與算力成本問題?李文正表示,平衡之道不在于“一刀切”,而在于“動態決策”與“架構創新”。核心思路是:簡單任務的請求通過直覺思維,把邏輯復雜問題場景時,切換到理性思維的推理計算單元,并不斷優化計算的效率。
具體可以從以下幾個層面來理解:
1. 模型設計:從“通用全能”到“專家分工”
混合專家模型(MoE):這種架構本身就是對“平衡”的詮釋。它不像一個巨大的單一模型那樣,處理任何問題都要激活全部參數,而是將一個任務分解,只讓相關的“專家”模塊工作。MoE是目前解決模型性能與成本矛盾的主流范式。
2. 推理策略:從“簡單堆算力”到“動態優化”
結合直覺思維“快思考”和理性思維“慢思考”的思想。讓模型優先調用快速模式,只有遇到邏輯復雜問題場景時,才切換至慢速、高精度的推理模式。
3. 工程優化:從“硬件堆料”到“榨干性能”
在硬件和工程層面進行優化,用”數學補物理”。
總之,從“追求單次完美”到“追求系統最優”,是平衡模型性能與算力成本有效途徑。DeepSeek通過架構創新和算法優化的工程化路線是平衡大模型性能與算力成本的杰出代表。
Agentic AI時代算力決定速度,內存決定上限
李文正表示,人工智能大模型本身是一個AI基礎設施即AI Infra, Agentic AI時代計算重點正從“浮點運算量”轉向“邏輯編排效能”,從"大規模矩陣運算"轉向"高頻交互式協調計算"計算范式躍遷和結構性變革, CPU已由“通用處理器”轉型為Agentic AI時代高頻交互式AI推理優化處理器。
AI大模型推理需要與大模型推理相適配處理器,其原因在于AI大模型推理存在兩個階段有著截然不同計算特性和計算需求。在AI大模型推理 Prefill(預填充)階段,處理輸入序列的所有 token類似于訓練過程,是計算密集型的,但在Decode(解碼)階段則是自回歸(存儲密集型),即每一步只生成一個輸出 token,當對話達到數萬乃至百萬token 時,KV-Cache(鍵值緩存)的爆炸式增長,系統需要從內存中調取海量的歷史數據,形成“推理內存墻”,“內存主導型”工作負載,內存決定計算性能的上限。
推理是大模型的工作過程,與大模型訓練不同,推理直接面向最終用戶,對延遲、吞吐量和成本有著極其嚴苛的要求。因此, Agentic AI時代對大模型推理計算相適配的算力芯片低時延提出了極致的要求,計算與存儲效率成為了衡量系統整體性能的重要因素。
李文正表示,AI發展邁入Agentic AI時代,多智能體協作、長上下文和深層推理鏈對極致低延遲提出了嚴苛要求。為了解決“推理內存墻”和與“推理延遲”問題,其中讓計算向數據靠近計算單元即近存計算成為關注的熱點, Groq推出的 LPU憑借在SRAM片上實現近存計算,消除HBM訪存瓶頸,成為 AI大模型推理加速的近存計算AI芯片。
因此,Groq LPU靠極速推理倍受關注。在Agentic AI 元年,英偉達天價收購Groq, 獲取Groq LPU推理技術與Rubin GPU通過極致協同設計, 由Rubin GPU負責大規模并行計算的Prefill階段,而LPU專門負責Decode階段,以實現低延遲的Token生成,使得GPU+LPU精準適配大模型推理計算需求。這樣英偉達憑借大模型訓練的長期主導地位,與Groq LPU在推理側極速推理優勢相結合,開啟Agentic AI時代將觸發計算架構的底層范式轉移,從“訓練霸主”走向“推理主權”。
他指出, Cerebras Systems公司設計是從根本上解決“內存墻”問題,即計算單元與存儲單元之間數據搬運造成的延遲和能耗瓶頸。通過將海量計算核心和高速片上存儲(SRAM)集成在一起,極大減少了芯片間通信開銷,從而在特定AI推理任務中實現了比傳統GPU集群高數十倍的運算速度。
如果Cerebras是將數據移動的距離縮到最短,那么Taalas公司則試圖徹底消除數據移動。Taalas專注于開發“模型專用集成電路”(MSIC),通過將大模型直接固化在硬件中實現極致推理性能,其首款產品HC1芯片制造過程中將模型權重直接硬編碼到芯片的晶體管電路中。這意味著權重不再是存儲在內存中等待加載的數據,而是成為芯片物理結構的一部分,模型變成了專用集成電路(ASIC)模型即芯片。
算力與電力協同優化創新
在算力需求呈指數級增長的背景下,如何應對電力供應的挑戰,實現算力與電力可持續發展。李文正表示,全球 AI 大模型技術呈現出快速迭代、規模持續擴大、效率顯著提升的發展趨勢。
以 OpenAI 的 GPT 系列為代表,從 GPT-3 的 1750 億參數發展到GPT-4 的預估 1.7 萬億參數規模,再到 GPT-5 可能達到 3 至 50 萬億參數,模型參數量呈指數級增長。同時, 在Scaling law驅動下,規模至上以及 Scaling law 邊界挑戰正成為科技巨頭競逐的新高地。
科技巨頭大廠持續挑戰Scaling Law極限以期望尋求“新涌現”“新奇點”。隨著人工智能模型參數規模從千億級邁向萬億級,大模型海量計算對算力需求正經歷爆炸式增長,傳統的數據中心無法滿足需求,數據中心擴展和電力供應成為關注的焦點。
美國xAI超級計算機Colossus2投入運行,開啟全球首個吉瓦級規模的AI訓練集群,最近xAI獲批部署41臺天然氣輪機, 發電容量約1.2吉瓦為Colossus 2數據中心供電。
李文正表示,面向人工智能大模型,高性能超級節點及集群是實現大模型scaling laws的最佳方法, 高性能計算集群從千卡、萬卡,邁入十萬卡大關。Meta、微軟&OpenAI、xAI等多家AI巨頭陸續宣布或者完成10萬卡集群。面對10萬卡集群, 電力與算力的深度耦合,電力供應成為新的挑戰。
OpenAI和英偉達聯合發布的一項研究顯示,隨著AI大模型訓練規模急劇擴張至數萬GPU集群,其功耗的劇烈波動正對數據中心基礎設施構成前所未有的挑戰。研究發現,單個訓練任務的功率波動可達數十兆瓦級別,這種大規模同步負載變化不僅威脅數據中心供電穩定,更可能對整個電網系統造成潛在風險。
為應對這一挑戰,我國推動算力-電力協同,實現算力調度與智能化運營, 發改委等三部門印發《加快構建新型電力系統行動方案(2024—2027年)》,其中,實施一批算力與電力協同項目。同時,他也提出了“算力與電力協同”的解決方案并建議利用AI賦能電力調度優化,算力與電力協同優化創新,依托“東數西算”戰略,探索太空數據中心、海底數據中心等新型數據中心基礎設施,通過系統優化來積極應對。
4001102288 歡迎批評指正
All Rights Reserved 新浪公司 版權所有
