Founders Fund、Pantera 與 Franklin Templeton 加入 Sentient 的 “Arena”,對企業級 AI 智能體進行壓力測試

By: rootdata|2026/02/27 23:14:02
0
分享
copy

過去兩年裡,企業一直在加速把 AI 智能體引入真實工作流程:從客服、後台運營,到金融與合規等需要高強度決策的流程。隨著這些系統越來越多地被嵌入實際業務,一個新問題正在浮現:智能體能夠檢索信息,但當工作變得"髒"、多步驟、或高風險時,它們往往難以給出穩定、可解釋、可複現的推理過程。

今天,開源 AI 實驗室 Sentient 正式推出 Arena------一個實時、可投入生產級使用的環境,面向全球數千名 AI 開發者,用來對各種企業最難的推理問題進行壓力測試與競賽式迭代。Arena 初始階段的首批參與陣容包括 Founders Fund、Pantera,以及管理資產規模超過 1.5 萬億美元的 Franklin Templeton(富蘭克林邓普顿)------這也釋放出一個信號:機構正在對"在上線部署前,對 AI 智能體進行結構化評測"產生早期、明確的興趣。

"當企業把 AI 智能體應用到研究、運營和面向客戶的工作流時,問題已經不再是這些系統是否足夠強大......而是它們在真實工作流中是否可靠。"Franklin Templeton Digital Assets(富蘭克林邓普顿數字資產)管理合夥人 Julian Love 表示。Love 補充說,像 Arena 這樣的結構化環境,將幫助行業把"有潛力的想法"和"真正能用於生產的能力"區分開來。

Sentient 聯合創始人 Himanshu Tyagi 表示:"AI 智能體在企業內部不再只是實驗;它們正在進入會觸及客戶、資金和運營結果的關鍵流程。這種變化改變了評判標準。系統在演示裡看起來很驚艷還不夠。企業需要知道:在生產環境裡,當失敗代價很高、信任又非常脆弱時,智能體是否還能穩定地推理。企業需要可比性、可重複性,以及一種不依賴底層模型或工具棧、能夠長期跟蹤可靠性提升的方法。"

Arena 模擬了企業工作流的真實混亂:信息不完整、上下文很長、指令含糊、來源相互衝突。Arena 不只評判智能體是否給出"正確答案",而是記錄完整的推理軌跡(reasoning trace),以便工程團隊定位失敗原因,並長期驗證改進是否有效。

這為跨模型、跨技術棧的推理評估提供了一個中立、與廠商無關的基準(vendor-agnostic benchmark)。Arena 強調生產級表現而非 Demo 表現,從而形成可驗證、適用於高風險場景的智能體能力,企業也可以把這些能力遷移到自己的私有數據和內部工具上。

在第一項挑戰中,加入 Arena 的開發者將聚焦一個企業級基礎難題:文檔推理(document reasoning)。AI 智能體需要對複雜、非結構化數據進行推理與計算------這類工作是金融分析、根因調查、投資備忘錄撰寫、客戶服務等場景的底層支撐。

初始階段的其他參與方還包括 alphaXiv、Fireworks、OpenHands、OpenRouter 等;隨著 Arena 在任務、行業與模型集成上的擴展,預計還會有更多參與者加入。

近期調研也凸顯了 Arena 試圖解決的缺口:85% 的企業表示希望成為"智能體企業(agentic enterprises)",近四分之三計劃部署自治智能體,但真正擁有成熟治理體系的不到四分之一;許多企業難以把試點擴展到大規模生產部署。企業平均已經在運行約十幾個智能體,通常分散在各自孤立的場景中;不少企業認為,如果沒有更好的編排與協同能力,繼續增加智能體只會帶來複雜度上升,價值反而下降。

"在 OpenHands,我們一直很願意支持開發者使用智能體解決真實、實用的問題。"OpenHands 首席科學家兼聯合創始人 Graham Neubig 表示,"我們也很高興支持參賽者使用 OpenHands Software Agent SDK 來應對這些複雜挑戰。"

OpenRouter 聯合創始人兼 CEO Alex Atallah 表示:"Arena 正是那種能推動開源 AI 向前的計劃------它讓研究者可以在公開環境中競爭、迭代和創新。我們很期待與 Sentient 加深合作,並提供基礎設施,讓實驗更快、更容易規模化。"

Arena 將面向全球啟動,邀請數千名 AI 開發者申請加入第一期限定隊列,並從 2026 年 3 月起在舊金山舉行線下活動。

關於 Sentient Labs

Sentient Labs 是一家領先的技術研究與產品組織,致力於推動開源 AI 的發展。作為 Sentient Foundation 旗下的創新引擎,Sentient Labs 在 AI 推理、對齊與智能體協作等方向開展前沿研究。Sentient 是 ROMA 等高性能框架以及 Dobby 等開源模型的核心研發方。Sentient 的使命是讓開源 AI 從"實驗"走向"必需"。通過提供構建強大、可組合智能體系統的基礎設施,Sentient 讓開發者能夠對開源工具實現商業化,並達到企業級可用性。Sentient 致力於推動開源成為全球關鍵任務 AI 操作的默認標準。

猜你喜歡

彭博社:一場被加密交易員干預的羅馬尼亞總統選舉

數字操縱下的羅馬尼亞選舉迷局。

傑克·多西旗下Block公司大舉裁員4,000人,轉向AI驅動重組

主要觀點 Block公司大幅裁減4,000員工,裁員數量佔總員工數的40%,以實現更具效率的AI驅動運營。 儘管大規模裁員,Block公司的盈利未受到負面影響,反而實現了24%年增長率的毛利。 此次重組是由AI能力的迅速增長驅動的,與其他如Animoca等公司類似,AI和區塊鏈應用已成為2026年主要發展計畫。 市場對此重組持樂觀態度,Block股價因效率提升預期上漲23%。 若Block在減少員工後仍能維持收入增長,預期會激發更多金融科技公司仿效其重組模式。 WEEX Crypto News, 2026-02-27 15:43:52 Block與AI轉型:究竟發生了什麼? 在這場重大組織變革中,Block公司決定以更為瘦身的戰略實現運營效率的提升。傑克·多西明確指出,他面臨兩個選擇:要麼在多年中緩慢減少人員,以應對業務發展的需求,要麼如實面對現實,立即採取行動。他選擇了後者,因而立刻展開大規模裁員,將公司人數從超過10,000削減到接近6,000。 受影響的員工以美國工作人員為主,將獲得20週的遣散費,並根據其任期額外增加一週支付。儘管裁員規模龐大,Block仍在盈利上超過預期,實現了24%年增長率的毛利。這一財務應對為多西的轉型舉措提供了支撐,使得公司能夠從相對強勢的位置出發,而非因絕境驅動。 多西在給員工的信中提到,AI能力的“快速加速”是這次重組的推動力。他指出,Block已經看到了他們創建和使用的AI工具所帶來的新工作方式。這種觀點與如Animoca等公司類似,AI代理和區塊鏈效用已成為2026年發展計畫的核心。 此次重組也反映了多西曾在X(前稱Twitter)觀察到的策略。埃隆·馬斯克曾裁減Twitter近80%的員工,但平台仍然保持運營,這影響了多西對企業膨脹現象的看法。 對於Block比特幣策略的影響 對於加密貨幣投資者來說,關鍵問題是這將如何影響Block的大規模比特幣投資。答案在於公司現金流的自由程度。藉由削減40%的工資開支,Block可望成為一台現金製造機,潛在地釋放更多資本用於其比特幣金庫策略和生態系統的開發。…

為什麼零售投資者從加密貨幣轉向股票:他們會回來嗎?

重點摘要 零售投資者在加密市場的活躍度大幅下降,資本正逐步流向股票市場。 現貨交易量下降25%到30%,杠桿率下降28%,顯示出投資者的撤退。 在2026年1月,零售投資者向股票和期權市場投入了超過700萬美元。 比特幣的波動性比納斯達克低於2倍,吸引力相對下降。 AI驅動的股票成為新的投機焦點,加密市場喪失了以往的衝力。 WEEX Crypto News, 2026-02-27 15:43:52 零售虛擬資產流動性的數據深入分析 從加密貨幣市場的活動大幅減少可以看出,零售投資者的重心正在轉移。自從比特幣價格達到126,000美元的高峰後暴跌46%以來,這種情況尤其明顯。資金從加密市場中撤出,轉向股票,其中股市的穩定性成為吸引零售資金的重要原因。 根據最新數據,加密市場的杠桿率下降28%,由0.1980滑落至0.1414,這顯示出投機活動的冷卻。尤其在主要交易所如Binance,每日交易量下跌約16.4%,至240億美元。這時行情更多依賴於機構投資者的被動流動,而非過去的高度投機。 零售投資者從加密貨幣轉向股票的趨勢 在2026年1月,零售投資者注資350萬美元,在期權市場再投入超過300萬美元,這樣的流動量打破了記錄。零售投資者選擇股票而非現金,顯示對股市的信心加強。納斯達克的交易震盪相對較小,使其成為吸引零售投資者的理想選擇。 與此同時,傳統投資者仍在透過ETF參與加密市場,但這些投資較為穩定,不太可能引發市場的爆發性增長。投資者使用AI技術分析股票收益,尋找市場優勢,而加密貨幣市場因缺乏這樣的透明度和動力,顯得相對乏力。 加密貨幣市場的未來展望…

Canton Crypto Network vs. XRP:解析DTCC基礎設施及流動性需求

關鍵重點 Canton Network與XRP如何互補:Canton Network提供私有鏈上記錄,而XRP則提供全球流動性支援。 區塊鏈科技的演進:Canton透過Daml智慧合約語言,助力金融機構在不同私有區塊鏈間同步資料。 全球金融機構的採用趨勢:倚賴Canton Network及XRP進行清算同步與流動性管理。 兩者的生態系統角色:Canton Network作為數位公證人,而XRP則充當價值的運送機制。 WEEX Crypto News, 2026-02-27 15:43:52 Canton Network: 私有加密帳本的原子結算 Canton…

Axiom 加密貨幣曝光:ZachXBT 指控內部交易達 40 萬美元

主要要點 Axiom 內部被揭露出一個涉嫌內幕交易的環,據稱員工藉此獲利超過 40 萬美元。 該狀況揭示出 Axiom 在內部管制上的重大缺失,導致未經授權的員工能夠訪問用戶敏感資料。 Axiom 每年收入高達 3 億 9 千萬美元,但內控措施落後於公司增長速度,被批评为治理的缺失。 此次事件對 Axiom 的名譽造成了重大損害,並可能面臨監管機構的深入調查。 WEEX…

以太坊2029路線圖:ETH將成為高速價值互聯網

重要要點 以太坊的新“草圖”(Strawmap)設定到2029年的目標,計劃將交易結算的最終確定時間從目前的約16分鐘縮短至幾秒鐘。 草圖旨在在第一層(Layer 1)實現每秒1,0000筆交易(TPS),並使用zkEVMs和實時證明技術實現每秒1 gigagas的處理速度。 此新計劃包括在未來實施多達七次硬分叉,以支持更高效和高吞吐量的底層架構。 以太坊不再完全依賴於第二層(Layer 2)擴容解決方案,並意圖使基層變得更快、更強,以應對傳統金融系統的競爭壓力。 在未來以人工智能驅動的區塊鏈應用中,快速的交易最終性對於代理執行複雜的鏈上策略至關重要。 WEEX Crypto News, 2026-02-27 15:43:52 在2029年的背景下,以太坊(Ethereum)不僅描繪了一個宏大的願景,也設置了一個實際的時間表來優化其核心技術能力和市場價值。其制定的新“草圖”(Strawmap)計劃在2029年實現高速處理與網絡性能提升的多項目標,這無疑將對以太坊的長期價格評估產生顯著影響。 以太坊草圖:10,000 TPS與即時最終性 以太坊現在的目標是實現在第一層(Layer…

熱門幣種

最新加密貨幣要聞

閱讀更多