IOSG: From Compute to Intelligence, Reinforcement Learning-Driven Decentralized AI Investment Map

By: blockbeats|2025/12/23 16:00:11

Original Title: "IOSG Weekly Brief | From Computing Power to Intelligence: Reinforcement Learning-Driven Decentralized AI Investment Map"

Original Author: Jacob Zhao, IOSG Ventures

Artificial Intelligence is transitioning from a primarily "Pattern Matching"-based statistical learning approach to a core capability system based on "Structured Reasoning." The importance of Post-training is rapidly increasing. The emergence of DeepSeek-R1 marks a paradigmatic shift for reinforcement learning in the era of large models. The industry has reached a consensus that Pre-training establishes a model's general capability foundation, and reinforcement learning is no longer just a value alignment tool. It has been proven to systematically improve the quality of the reasoning chain and the complexity of decision-making abilities. It is gradually evolving into a technical path for continuously enhancing intelligence.

Meanwhile, Web3 is restructuring the production relationship of AI through a decentralized computing power network and a cryptographic incentive system. The structural requirements of reinforcement learning for rollout sampling, reward signals, and verifiable training align naturally with blockchain's collaborative computing power, incentive distribution, and verifiable execution. This research report will systematically dissect the AI training paradigm and the principles of reinforcement learning, demonstrate the structural advantages of Reinforcement Learning × Web3, and analyze projects such as Prime Intellect, Gensyn, Nous Research, Gradient, Grail, and Fraction AI.

Three Stages of AI Training: Pre-training, Instruction Fine-tuning, and Post-training Alignment

The full lifecycle of training modern Large Language Models (LLMs) is typically divided into three core stages: Pre-training, Supervised Fine-Tuning (SFT), and Post-training/RL. Each stage is responsible for "building a world model," "injecting task capabilities," and "shaping reasoning and values," with the computational structure, data requirements, and validation difficulties determining the degree of decentralization.

· Pre-training utilizes large-scale self-supervised learning to build the language statistical structure and cross-modal world model of the model, forming the foundation of LLM's capabilities. This stage requires training on a trillion-scale corpus in a globally synchronous manner, relying on homogeneous clusters of thousands to tens of thousands of H100s. The cost accounts for 80–95%, highly sensitive to bandwidth and data copyright, and must therefore be completed in a highly centralized environment.

· 微調（Supervised Fine-tuning）用於注入任務能力與指令格式，數據量小、成本占比約 5–15%，微調既可以進行全參數訓練，也可以採用參數高效微調（PEFT）方法，其中LoRA、Q-LoRA 與 Adapter 是工業界主流。但仍需同步梯度，使其去中心化潛力有限。

· 後訓練（Post-training）由多個迭代子階段構成，決定模型的推理能力、價值觀與安全邊界，其方法既包括強化學習體系（RLHF、RLAIF、GRPO）也包括無 RL 的偏好優化方法（DPO），以及過程獎勵模型（PRM）等。該階段數據量與成本較低（5–10%），主要集中在 Rollout 與策略更新；其天然支持異步與分佈式執行，節點無需持有完整權重，結合可驗證計算與鏈上激勵可形成開放的去中心化訓練網路，是最適配 Web3 的訓練環節。

IOSG: From Compute to Intelligence, Reinforcement Learning-Driven Decentralized AI Investment Map

強化學習技術全景：架構、框架與應用

強化學習的系統架構與核心環節

強化學習（Reinforcement Learning, RL）通過「環境交互—獎勵反饋—策略更新」驅動模型自主改進決策能力，其核心結構可視為由狀態、動作、獎勵與策略構成的反饋閉環。一個完整的 RL 系統通常包含三類組件：Policy（策略網路）、Rollout（經驗採樣）與 Learner（策略更新器）。策略與環境交互生成軌跡，Learner 根據獎勵信號更新策略，從而形成持續迭代、不斷優化的學習過程：

1. 策略網路（Policy）：從環境狀態生成動作，是系統的決策核心。訓練時需集中式反向傳播維持一致性；推理時可分發至不同節點並行運行。

2. 經驗採樣（Rollout）：節點根據策略執行環境互動，生成狀態—動作—獎勵等軌跡。該過程高度並行、通訊極低，對硬體差異不敏感是最適合在去中心化中擴展的環節。

3. 學習器（Learner）：聚合全部 Rollout 軌跡並執行策略梯度更新，是唯一對算力、帶寬要求最高的模組，因此通常保持中心化或輕中心化部署以確保收斂穩定性。

-- 價格

強化學習階段框架（RLHF → RLAIF → PRM → GRPO）

強化學習通常可分為五個階段，整體流程如下所述：

數據生成階段（Policy Exploration）

在給定輸入提示的條件下，策略模型 πθ 生成多條候選推理鏈或完整軌跡，為後續偏好評估與獎勵建模提供樣本基礎，決定了策略探索的廣度。

偏好反饋階段（RLHF / RLAIF）

· RLHF（Reinforcement Learning from Human Feedback）通過多候選回答、人工偏好標註、訓練獎勵模型（RM）並用 PPO 優化策略，使模型輸出更符合人類價值觀，是 GPT-3.5 → GPT-4 的關鍵一環

· RLAIF（Reinforcement Learning from AI Feedback）以 AI Judge 或憲法式規則取代人工標註，實現偏好獲取自動化，顯著降低成本並具備規模化特性，已成為 Anthropic、OpenAI、DeepSeek 等的主流對齊範式。

獎勵建模階段（Reward Modeling）

偏好對輸入獎勵模型，學習將輸出映射為獎勵。RM 教模型「什麼是正確答案」，PRM 教模型「如何進行正確推理」。

· RM（Reward Model） 用於評估最終答案的優劣，僅對輸出打分：

· 過程獎勵模型 PRM（Process Reward Model） 它不再僅評估最終答案，而是為每一步推理、每個 token、每個邏輯段打分，也是 OpenAI o1 與 DeepSeek-R1 的關鍵技術，本質上是在「教模型如何思考」。

獎勵驗證階段（RLVR / Reward Verifiability）

在獎勵信號生成與使用過程中引入「可驗證約束」，使獎勵尽可能來自可複現的規則、事實或共識，從而降低 reward hacking 與偏差風險，並提升在開放環境中的可審計性與可擴展性。

策略優化階段（Policy Optimization）

是在獎勵模型給出的信號指導下更新策略參數 θ，以得到更強推理能力、更高安全性與更穩定行為模式的策略 πθ′。主流優化方式包括：

· PPO（Proximal Policy Optimization）： RLHF 的傳統優化器，以穩定性見長，但在複雜推理任務中往往面臨收斂慢、穩定性不足等局限。

· GRPO（Group Relative Policy Optimization）：是 DeepSeek-R1 的核心創新，通過對候選答案組內優勢分布進行建模以估計期望價值，而非簡單排序。該方法保留了獎勵幅度信息，更適合推理鏈優化，訓練過程更穩定，被視為繼 PPO 之後面向深度推理場景的重要強化學習優化框架。

· DPO（Direct Preference Optimization）：非強化學習的後訓練方法：不生成軌跡、不建獎勵模型，而是直接在偏好對上做優化，成本低、效果穩定，因而被廣泛用於 Llama、Gemma 等開源模型的對齊，但不提升推理能力。

新政策部署階段（New Policy Deployment）

經過優化後的模型表現為：更強的推理鏈生成能力（System-2 Reasoning）、更符合人類或 AI 偏好的行為、更低的幻覺率、更高的安全性。模型在持續迭代中不斷學習偏好、優化過程、提升決策質量，形成閉環。

強化學習的產業應用五大分類

強化學習（Reinforcement Learning）已從早期的博弈智能演進為跨產業的自主決策核心框架，其應用場景按照技術成熟度與產業落地程度，可歸納為五大類別，並在各自方向推動了關鍵突破。

· 博弈與策略系統（Game & Strategy）：是 RL 最早被驗證的方向，在 AlphaGo、AlphaZero、AlphaStar、OpenAI Five 等「完美信息 + 明確獎勵」的環境中，RL 展示了可與人類專家比肩甚至超越的決策智能，為現代 RL 演算法奠定基礎。

· 機器人與具身智能（Embodied AI）：RL 通過連續控制、動力學建模與環境交互，使機器人學習操控、運動控制和跨模態任務（如 RT-2、RT-X），正快速邁向產業化，是現實世界機器人落地的關鍵技術路線。

· 數位推理（Digital Reasoning / LLM System-2）：RL + PRM 推動大模型從「語言模仿」走向「結構化推理」，代表成果包括 DeepSeek-R1、OpenAI o1/o3、Anthropic Claude 及 AlphaGeometry，其本質是在推理鏈層面進行獎勵優化，而非僅評估最終答案。

· 自動化科學發現與數學優化（Scientific Discovery）：RL 在無標籤、複雜獎勵與巨大搜索空間中尋找最優結構或策略，已實現 AlphaTensor、AlphaDev、Fusion RL 等基礎突破，展現出超越人類直覺的探索能力。

· 經濟決策與交易系統（Economic Decision-making & Trading）：RL 被用於策略優化、高維風險控制與自適應交易系統生成，相較傳統量化模型更能在不確定環境中持續學習，是智能金融的重要構成部分。

強化學習與 Web3 的天然匹配

強化學習（RL）與 Web3 的高度契合，源於二者本質上都是「激勵驅動系統」。RL 依賴獎勵信號優化策略，區塊鏈依靠經濟激勵協調參與者行為，使兩者在機制層面天然一致。RL 的核心需求——大規模異構 Rollout、獎勵分配與真實性驗證——正是 Web3 的結構優勢所在。

推理與訓練解耦

強化學習的訓練過程可明確拆分為兩個階段：

· Rollout (探索採樣)：模型基於當前策略生成大量數據，計算密集型但通訊稀疏型的任務。它不需要節點間頻繁通訊，適合在全球分佈的消費級 GPU 上並行生成。

· Update (參數更新)：基於收集到的數據更新模型權重，需高帶寬集中化節點完成。

「推理—訓練解耦」天然契合去中心化的異構算力結構：Rollout 可外包給開放網絡，通過代幣機制按貢獻結算，而模型更新保持集中化以確保穩定性。

可驗證性 (Verifiability)

ZK 與 Proof-of-Learning 提供了驗證節點是否真實執行推理的手段，解決了開放網絡中的誠實性問題。在代碼、數學推理等確定性任務中，驗證者只需檢查答案即可確認工作量，大幅提升去中心化 RL 系統的可信度。

激勵層，基於代幣經濟的反饋生產機制

Web3 的代幣機制可直接獎勵 RLHF/RLAIF 的偏好反饋貢獻者，使偏好數據生成具備透明、可結算、無需許可的激勵結構；質押與削減（Staking/Slashing）進一步約束反饋質量，形成比傳統眾包更高效且對齊的反饋市場。

多智能体強化學習（MARL）潛力

區塊鏈本質上是公開、透明、持續演化的多智能體環境，帳戶、合約與智能體不斷在激勵驅動下調整策略，使其天然具備構建大規模 MARL 實驗場的潛力。儘管仍在早期，但其狀態公開、執行可驗證、激勵可編程的特性，為未來 MARL 的發展提供了原則性優勢。

經典 Web3 + 強化學習專案解析

基於上述理論框架，我們將對當前生態中最具代表性的專案進行簡要分析：

Prime Intellect: 異步強化學習範式 prime-rl

Prime Intellect 致力於構建全球開放算力市場，降低訓練門檻、推動協作式去中心化訓練，並發展完整的開源超級智能技術棧。其體系包括：Prime Compute（統一雲/分布式算力環境）、INTELLECT 模型家族（10B–100B+）、開放強化學習環境中心（Environments Hub）、以及大規模合成數據引擎（SYNTHETIC-1/2）。

Prime Intellect 核心基礎設施組件 prime-rl 框架專為異步分布式環境設計與強化學習高度相關，其餘包括突破帶寬瓶頸的 OpenDiLoCo 通信協議、保障計算完整性的 TopLoc 驗證機制等。

Prime Intellect 核心基礎設施組件一覽

技術基石：prime-rl 異步強化學習框架

prime-rl 是 Prime Intellect 的核心訓練引擎，專為大規模異步去中心化環境設計，通過 Actor–Learner 完全解耦實現高吞吐推理與穩定更新。執行者 (Rollout Worker) 與學習者 (Trainer) 不再同步阻塞，節點可隨時加入或退出，只需持續拉取最新策略並上傳生成數據即可：

· 執行者 Actor（部署工作者）：負責模型推理和數據生成。Prime Intellect 在 Actor 端革命性地集成了 vLLM 推理引擎。vLLM 的 PagedAttention 技術和連續批處理（Continuous Batching）能力使得執行者能夠以極高的吞吐量生成推理軌跡。

· 學習者 Learner（訓練者）：負責策略優化。學習者從共享的經驗回放緩衝區（Experience Buffer）中異步拉取數據進行梯度更新，無需等待所有執行者完成當前批次。

· 協調器 Orchestrator：負責調度模型權重與數據流。

prime-rl 的關鍵創新點

· 完全異步 True Asynchrony：prime-rl 摒棄傳統 PPO 的同步範式，不等待慢節點、無需批次對齊，使任意數量與性能的 GPU 都能隨時接入，奠定去中心化 RL 的可行性。

· 深度集成 FSDP2 與 MoE：通過 FSDP2 參數切片與 MoE 稀疏激活，prime-rl 讓百億級模型在分佈式環境中高效訓練，執行者僅運行活躍專家，大幅降低顯存與推理成本。

· GRPO+（群組相對策略優化）：GRPO 免除 Critic 網路，顯著減少計算與顯存開銷，天然適配異步環境，prime-rl 的 GRPO+ 更通過穩定化機制確保高延遲條件下的可靠收斂。

INTELLECT 模型家族：去中心化 RL 技術成熟度的標誌

INTELLECT-1（10B，2024 年 10 月）首次證明 OpenDiLoCo 能在跨三大洲的異構網路中高效訓練（通信占比 <2%、算力利用率 98%），打破跨地域訓練的物理認知；

智誠-2（32B，2025 年 4 月）作為首個無許可 RL 模型，驗證 prime-rl 與 GRPO+ 在多步延遲、異步環境中的穩定收斂能力，實現全球開放算力參與的去中心化 RL；

智誠-3（106B MoE，2025 年 11 月）採用僅啟動 12B 參數的稀疏架構，在 512×H200 上訓練並實現旗艦級推理性能（AIME 90.8%、GPQA 74.4%、MMLU-Pro 81.9% 等），整體表現已逼近甚至超越規模遠大於自身的中心化閉源模型。

Prime Intellect 此外還構建了數個支援性基礎設施：OpenDiLoCo 通過時間稀疏通信與量化權重差，將跨地域訓練的通信量降低數百倍，使智誠-1 在跨三洲網路仍保持 98% 利用率；TopLoc + Verifiers 形成去中心化可信執行層，以啟動指紋與沙箱驗證確保推理與獎勵數據的真實性；SYNTHETIC 數據引擎則生產大規模高質量推理鏈，並通過流水線並行讓 671B 模型在消費級 GPU 集群上高效運行。這些組件為去中心化 RL 的數據生成、驗證與推理吞吐提供了關鍵的工程底座。智誠系列證明了這一技術棧可產生成熟的世界級模型，標誌著去中心化訓練體系從概念階段進入實用階段。

Gensyn：強化學習核心棧 RL Swarm 與 SAPO

Gensyn 的目標是將全球閒置算力匯聚成一個開放、無需信任、可無限擴展的 AI 訓練基礎設施。其核心包括跨設備標準化執行層、點對點協調網路與無需信任的任務驗證系統，並通過智能合約自動分配任務與獎勵。圍繞強化學習的特點，Gensyn 引入 RL Swarm、SAPO 與 SkipPipe 等核心機制等機制，將生成、評估、更新三個環節解耦，利用全球異構 GPU 組成的「蜂群」實現集體進化。其最終交付的不是單純的算力，而是可驗證的智能（Verifiable Intelligence）。

Gensyn 堆疊的強化學習應用

RL Swarm：去中心化的協作式強化學習引擎

RL Swarm 展示了一種全新的協作模式。它不再是簡單的任務分發，而是一個模擬人類社會學習的去中心化的「生成—評估—更新」循環，類比協作式學習過程，無限循環：

· Solvers（執行者）：負責本地模型推理與 Rollout 生成，節點異構無礙。Gensyn 在本地整合高吞吐推理引擎（如 CodeZero），可輸出完整軌跡而非僅答案。

· Proposers（出題者）：動態生成任務（數學題、程式碼問題等），支持任務多樣性與類 Curriculum Learning 的難度自適應。

· Evaluators（評估者）：使用凍結的「裁判模型」或規則對本地 Rollout 進行評估，生成本地獎勵信號。評估過程可被稽核，減少惡意空間。

三者共同組成一個 P2P 的 RL 組織結構，無需中心化調度即可完成大規模協作學習。

SAPO：為去中心化重構的策略優化算法

SAPO（Swarm Sampling Policy Optimization）以「共享 Rollout 並過濾無梯度信號樣本，而非共享梯度」為核心，通過大規模去中心化的 Rollout 取樣，並將接收的 Rollout 視為本地生成，從而在無中心協調、節點延遲差異顯著的環境中保持穩定收斂。相較依賴 Critic 網路、計算成本較高的 PPO，或基於組內優勢估計的 GRPO，SAPO 以極低帶寬使消費級 GPU 也能有效參與大規模強化學習優化。

通過 RL Swarm 與 SAPO，Gensyn 證明了強化學習（尤其是後訓練階段的 RLVR）天然適配去中心化架構——因為其更依賴於大規模、多樣化的探索（Rollout），而非高頻參數同步。結合 PoL 與 Verde 的驗證體系，Gensyn 為兆級參數模型的訓練提供了一條不再依賴單一科技巨頭的替代路徑：一個由全球數百萬異構 GPU 組成的、自我演化的超級智能網路。

Nous Research：可驗證強化學習環境 Atropos

Nous Research 正在構建一套去中心化、可自我進化的認知基礎設施。其核心組件——Hermes、Atropos、DisTrO、Psyche 與 World Sim 被組織成一個持續閉環的智能演化系統。不同於傳統「預訓練—後訓練—推理」線性流程，Nous 採用 DPO、GRPO、拒絕採樣等強化學習技術，將數據生成、驗證、學習與推理統一為連續反饋回路，打造持續自我改進的閉環 AI 生態。

Nous Research 組件總覽

模型層：Hermes 與推理能力的演進

Hermes 系列是 Nous Research 面向用戶的主要模型介面，其演進清晰展示了行業從傳統 SFT/DPO 對齊向推理強化學習（Reasoning RL）遷移的路徑：

· Hermes 1–3：指令對齊與早期代理能力：Hermes 1–3 依賴低成本 DPO 完成穩健指令對齊，並在 Hermes 3 借助合成數據與首次引入的 Atropos 驗證機制。

· Hermes 4 / DeepHermes：通過思維鍊將 System-2 式慢思考寫入權重，以 Test-Time Scaling 提升數學與程式碼性能，並依賴「拒絕採樣 + Atropos 驗證」構建高純度推理數據。

· DeepHermes 進一步採用 GRPO 替代難以分佈式落地的 PPO，使推理 RL 能在 Psyche 去中心化 GPU 網路上運行，為開源推理 RL 的可擴展化奠定工程基礎。

Atropos：可驗證獎勵驅動的強化學習環境

Atropos 是 Nous RL 體系的真正樞紐。它將提示、工具呼叫、程式碼執行和多輪交互封裝成標準化 RL 環境，可直接驗證輸出是否正確，從而提供確定性獎勵信號，替代昂貴且不可擴展的人類標註。更重要的是，在去中心化訓練網路 Psyche 中，Atropos 充當「裁判」，用於驗證節點是否真實提升策略，支持可審計的 Proof-of-Learning，從根本上解決分佈式 RL 中的獎勵可信性問題。

DisTrO 與 Psyche：去中心化強化學習的優化器層

傳統 RLF（RLHF/RLAIF）訓練依賴中心化高帶寬集群，這是開源無法複製的核心壁壘。DisTrO 通過動量解耦與梯度壓縮，將 RL 的通信成本降低幾個數量級，使訓練能夠在互聯網帶寬上運行；Psyche 則將這一訓練機制部署在鏈上網絡，使節點可以在本地完成推理、驗證、獎勵評估與權重更新，形成完整的 RL 閉環。

在 Nous 的體系中，Atropos 驗證思維鏈；DisTrO 壓縮訓練通信；Psyche 運行 RL 迴圈；World Sim 提供複雜環境；Forge 採集真實推理；Hermes 將所有學習寫入權重。強化學習不僅是一個訓練階段，而是 Nous 架構中連接數據、環境、模型與基礎設施的核心協議，讓 Hermes 成為一個能在開源算力網絡上持續自我改進的活體系統。

Gradient Network：強化學習架構 Echo

Gradient Network 核心願景是通過「開放智能協議棧」（Open Intelligence Stack）重構 AI 的運算範式。Gradient 的技術棧由一組可獨立演化、又異構協同的核心協議組成。其體系從底層通信到上層智能協作依次包括：Parallax（分佈式推理）、Echo（去中心化 RL 訓練）、Lattica（P2P 網絡）、SEDM / Massgen / Symphony / CUAHarm（記憶、協作、安全）、VeriLLM（可信驗證）、Mirage（高保真仿真），共同構成持續演化的去中心化智能基礎設施。

Echo—強化學習訓練架構

Echo 是 Gradient 的強化學習框架，其核心設計理念在於解耦強化學習中的訓練、推理與數據（獎勵）路徑，使 Rollout 生成、策略優化與獎勵評估能夠在異構環境中獨立擴展與調度。在由推理側與訓練側節點組成的異構網絡中協同運行，以輕量同步機制在廣域異構環境中維持訓練穩定性，有效緩解傳統 DeepSpeed RLHF / VERL 中推理與訓練混跑導致的 SPMD 失效與 GPU 利用率瓶頸。

Echo 採用「推理–訓練雙群架構」實現算力利用最大化，雙群各自獨立運行，互不阻塞：

· 最大化採樣吞吐：推理群 Inference Swarm 由消費級 GPU 與邊緣設備組成，通過 Parallax 以 pipeline‐parallel 構建高吞吐採樣器，專注於軌跡生成；

· 最大化梯度算力：訓練群 Training Swarm 由可運行於中心化集群或全球多地的消費級 GPU 網路，負責梯度更新、參數同步與 LoRA 微調，專注於學習過程。

為維持策略與數據的一致性，Echo 提供順序（Sequential）與異步（Asynchronous）兩類輕量級同步協議，實現策略權重與軌跡的雙向一致性管理：

· 順序拉取（Pull）模式｜精度優先：訓練側在拉取新軌跡前強制推理節點刷新模型版本，從而確保軌跡新鮮度，適合對策略陳舊高度敏感的任務；

· 異步推拉（Push–Pull）模式｜效率優先：推理側持續生成帶版本標籤的軌跡，訓練側依自身節奏消費，協調器監控版本偏差並觸發權重刷新，最大化設備利用率。

在底層，Echo 構建於 Parallax（低帶寬環境下的異構推理）與輕量化分佈式訓練組件（如 VERL) 之上，依賴 LoRA 降低跨節點同步成本，使強化學習可在全球異構網路上穩定運行。

Grail：Bittensor 生態的強化學習

Bittensor 透過其獨特的 Yuma 共識機制，構建了一個巨大的、稀疏的、非平穩的獎勵函數網路。

Bittensor 生態中的 Covenant AI 則通過 SN3 Templar、SN39 Basilica 與 SN81 Grail 構建了從預訓練到 RL 後訓練的垂直一體化流水線。其中，SN3 Templar 負責基礎模型的預訓練，SN39 Basilica 提供分佈式算力市場，SN81 Grail 則作為面向 RL 後訓練的「可驗證推理層」，承載 RLHF / RLAIF 的核心流程，完成從基礎模型到對齊策略的閉環優化。

GRAIL 的目標是以加密方式證明每個強化學習 rollout 的真實性與模型身份綁定，確保 RLHF 能夠在無需信任的環境中被安全執行。協議通過三層機制建立可信鏈條：

1. 確定性挑戰生成：利用 drand 隨機信標與區塊哈希生成不可預測但可複現的挑戰任務（如 SAT、GSM8K），杜絕預計算作弊；

2. 通過 PRF 索引採樣與 sketch commitments，使驗證者以極低成本抽檢 token-level logprob 與推理鏈，確認 rollout 確由聲明模型生成；

3. 模型身份綁定：將推理過程與模型權重指紋及 token 分布的結構性簽名綁定，確保替換模型或結果重放都會被立即識別。由此，為 RL 中推理軌跡（rollout）提供了真實性根基。

在此機制上，Grail 子網實現了 GRPO 風格的可驗證後訓練流程：礦工為同一題目生成多條推理路徑，驗證者依據正確性、推理鏈質量與 SAT 滿足度評分，並將歸一化結果寫入鏈上，作為 TAO 權重。公開實驗顯示，該框架已將 Qwen2.5-1.5B 的 MATH 準確率從 12.7% 提升至 47.6%，證明其既能防作弊，也能顯著強化模型能力。在 Covenant AI 的訓練堆中，Grail 是去中心化 RLVR/RLAIF 的信任與執行基石，目前尚未正式主網上線。

Fraction AI：基於競爭的強化學習 RLFC

Fraction AI 的架構明確圍繞競爭強化學習（Reinforcement Learning from Competition, RLFC）和遊戲化數據標註構建，將傳統 RLHF 的靜態獎勵與人工標註替換為開放、動態的競爭環境。代理在不同 Spaces 中對抗，其相對排名與 AI 法官評分共同構成實時獎勵，使對齊過程演變為持續線上的多智能體博弈系統。

傳統 RLHF 與 Fraction AI 的 RLFC 之間的核心差異：

RLFC 的核心價值在於獎勵不再來自單一模型，而來自不斷演化的對手與評估者，避免獎勵模型被利用，並通過策略多樣性防止生態陷入局部最優。Spaces 的結構決定博弈性質（零和或正和），在對抗與合作中推動複雜行為湧現。

在系統架構上，Fraction AI 將訓練過程拆解為四個關鍵組件：

· Agents：基於開源 LLM 的輕量策略單元，通過 QLoRA 以差分權重擴展，低成本更新；

· Spaces：隔離的任務域環境，代理付費進入並以勝負獲得獎勵；

· AI Judges：以 RLAIF 構建的即時獎勵層，提供可擴展、去中心化的評估；

· Proof-of-Learning：將策略更新綁定到具體競爭結果，確保訓練過程可驗證、防作弊。

Fraction AI 的本質是構建了一個人機協同的進化引擎」。用戶作為策略層的「元優化者」(Meta-optimizer)，通過提示工程（Prompt Engineering）和超參配置引導探索方向；而代理在微觀的競爭中自生成海量的高質量偏好數據對 (Preference Pairs)。這種模式讓數據標註通過「去信任化微調」(Trustless Fine-tuning) 實現了商業閉環。

強化學習 Web3 項目架構比較

總結與展望：強化學習 × Web3 的路徑與機會

基於對上述前沿項目的解構分析，我們觀察到：儘管各團隊的切入點（算法、工程或市場）各異，但當強化學習（RL）與 Web3 結合時，其底層架構邏輯皆收斂為一個高度一致的「解耦-驗證-激勵」範式。這不僅是技術上的巧合，更是去中心化網絡適配強化學習獨特屬性的必然結果。

強化學習通用架構特徵：解決核心的物理限制與信任問題

1. 推訓物理分離（Decoupling of Rollouts & Learning）——默認計算拓撲

通信稀疏、可並行的 Rollout 外包給全球消費級 GPU，高帶寬的參數更新集中於少量訓練節點，從 Prime Intellect 的異步 Actor–Learner 到 Gradient Echo 的雙群架構皆如此。

2. 驗證驅動的信任層（Verification-Driven Trust）——基礎設施化

在無需許可的網路中，計算真實性必須通過數學與機制設計強制保障，代表實現包括 Gensyn 的 PoL、Prime Intellect 的 TOPLOC 與 Grail 的密碼學驗證。

3. 代幣化的激勵閉環（Tokenized Incentive Loop）——市場自我調節

算力供給、數據生成、驗證排序與獎勵分配形成閉環，通過獎勵驅動參與、通過 Slash 抑制作弊，使網路在開放環境中依然保持穩定與持續演進。

差異化技術路徑：一致架構下的不同「突破點」

儘管架構趨同，但各專案根據自身基因選擇了不同的技術護城河：

· 算法突破派（Nous Research）：試圖從數學底層解決分佈式訓練的根本矛盾（帶寬瓶頸）。其 DisTrO 優化器旨在將梯度通信量壓縮數千倍，目標是讓家庭寬帶也能跑得動大模型訓練，這是對物理限制的「降維打擊」。

· 系統工程派（Prime Intellect、Gensyn、Gradient）：側重於構建下一代的「AI 運行時系統」。Prime Intellect 的 ShardCast 和 Gradient 的 Parallax 都是為了在現有的網路條件下，通過極致的工程手段壓榨出最高的異構集群效率。

· 市場博弈派（Bittensor、Fraction AI）：專注獎勵函數（Reward Function）的設計。通過設計精妙的評分機制，引導礦工自發尋找最優策略，來加速智能湧現。

優勢、挑戰與終局展望

在強化學習與 Web3 結合的範式下，系統級優勢首先體現在成本結構與治理結構的重寫。

· 成本重塑：RL 後訓練（Post-training）對採樣（Rollout）的需求是無限的，Web3 能以極低成本調動全球長尾算力，這是中心化雲廠商難以比擬的成本優勢。

· 主權對齊（Sovereign Alignment）：打破大廠對 AI 價值觀（Alignment）的壟斷，社區可以通過 Token 投票決定模型「什麼是好的回答」，實現 AI 治理的民主化。

與此同時，這一體系也面臨兩大結構性約束。

· 帶寬牆（Bandwidth Wall）：儘管有 DisTrO 等創新，物理延遲仍限制了超大參數模型（70B+）的全量訓練，目前 Web3 AI 更多局限於微調和推理。

· 古德哈特定律（Reward Hacking）：在高度激勵的網絡中，礦工極易「過擬合」獎勵規則（刷分）而非提升真實智能。設計防作弊的魯棒獎勵函數是永恆的博弈。

· 惡意拜占庭式節點攻擊（BYZANTINE worker）：通過對訓練信號的主動操控與投毒破壞模型收斂。核心不在於持續設計防作弊的獎勵函數，而在於構建具備對抗性魯棒性的機制。

強化學習與 Web3 的結合，本質是在重寫「智能是如何被生產、對齊並分配價值」的機制。其演進路徑可概括為三條互補方向：

1. 去中心化推訓網絡：從算力礦機到策略網絡，將並行且可驗證的 Rollout 外包給全球長尾 GPU，短期聚焦可驗證推理市場，中期演化為按任務聚類的強化學習子網；

2. 偏好與獎勵的資產化：從標註勞工到數據股權。實現偏好與獎勵的資產化，將高質量反饋與 Reward Model 變為可治理、可分配的數據資產，從「標註勞工」升級為「數據股權」

3. 垂直領域的「小而美」進化：在結果可驗證、收益可量化的垂直場景中孵化小而強的專用 RL Agents，如 DeFi 策略執行、程式碼生成，使策略改進與價值捕獲直接綁定並有望跑贏通用閉源模型。

總體來看，強化學習 × Web3 的真正機會不在於複製一個去中心化版 OpenAI，而在於重寫「智能生產關係」：讓訓練執行成為開放算力市場，讓獎勵與偏好成為可治理的鏈上資產，讓智能帶來的價值不再集中於平台，而在訓練者、對齊者與使用者之間重新分配。

原文連結

猜你喜歡

美國司法部開設40億美元的OneCoin申請賠償平台

美國司法部推出了一個專供OneCoin受騙投資者申請賠償的平台，涉及被詐騙的資金總額達40億美元。平台目前可供索賠的金額超過4千萬美元，資金來自犯罪資產沒收，特別是與Konstantin Ignatov相關的資金。索賠截止日期為2026年6月30日，投資者需在此之前提交相關損失證明。可用資金相對於被盜的總金額來說僅為九牛一毛，投資者最多只能拿回每美元被盜資金的一分。主謀「加密女王」Ruja Ignatova仍然在逃，被列入聯邦調查局十大頭號通緝名單。 WEEX Crypto News, 美國司法部OneCoin申請賠償平台的運作美國司法部新推出的平台允許OneCoin詐騙的受害者申請賠償，平台提供的4千萬美元來自於犯罪資產的沒收。這些資金與被捕的共同協作者Konstantin Ignatov相關，他被控以電信欺詐和洗錢罪名。受害者需提交經過文件證明的索賠，司法部將根據受害者的損失情況進行驗證，並根據獲得的賠償金額按比例分配。平台運作有約束，因為證據不足或法律管轄權的缺乏，使得部分資產無法追回。該詐騙案的實際總損失遠超於司法部可收回的4千萬，造成每名索賠者拿到的金額僅僅是其損失的極小部分。 [放置圖像：OneCoin標誌或詐騙主謀圖片] 美國司法部舉措的成效和挑戰 OneCoin詐騙案的籌劃主腦Karl Sebastian…

以太坊價格預測：ETH 自早上以來上漲 9%，表現優於大多數資產

以太坊價格在過去 24 小時內上漲 9%，目前接近 $2,400 的阻力位。比特幣 ETF 出現淨流出 $325.8 百萬，而以太幣 ETF 流入 $187 百萬，顯示市場資金轉移。以太坊日交易量週比上升 41%，達到約 360…

Foundry迅速攫取Zcash算力近三成份額

Foundry在短短一個月內攫取了Zcash網絡29%的算力，這一速度與ViaBTC的步伐形成鮮明對比。該公司透過提供針對機構礦工的合規基礎設施迅速完成了算力的擴張。 Foundry與ViaBTC各控制約三成算力，意味著Zcash的礦池集中度結構發生改變。 Foundry的進入可能代表去中心化，而逐步上升超過35%則會改變這一敘述。 WEEX Crypto News, Foundry疾速佔領Zcash礦池算力的背後意義 Foundry在短短一個月內就獲得了Zcash網絡算力的29%。這一數字代表著Zcash現存的挖礦環境發生顯著改變，新的算力架構吸引了許多機構礦工。在這種情況下，網絡的安全性必須進行重新評估。Foundry的快速進入與其具備的合規性設計密不可分，確保了在滿足多數機構需求的基礎上，不影響礦池的運行效率。 Foundry將成為Zcash網絡結構的轉折點？ Foundry能否維持其目前的算力份額，將取決於其後續在網絡內部的市場行為。如果Foundry的份額繼續上升到35%以上，那麼最初以去中心化為目的的進入，就可能被解讀為新的中心化趨勢。Zooko Wilcox，Zcash的創始人，表示Foundry的參與有利於分散原本集中於一個池的算力力量，並且提高了整個網絡的反應效率。 Foundry的設施如何滿足機構需求？從Foundry的行為模式可以看出，其在算力池內部組建了一套基於美國監管標準的合規系統，並包含PPLNS支付模式、KYC/AML查驗、SOC 1與SOC 2等同級審計及24/7技術支持服務。這樣的高標準令其成為吸引機構礦工的主要力量，這與其在比特幣池中的表現相互呼應。 Zcash未來的路徑會像比特幣一樣嗎？ Zcash的算力結構迅速演變，機構力量的介入加速了整個網絡的激活程度。Foundry的快速崛起表明，各礦工對於合規池的需求似乎已過時論斷。因此，未來的挑戰在於如何將這種活力轉化為持久的社會信任，而不是回落至過去的集中化狀態。…

比特幣價格預測：80,000 美元即將挑戰熊市

比特幣價格最近達到 74,600 美元，顯示出本月最強勁的反彈。計劃中的地緣政治降溫將可能引發空頭擠壓，使比特幣突破 80,000 美元，甚至上探 83,000-94,000 美元。比特幣 Hyper 正在填補基礎設施的空缺，其二層解決方案有潛力改變市場。在過去 24 小時內，超過 1 億美元的空頭頭寸已被強制平倉。當前的價格僅比 126,000…

白宮揭示「明確法案」突破口：接下來會如何？

聯邦穩定幣地板規定即將成形，支持支付性穩定幣。跨黨派穩定幣收益妥協是解決衝突的關鍵。去中心化金融和高層政府官員的加密貨幣限制問題得以解決。聯邦儲備是否有否決權仍在談判中。國會時間緊逼，2026年5月前需要通過。 WEEX Crypto News, 什麼是穩定幣明確法案在市場基礎設施上的影響？《穩定幣明確法案》將為所有支付型穩定幣發行商設置統一的聯邦標準，即便它們有州級執照。目前，穩定幣發行商只能依賴州級的財務傳輸許可，缺少統一的聯邦準則導致大規模機構不願意投入資金進行結算和現金管理。 [Place Image: Screenshot of the Clarity Act draft]…

為什麼加密貨幣上漲？美國重大協議背後的以太坊、HYPE和Solana

以太坊價格接近2400美元，而Solana隨著比特幣攀升75,000美元。美國和伊朗潛在的和平協議激發市場熱情，機構資金流入加速。 Altcoins，如Solana，受宏觀經濟利好推動，展現出上升趨勢。 LiquidChain成為Layer 3基礎設施新興力量，融合跨鏈流動性。預估未來數週，加密市場波動可能持續並隨著協議進展而調整。 WEEX Crypto News, 為什麼今天加密貨幣上漲？目前，加密貨幣市場上行，部分原因歸功於“重大協議”的宏觀影響。該協議可能涉及美國與伊朗之間的和平談判，或影響到去中心化金融（DeFi）結構性優勢的開放及合規性框架。假如協議進展順利，可能會催生機構級加密投資的擴大，使得比特幣達到75,000美元成為目標而非猜測。[Place Image: Screenshot of market data] 美國重大協議的影響特朗普只願意接受20年，而伊朗僅提議暫停核活動5年，這樣的背景下，市場預期美國與伊朗之間可能即將達成一項協議。這帶來了投資者的風險承受能力提升，隨著以太坊和Solana引領市場上漲，這兩種加密貨幣展示出強勁的上升勢頭。…

XRP價格預測：達到1000美元並非不可能

XRP價格本周下跌2%，恐懼與貪婪指數固定在16。技術分析顯示XRP可能接近結構性底部。分析師預測如果機構採用Ripple的結算基礎設施，2026年XRP可能達到1000美元。長期看多基礎包括美元疲弱、機構的加密基礎設施建設和Ripple的持續收購。 Vandell提醒我們，資產價格上限在持續的法定貨幣貶值背景下只是理論。 WEEX Crypto News, XRP價格預測：能否達到$1000? 圖表首先揭示挑戰 XRP目前價格為$1.32，低於50天均線的$1.40，這是一個很有意義的技術警告。相對強弱指數（RSI）處於43，顯示中性，過去30天僅40%收綠。支持位在$1.30，這與算法推導的2026年基準底部估計一致。阻力位則在$1.60，若突破，可能激活分析師的Fibonacci目標，預期在6-12個月內達到$4.50。要達到$1000的目標，依現供應計算市值需超過$57兆美元。Vandell的框架提醒我們，法定貨幣價值的變動也是不可忽視的重要因素。 [Place Image: Screenshot of current XRP…

樂天擴大Ripple XRP的實用性至4400萬用戶：大規模採用還是增量更新？

樂天於2026年4月15日將Ripple XRP整合至其支付系統，包括樂天錢包中的現貨交易。 44,000,000用戶將能通過樂天支付應用使用XRP來購買日常消費品，融入潛力巨大的消費者生態圈。儘管用戶可以通過樂天錢包將積分轉為XRP，但商戶最終仍以日圓結算，降低財務風險。日本的監管政策明確將XRP歸類為加密貨幣，為樂天這類整合鋪平道路。 Liquidchain為解決跨Layer 2的流動性問題，提供了一個新的Layer 3機會，吸引了市場關注。 WEEX Crypto News, 樂天-Ripple XRP整合實際運作機制及其局限樂天於2026年4月15日正式將Ripple XRP引入其支付網絡，這意味著樂天的4400萬用戶可以利用其現有的樂天錢包和支付應用，將積分轉換為XRP，進而用於日常交易。樂天積分並非加密資產，而是一種忠誠度貨幣，每消費一日圓獲得一積分，該公司2022年發行了6200億積分，總值約為230億美元。這次整合帶來的關鍵轉變是用戶可將積分通過樂天錢包轉換為XRP，並存入樂天現金，這是一個電子貨幣層，用於超過500萬個商戶的消費。然而，商家收到的終究是法幣日圓。在用戶支付時，XRP轉換在後台完成，商戶並無任何XRP的金融風險。日本監管已為XRP設立明確的法定地位，不同於證券，這構建了一個進一步發展的法律框架，樂天在這方面並非開創者，而是沿著SBI控股等公司所開辟的道路行進。 Liquidchain如何抓住XRP的早期優勢…

2026年4月最佳加密貨幣購買推薦

比特幣（Bitcoin）保持市場最大佔有率，吸引大量機構資金。 Hyperliquid 的低滑點交易和高頻訂單處理顯示出強大潛力。 Solana 的高效能區塊鏈仍然是智能合約平台的頂級選擇。以太坊的智能合約功能和強大的去中心化應用使其長期看好。 Zcash 的隱私交易技術持續引領市場創新。 WEEX Crypto News, 最佳加密貨幣的特點分析在瞬息萬變的加密貨幣市場中，制定明智的投資策略很關鍵。選擇合適的加密貨幣不僅限於市場活躍度，還需考慮其技術領導力和市場定位。 Bitcoin：無可替代的加密貨幣巨頭比特幣作為去中心化的點對點數碼貨幣，自2009年問世以來，一直是加密貨幣市場的評判標準。其以工作量證明（Proof-of-Work）為基礎的安全性和交易的不可逆成為其一大賣點。今年，摩根士丹利推出的現貨比特幣ETF，首日交易量達到3400萬美元，顯示出其在傳統金融市場中的持久吸引力。[Place Image: Bitcoin ETF…

2026年最佳18個加密貨幣與比特幣賭場

Jackbit提供首存100次免費旋轉。 Betpanda的首存獎金高達1比特幣。 CoinCasino歡迎獎金高達30,000美元並附加50次超級旋轉。 WSM Casino提供高達25,000美元的獎金加50次免費旋轉及10次免費賭注。 Crypto-Games.io首存200%獎金高達20,000 USDT並附加200次免費旋轉。 WEEX Crypto News, 頂級加密賭場簡介加密貨幣賭場在2026年佔據在線博彩的重要地位，提供各種數字資產的支持、多樣的娛樂選擇及卓越的獎勵系統。以下列出的是在推廣活動、遊戲多樣性及用戶體驗方面的最佳選擇： Jackbit：首存100次免費旋轉 Jackbit以其豐富的遊戲選擇和多樣的體育博彩聞名，包括電子競技及虛擬體育賽事。用戶可以使用16種加密貨幣付款，包括比特幣和以太幣，並接受Visa和Mastercard等法定貨幣付款。 [插圖：Jackbit平台截圖] Betpanda：首存獎金高達1比特幣 Betpanda提供豐富的遊戲選擇和低額最低存款需求，並提供額外5%現金返還針對特定遊戲。其現代的用戶界面和豐厚的獎金計劃吸引了許多用戶並行使其30多種加密和法定支付選項。 CoinCasino：迎新獎金高達30,000美元…

全面剖析 KelpDAO 事件：為何 Aave 在未受攻擊的情況下陷入危機

2026年4月18日，116,500枚rsETH跨鏈流入Aave，造成DeFi生態巨大波動。 rsETH價值崩潰，導致Aave出現潛在近2億美元的不良債務。該事件揭示DeFi風險不僅是合約漏洞，還涉及治理鏈和技術鏈的可靠性。 Aave的ETH資金利用率瞬間達到100%，流動性危機十分嚴重。此事件凸顯了在高度組合化系統中風險的重新分配和延遲。 WEEX Crypto News, rsETH事件如何揭示DeFi風險的真相在DeFi的領域內，可靠性已不再僅限於智能合約的安全性，而是要考慮整個技術與治理鏈的完整。在rsETH事件中，來自外部的抵押資產問題，引發了Aave這一去中心化借貸平台前所未有的流動性危機。 KelpDAO和rsETH（為何吸引Aave的目光） KelpDAO代表了一種將ETH和不同質押流動代幣（如stETH，cbETH等）轉化為名為rsETH的流動性令牌的協議。理論上，這些固定在EigenLayer上的基礎資產為rsETH提供了強大支持。因此，Aave將rsETH加入了借貸市場中。然而，這也導致了風險的轉移，Aave的還款能力不僅依賴於自身系統設計，還包括對外部包括跨鏈橋的安全運作的依賴。攻擊路徑：從Kelp的跨鏈橋到Aave v3 此事件始於Kelp DAO基於LayerZero的rsETH跨鏈橋漏洞。攻擊者利用跨鏈信息機制中的缺陷，成功提取了大約116,500枚rsETH，瞬間引發Aave的流動性危機。這些代幣被用作抵押借出了大量的WETH，進一步加劇了危機。 Aave的流動性危機：百分百的資金利用率及“九位數”違約當Kelp…

微策略的 STRC：比特幣的救世主還是毀滅者？

STRC 是微策略為購買比特幣而設計的主要金融工具，利用每股月度股息調整來推動籌資。 STRC 的年化股息回報率為 11.5%，這比美國國債的回報高三倍，吸引了大量資金。微策略通過 STRC 三倍槓桿效應加強比特幣的買方壓力，並新增市場支撐。 STRC 的股息機制提供了顯著的除息日套利機會，吸引了大量交易量。微策略已提出將股息分配頻率改為雙月制，以抑制套利行為，提高資金穩定性。 WEEX Crypto News, STRC 構造與運作 STRC，即可變利率甲系列永續伸展優先股，是微策略用以籌資購買比特幣、並在納斯達克上市的工具。STRC 的股價基本上穩定在…

那斯達克擴大漲幅，創下盤中歷史新高

那斯達克在4月21日達到盤中歷史新高24,537.58點。一個新地址從Binance提取35,000 ETH並轉至BitGo。鯨魚增加了40,000個HYPE代幣，價值約163萬美元。 Kelp DAO攻擊者轉移了50,700 ETH至兩個新地址。 Hyperliquid交易量下降，但TVL仍優於其他平台。 WEEX Crypto News, 市場概況那斯達克在Bitget的市場數據顯示，於2026年4月21日達到盤中最高點位24,537.58點，顯示出強勁的市場需求及信心。[Place Image: Screenshot of Nasdaq chart…

沒有庫克的蘋果，能否在 AI 時代持續增長？

蘋果在2026面臨轉型挑戰，尤其在AI領域落後於競爭對手。在新CEO John Ternus的領導下，蘋果的關鍵成功要素在於能否將硬體優勢轉化為平台優勢。 Ternus在蘋果內部有著深入的了解和協調能力，但缺乏賈伯斯式的產品洞察力。 AI時代，蘋果需要突破過去的硬體導向，尋求新技術方向。蘋果的下一步將決定其在科技領域的長期地位。 WEEX Crypto News, John Ternus的蘋果領導策略 John Ternus在2026年成為蘋果的首席執行官，正值蘋果面臨由AI主導的科技轉型時期。他的任命標誌著蘋果從以往「產品願景＋供應鏈執行」階段轉向需要重新定義增長引擎的新時期。Ternus的領導風格強調內部協同與產品生態系統的重要性，而非單一產品的利潤。[Place Image: Screenshot of John…

鮑威爾：美聯儲需要全新通膨策略

鮑威爾強調若當選美聯儲主席，將推動政策改革，精神是應對過去疫情期間的政策失誤。他主張以全新的通膨框架來替代現有工具，並且改變政策執行方式。具體提到工具多元性，例如未來指引與經濟預測，與會議同步發布政策聲明。在市場動態中，不同大戶活躍轉帳，顯示市場資金流動特性。鮑威爾的意見表明美聯儲需要在經濟操作上尋求新方法，以重獲市場信任。 WEEX Crypto News, 美國聯邦儲備改革的迫切性美聯儲主席暫選人鮑威爾表明，美聯儲處在政策改革的關鍵時期。隨著2020年疫情應對的政策失誤，他表示需要「全新」的通膨策略來應對未來挑戰。他指出，具體改革包括政策工具的更新，如未來指引及經濟預測，並強調應同步發布會議和政策聲明，以避免預測干擾決策過程。重新定義政策工具鮑威爾倡議全面改造現有的經濟管理工具。他說：「我們需要全新工具和通信方式」，並提到未來指引與經濟預測的重要性。他要求美聯儲在會議後再發布政策聲明，以防預測影響政策決策。更新的政策工具將以更透明、實時的溝通模式加強市場信心。巨鯨轉帳活動與市場變動在當前市場環境中，資金流動頻繁，近期一個新地址從Binance提取35,000 ETH，接著轉至BitGo，顯示出市場資金控管的活躍性。另外，一位加密貨幣巨鯨增加了40,000枚HYPE，市值約達163萬美元。而Kelp DAO的一次攻擊中，則有50,700 ETH被轉到兩個新地址，表示加密市場的不確定性和風險控制的重要性。主流Perp…

川普預測：伊朗將遭轟炸，美軍已做好準備

美國總統川普表示，計劃轟炸伊朗，軍方已備戰。一個新地址從幣安提領35,000 ETH轉至BitGo。一名大型持有者增持40,000 HYPE代幣，市值約1.63百萬美元。 Kelp DAO攻擊者轉移50,700 ETH至兩個新地址。市場指標：Hyperliquid交易量下降但總鎖倉量仍領先。 WEEX Crypto News, 川普預測伊朗將遭轟炸 —— 美國軍方已做好準備川普4月21日宣布，美國已做好準備轟炸伊朗，這一攸關地緣政治的消息預示著可能的軍事行動。美軍早已開始部署，以防止任何情勢升變成更具威脅性的狀況。[Place Image: Screenshot…

川普：不再想延長停火

川普總統明確表示，不想再延長與伊朗的停火。伊朗目前可前往巴基斯坦進行會談，增加合法性。新地址從幣安提取了35,000 ETH並轉入BitGo。一位巨鯨增加了40,000枚HYPE代幣，價值約163萬美元。主流永續合約DEX雖交易量下滑，但TVL依然領先。 WEEX Crypto News, 2026 川普總統的堅定立場總統川普於2026年4月21日表示，不打算再次延長與伊朗的停火協議。他強調，伊朗如果與西方達成具體協議，即可改善現狀。目前，伊朗已獲准前往巴基斯坦進行談判，此舉或可為其贏得更多國際社會的承認與支持，提高合法性。幣安大額ETH轉入BitGo 近期，一個全新地址從加密貨幣交易所幣安提取了35,000枚ETH，這筆資金隨後轉入了BitGo。這一舉動引發了市場的廣泛關注，因為這樣的大額轉移通常會影響市場流動性和價格走勢。[Place Image: Screenshot of Transaction…

參謀聯席會議主席：已準備隨時對伊朗展開大規模軍事行動

美國已準備好隨時對伊朗進行大規模軍事行動。一新地址將35,000 ETH從幣安轉至BitGo。一名鯨魚大幅增持40,000個HYPE代幣，價值約163萬美元。 Kelp DAO攻擊者轉移50,700 ETH至兩個新地址。主流Perp DEX交易概要：雖然Hyperliquid的交易量減少，但TVL仍然超過其他平台。 WEEX Crypto News, 美國對伊朗的軍事準備美國參謀聯席會議主席馬克·米利上將表示，美國已準備好在需要時立即對伊朗採取大規模軍事行動。這項聲明凸顯了美國對地區安全的強烈戒備和對突發事件的迅速應對能力。重要的加密貨幣交易動作近期，一個新地址將35,000以太坊從幣安平台提現並轉入BitGo，顯示出對資產安全性的重視。此外，一名加密貨幣鯨魚增持了40,000個HYPE代幣，這筆投資的金額達到約163萬美元，表現出對該代幣的信心。 Kelp DAO攻擊事件的後續動態…

IOSG: From Compute to Intelligence, Reinforcement Learning-Driven Decentralized AI Investment Map

Three Stages of AI Training: Pre-training, Instruction Fine-tuning, and Post-training Alignment

強化學習技術全景：架構、框架與應用

強化學習的系統架構與核心環節

-- 價格

強化學習階段框架（RLHF → RLAIF → PRM → GRPO）

強化學習的產業應用五大分類

強化學習與 Web3 的天然匹配

經典 Web3 + 強化學習專案解析

Gensyn： 強化學習核心棧 RL Swarm 與 SAPO

Nous Research：可驗證強化學習環境 Atropos

Gradient Network：強化學習架構 Echo

Grail：Bittensor 生態的強化學習

Fraction AI：基於競爭的強化學習 RLFC

強化學習 Web3 項目架構比較

總結與展望：強化學習 × Web3 的路徑與機會

強化學習通用架構特徵：解決核心的物理限制與信任問題

差異化技術路徑：一致架構下的不同「突破點」

優勢、挑戰與終局展望