在 600 万至 1100 万 Token 规模的 BrowseComp-Plus(1K)多文档推理任务中,RLM(GPT-5)的正确率高达 91.33%,大幅超越其他长文本处理方案; ...