人工智能领域近期迎来一项突破性进展:一家名为Poetiq的初创公司通过其开发的元系统(meta-system),在不改动基础大模型的前提下,显著提升了AI在复杂推理任务中的表现。实验数据显示,该系统使GPT-5.2 X-High在权威测试集ARC-AGI-2上的成绩达到75%,较此前最优模型提升约15%,同时将单题处理成本控制在8美元以内。
这项成果的核心在于Poetiq构建的迭代式推理框架。与传统AI系统直接生成答案不同,该框架通过多轮交互实现自我优化:系统首先生成初步解决方案,随后根据反馈持续改进,直至形成最终答案。这种机制特别引入了自我审计功能,能够自动判断何时已获得足够信息,从而及时终止计算过程。实验表明,这种设计不仅提升了准确性,更有效降低了资源消耗——X-High版本之所以成本更低,正是因其能更快收敛到正确解。
测试采用的PUBLIC-eval数据集包含基础推理、自然语言处理及数学推理等标准任务,而更严苛的ARC-AGI-2测试则聚焦抽象推理、常识应用和创新能力等高阶认知维度。值得关注的是,Poetiq未对任何模型进行针对性训练或优化,其系统完全通过改进推理策略实现性能跃升。这种"模型无关"的特性,使得元系统能够无缝适配不同架构的AI模型,包括Gemini 3、GPT-5.1等前沿产品。
该团队特别强调,所有适配工作均在新模型发布前完成,且系统从未接触过测试任务集。这种"零接触"下的跨版本性能提升,证明其捕捉到了推理过程的本质规律,而非依赖特定模型的特性。ARC Prize总裁Greg Kamradt评价称,若成果经得起大规模验证,这套系统将彻底改变AI应用模式——通过动态切换模型应对不同任务,无需为每个场景重新训练系统。
这项突破由六人团队完成,其中多位核心成员来自Google DeepMind。联合创始人Ian Fischer和Shumeet Baluja均拥有资深研究背景,他们开发的元系统展现出惊人的泛化能力:在保持架构不变的情况下,系统能自动适配不同模型族的认知风格,实现跨版本性能提升。这种设计哲学获得业界高度认可,有专家指出,在模型外部构建智能架构的策略,使得新模型适配时间从数周缩短至数小时,为AI技术落地开辟了新路径。
目前团队正在收集更详细的性能数据,初步统计显示简单任务可在8-10分钟内完成,而最复杂任务的计算时间控制在12小时内。对于成本优化机制,Poetiq确认X-High版本确实通过更高效的推理路径实现了性能突破。随着系统持续迭代,这种"模型之上构建智能"的范式,或将重新定义人工智能的能力边界。






















