🗄️阿森知识库

最近的笔记

  • DAPO

    2026年2月04日

  • LLM

    2026年2月04日

  • TIR

    2026年2月04日

Home

❯

计算机理论

❯

TIR

TIR

2026年2月04日1分钟阅读

Tool-Integrated Reasoning,工具集成推理

ref: SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning

将工具使用 RL 方式集成到 LLM 中,让模型可以调用工具处理问题,进而提升模型的处理效率。

SimpleTIR 是一种强化学习 TIR 的方式,效果是将 Qwen2.5-7B 的模型将 AIME24 的数学解题能力从 22.1 提升到 50.5,是一个较好的效果提升。


关系图谱

Created with Quartz v4.5.2 © 2026

  • GitHub