Tool-Integrated Reasoning,工具集成推理
ref: SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning
将工具使用 RL 方式集成到 LLM 中,让模型可以调用工具处理问题,进而提升模型的处理效率。
SimpleTIR 是一种强化学习 TIR 的方式,效果是将 Qwen2.5-7B 的模型将 AIME24 的数学解题能力从 22.1 提升到 50.5,是一个较好的效果提升。