在今天的讨论中,我们将深入探讨 TeichAI 如何将 Claude 的高级推理能力巧妙地注入大模型中。本次的焦点将转向两个新近发布的蒸馏模型,其中坚实的主角是Qwen3.5-27B,搭配被誉为“逻辑王”的 Claude Opus 4.6。
这一过程的核心在于利用 Claude Opus 4.6 的“思维链”(Chain-of-Thought, CoT)所生成的高质量数据,对 Qwen3.5-27B 这一拥有270亿参数的中型开源模型进行重新训练和蒸馏。其结果不仅使推理能力得到了显著提升,更加重要的是:它能在一张 RTX 3090 或 4090 上轻松运行!
模型名称: Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled
首先,HuggingFace 用户 Jackrong 发布了一个开源版本,该版本在短短几天内便收获了数万次下载,成为社区的明星。
其训练理念极为独特:他采用了 Unsloth 框架,并结合 LoRA(Rank=64),使用约3280条来自 Claude Opus 4.6 的高质量推理数据进行了监督微调(SFT)。更为有趣的是,设计者采取了train_on_responses_only策略,这意味着模型的损失函数仅在思考过程和最终答案上进行计算,从而排除了中间的具体任务要求,促使模型深入模仿 Claude 的结构化思维方式。
链接: HuggingFace
当模型进行推理时,它会主动启动思维链,以下是一个例子:
让我们仔细分析这个请求:
1. 确定问题的核心目标。
2. 将任务分解为明确的子组件。
3. 评估约束条件与边界情况。
4. 制定逐步解决方案计划。
5. 顺序执行推理并验证一致性...
实测情况下如何降低成本?社区专家分享了使用Q4_K_M量化版本的经验:
- 显存占用约 16.5 GB,对于拥有24G显存的3090显卡用户来说,这毫无压力!
- 生成速度为 29–35 tok/s,体验流畅。
- 保留完整的长上下文,没有像早期微调模型那样将注意力窗口限缩至8k,它能够支持完整的262K上下文。
- 修复了官方模型在 Jinja 模板中因不支持
developer角色而导致的崩溃问题。
此外,该模型与 AI 代码智能体框架(如 Claude Code、OpenCode)兼容良好,支持原生的developer角色。实测显示,它在后台可全自动运行长达9分钟,无需担心报错、修复代码和编写 README 的繁琐,卡顿和死机的概率也大幅降低。
模型名称: TeichAI/Qwen3.5-27B-Claude-Opus-4.6-Distill
在上次提到的“模型炼丹师”TeichAI也忙碌着,几乎同时推出了相关的高质量基础模型。他们同样是基于unsloth/Qwen3.5-27B,结合特定的过滤数据集进行了调教。
链接: HuggingFace
与其它便捷模型相比,TeichAI颇具人性化地提供了模型应用的超参数指南:
- 普通任务(思考模式): 建议将温度调至 1.0,Top_P 设置为 0.95,Min_P 设为 0.0,以极大激发 AI 的创意推理能力。
- 编程/网页开发(高精度防错模式): 温度应降至 0.6,并设置存在惩罚(presence_penalty)为 0.0,确保模型严谨推理不偏离逻辑。
- 输出长度建议: 普通对话可设置为32,768 tokens,而针对高难度编程竞赛题,建议增加至81,920 tokens,为思维链留足发挥的空间。
以下是模型卡中的对比图:
TeichAI Benchmark
从模型卡中的数据表可以看出,TeichAI/Qwen3.5-27B-Claude-Opus-4.6-Distill在多个指标上相较于unsloth/Qwen3.5-27B均有所提升。
蒸馏的得与失
随着时间推移,这项技术的发展不仅局限于单一模型,而是逐渐形成了“Claude reasoning distill 数据集 + Qwen 底座 + Unsloth 微调”的全面生态体系。
当然,享受强大的思维能力虽然可喜,但也意味着需要接受一些妥协。比如,原版的 Qwen3.5-27B 的多模态能力在这些蒸馏版本中几乎完全丧失,因此当前的这些版本专注于纯代码、纯数学计算及逻辑推理场景。由于是早期发布,相关的提示模板生态尚不完善,使用时偶尔可能会遇到排版错位等小问题。
有兴趣的用户可以尝试进行 GGUF 测试,看看它是否真的能够用较低的成本替代某些高价云端 API。
制作不易,若你觉得本篇文章对你有所帮助,欢迎点赞、转发和关注。再次感谢你阅读我的文章,我们下次再见!



