中文Chinese

总结一下@lintool的帖子内容，AI 的好坏不能只看测试，得看用户反馈；Haiku 4.5 便宜又快，但还是得再优化一些！比如在静态测试和用户反馈有不一样的地方Claude Haiku 4.5 这个新 AI 模型在一些官方测试（比如 SWE-bench Verified，得分 73.3%）表现很不错，甚至跟更大的模型 Claude Sonnet 4 差不多厉害。但他通过 #yupp.ai平台收集了 3400 多人的真实使用反馈，和测试结果有差异，Haiku 4.5 比它之前的版本 Haiku 3.5 强，但用户还是更喜欢 Sonnet 这说明光靠测试分数看 AI 好坏不够，实际用起来才知道真本事。不能只相信测试分数高低判断一个大模型的优劣

Congrats to @claudeai for Haiku 4.5, an excellent small model! Just a day later, we’ve gathered 3.4K+ user votes on @yupp_ai. Although static benchmarks show that it matches or even exceeds Claude Sonnet 4, a different story emerges based on organic user feedback… 🧵 https://t.co/eD7RAC1kYg

Jimmy Lin

总结一下@lintool的帖子内容，AI 的好坏不能只看测试，得看用户反馈；Haiku 4.5 便宜又快，但还是得再优化一些！比如在静态测试和用户反馈有不一样的地方Claude Haiku 4.5 这个新 AI 模型在一些官方测试（比如 SWE-bench Verified，得分 73.3%）表现很不错，甚至跟更大的模型 Claude Sonnet 4 差不多厉害。但他通过 #yupp.ai平台收集了 3400 多人的真实使用反馈，和测试结果有差异，Haiku 4.5 比它之前的版本 Haiku 3.5 强，但用户还是更喜欢 Sonnet 这说明光靠测试分数看 AI 好坏不够，实际用起来才知道真本事。不能只相信测试分数高低判断一个大模型的优劣
https://x.com/lintool/status/1978941865643958671