Content pfp
Content
@
0 reply
0 recast
0 reaction

加密大伟哥 pfp
加密大伟哥
@crypto-dawei-bro
总结一下@lintool的帖子内容,AI 的好坏不能只看测试,得看用户反馈;Haiku 4.5 便宜又快,但还是得再优化一些!比如在静态测试和用户反馈有不一样的地方Claude Haiku 4.5 这个新 AI 模型在一些官方测试(比如 SWE-bench Verified,得分 73.3%)表现很不错,甚至跟更大的模型 Claude Sonnet 4 差不多厉害。但他通过 #yupp.ai平台收集了 3400 多人的真实使用反馈,和测试结果有差异,Haiku 4.5 比它之前的版本 Haiku 3.5 强,但用户还是更喜欢 Sonnet 这说明光靠测试分数看 AI 好坏不够,实际用起来才知道真本事。不能只相信测试分数高低判断一个大模型的优劣 https://x.com/lintool/status/1978941865643958671
0 reply
0 recast
0 reaction