Content
@
https://warpcast.com/~/channel/hype-up
0 reply
0 recast
0 reaction
Ddaro
@ddaro
추론예산과 모델 · 사용자와 개발자는 시스템 프롬프트를 통해 모델이 최종 해결책에 도달하기 전에 문제에 대해 얼마나 많은 토큰을 고려해야 하는지 지정 · 프롬프트를 통해 추론 예산을 제어하면 사용자는 이를 활용하는 동시에 매우 어려운 문제에 대해 더 긴 추론 시간을 선택적으로 선택 · 이러한 기능을 갖춘 모델을 학습시키기 위해, QwQ-32B를 기본 모델로 사용하고, Deepseek-R1의 GRPO(정적 분포) 기법을 따르며 수학 및 코딩 영역에서 검증 가능한 보상을 제공 => QwQ-32B는 알리바바의 Qwen 시리즈에 속하는 모델입니다. 이 모델은 Qwen 연구팀이 개발한 추론 특화 AI로, 2025년 3월 공개한 모델 (이거 관련해서 재밌는 이야기를 곧 전달드릴 계획👀)
0 reply
0 recast
18 reactions