Baam~~~~
0 Followers
방금 오른 이유: 트럼프 내부자가 사고 팔아서 ㅋㅋ https://hyperdash.info/zh-CN/trader/0xf3f496c9486be5924a93d67e98298733bb47057c
Prime - INTELLECT-2 Prime 에서 32B 모델의 첫 번째 분산형 RL 훈련이 완료됐습니다. INTELLECT-2 는 목표는 제어 가능한 사고 예산을 갖춘 최첨단 추론 모델을 학습시키는 것을 목표로 하는데요. 흥미로운 정보들만 한번 더 추려 봤습니다. 길이보상 통합 · 모델 출력의 응답 정확성에 따라 등급을 매기는 작업 보상 외에도, 모델이 사용자 프롬프트에 지정된 사고 예산을 준수하도록 학습시키기 위해 길이 보상을 통합. · 롤아웃마다 GPU 메모리와 컴퓨팅 성능이 낮은 추론 워커에서 처리하는 문제에는 적은 양의 사고 예산을 할당하고, 더 높은 용량의 추론 워커에서 처리하는 문제에는 많은 양의 사고 예산을 할당. => 즉 성능이 낮은 경우에는 적은 양의 테스크, 성능이 높은 경우에는 높은 양의 테스크를 할당해서 성능이 다르더라도 처리 시간을 동일하게 유지
gm
https://warpcast.com/~/frames/launch?domain=mint.warpcast.com