Prime - INTELLECT-2 Prime 에서 32B 모델의 첫 번째 분산형 RL 훈련이 완료됐습니다. INTELLECT-2 는 목표는 제어 가능한 사고 예산을 갖춘 최첨단 추론 모델을 학습시키는 것을 목표로 하는데요. 흥미로운 정보들만 한번 더 추려 봤습니다. 길이보상 통합 · 모델 출력의 응답 정확성에 따라 등급을 매기는 작업 보상 외에도, 모델이 사용자 프롬프트에 지정된 사고 예산을 준수하도록 학습시키기 위해 길이 보상을 통합. · 롤아웃마다 GPU 메모리와 컴퓨팅 성능이 낮은 추론 워커에서 처리하는 문제에는 적은 양의 사고 예산을 할당하고, 더 높은 용량의 추론 워커에서 처리하는 문제에는 많은 양의 사고 예산을 할당. => 즉 성능이 낮은 경우에는 적은 양의 테스크, 성능이 높은 경우에는 높은 양의 테스크를 할당해서 성능이 다르더라도 처리 시간을 동일하게 유지
- 0 replies
- 0 recasts
- 17 reactions
https://zora.co/coin/base:0x98fc7b6cd9e60794ea2de74ad786d90b77a2fa78 https://zora.co/coin/base:0xffe4df7717c320b4877ac1ba2d2bed4fa5dd1633 https://zora.co/coin/base:0xa0edc5b85c2c634cf059d6d2ff96e1dc832a4bf3 https://zora.co/coin/base:0xf9fcab7ab8098d40a4682c10a0dfb0b21ed482e6 https://zora.co/coin/base:0xf174d9a03ca2226772f1b08726d54f5fc5677952 https://zora.co/coin/base:0xa4d07aed645111e153bc7fff6ccdcb6a1d562136 https://zora.co/coin/base:0x39c41e95473cd5ef06047eedfe2ca53b01882c1b https://zora.co/coin/base:0xf73f2f1ff927c8ca81e1b4f8b759a012464294ea
- 0 replies
- 0 recasts
- 0 reactions
https://t.me/Raoni1/10676
- 0 replies
- 0 recasts
- 0 reactions