Tech notes here
0 Followers
longcat video最重要的点:kl variance取的是不同group最大的,而不是各group之间自己算
seedance 2 model merge大于lora merge大于data merge(传统sft) 即不如在各个data子任务finetune后的模型再merge
一先一直在思考一个问题 分辨率大的图因为高频信息更多,timestep shift应该偏向在t小的部分多采样,让模型学会高频细节。 但事实上,分辨率大会往t大的地方偏,因为相同水平的噪声加到低分辨率和高分辨率上会有区别,高分辨率的整体信息被保留的更多,需要更大强度的噪声破坏。 但是t小的时候,加的高斯噪声会直接把细节纹理全部破坏掉(?),高分辨率细节纹理更多,这样模型就更难学会,所以有没有一种加噪方式,让高频纹理细节是线性的消失,而不是突然被破坏? 在频域/其他方式?
黑点问题 检查到是dit输出过大,超出vae输出-1, 1区间,观察指标:decode以后超出-1, 1的像素数量比例,超出部分abs的和,这两个指标 解决办法:全局weight decay开大一点