peft方法
https://zhuanlan.zhihu.com/p/644523217
KV Cache
https://zhuanlan.zhihu.com/p/662498827
deepspeed 所有人都可以用得起
https://zhuanlan.zhihu.com/p/343570325
大模型基础
https://zhuanlan.zhihu.com/p/660529257
旋转位置编码
https://zhuanlan.zhihu.com/p/653958566
Lora
https://zhuanlan.zhihu.com/p/648351853
https://zhuanlan.zhihu.com/p/644524136
Transforme详解
https://www.bilibili.com/read/cv20387281/
https://zhuanlan.zhihu.com/p/338817680
deepspeed turtorials
集成deepspeed
DeepSpeed Integration (huggingface.co)
Trainer参数
参数规模计算
https://www.cnblogs.com/LuisonLiu/p/17715680.html
分析transformer模型的参数量、计算量、中间激活、KV cache – 知乎 (zhihu.com)
反向传播算法推导过程(非常详细) – 知乎 (zhihu.com)