不止量化及LORA - 原生PyTorch性能及記憶體優化精解
??深入介紹深度學習硬體,包括 CPU、GPU、記憶體與分散式系統。
??系統化學習 PyTorch 張量、運算元、自動微分與動態圖機制。
??提供 PyTorch 性能分析工具,幫助診斷與提升執行效率。
??優化資料載入與前處理,提升 Dataset 與 DataLoader 效能。
??介紹單卡 GPU 訓練最佳化,如 Batch Size 調整與同步減少。
??探討 GPU 記憶體管理,降低訓練時的記憶體佔用與浪費。
??解析分散式訓練,涵蓋資料平行、模型平行與多機多卡技術。
??涵蓋高級最佳化,如混合精度、自訂運算元與計算圖優化。
??深入解析 GPT-2 訓練最佳化,提供實戰經驗與效能提升。
??從程式碼到硬體調校,建立高效 PyTorch 訓練與開發流程。