崗位職責(zé):
1、負(fù)責(zé)網(wǎng)絡(luò)硬件設(shè)備及配套系統(tǒng)網(wǎng)絡(luò)的安裝調(diào)試;
2、負(fù)責(zé)網(wǎng)絡(luò)設(shè)備的維護(hù)、管理、故障排除等日常工作;
3、負(fù)責(zé)網(wǎng)絡(luò)設(shè)備及監(jiān)控系統(tǒng)的日志分析;
4、檢查網(wǎng)絡(luò)安全漏洞,并能提出解決方案及時(shí)修復(fù);
5、上級(jí)領(lǐng)導(dǎo)臨時(shí)安排的其他工作。
崗位要求:
1、精通底層基礎(chǔ)設(shè)施(硬件、網(wǎng)絡(luò)、存儲(chǔ)),尤其是高速網(wǎng)絡(luò)和 GPU;
2、深入理解分布式深度學(xué)習(xí)訓(xùn)練原理和工具(PyTorch, DeepSpeed, Megatron, NCCL),特別是混合并行和優(yōu)化技術(shù)(ZeRO, AMP);
3、具備強(qiáng)大的工程實(shí)踐能力(監(jiān)控、日志、自動(dòng)化運(yùn)維、調(diào)試、性能調(diào)優(yōu));
4、了解目標(biāo)模型(DeepSeek)的具體需求和特性;
5、具備團(tuán)隊(duì)協(xié)作和解決復(fù)雜問(wèn)題的能力。