職位描述:
1. 熟練掌握Linux環(huán)境下的Go/Java/Python等1-2種語言;
2. 具備扎實的計算機科學功底和編程能力,熟悉常見算法和數(shù)據(jù)結(jié)構(gòu),具有良好的編程習慣;
3. 熟悉至少一種主流的機器學習框架(TensorFlow / PyTorch 或其他自研框架);
4. 熟悉 Kubernetes 架構(gòu)和生態(tài),熟悉 Docker/Containerd/Kata 等容器技術(shù),有豐富的云原生機器學習系統(tǒng)實踐和開發(fā)經(jīng)驗;
5. 掌握分布式系統(tǒng)原理,參與過大規(guī)模分布式系統(tǒng)的設(shè)計、開發(fā)和維護,熟悉Ray;
6. 有優(yōu)秀的邏輯分析能力,能夠?qū)I(yè)務(wù)邏輯進行合理的抽象和拆分;
7. 有強烈的工作責任心,較好的學習、溝通能力和自驅(qū)力,能夠快速的響應(yīng)和行動;
8. 有良好的工作文檔習慣,及時按要求撰寫更新工作流程及技術(shù)文檔。
職位要求:
1. 有機器學習、大數(shù)據(jù)平臺的工程架構(gòu)落地經(jīng)驗,熟練掌握常見的分布式訓練、計算框架(pytorch/tensorflow/ray/spark/flink)原理及工程實現(xiàn),熟悉GPU、大模型相關(guān)軟硬件技術(shù)棧;
2. 有計算產(chǎn)品落地經(jīng)驗(最好是tob paas/saas 項目或公有云項目,深度使用經(jīng)驗也算),對該領(lǐng)域用戶畫像和用戶故事有深入理解,有打造優(yōu)秀產(chǎn)品的熱情;
3. 熟悉NLP、CV相關(guān)的算法和技術(shù),熟悉大模型訓練、RL算法者優(yōu)先;
4. 有以下某一方向領(lǐng)域的經(jīng)驗:CUDA,RDMA,AI Infrastructure,HW/SW Co-Design,High Performance Computing,ML Hardware Architecture (GPU, Accelerators, Networking),ML for System,Distributed Storage;
5. 熟悉開源的RL訓練框架,例如RL lib、VERL、OpenRLHF等。