工作職責:
1. 負責內(nèi)部HPC集群計算/存儲系統(tǒng)運維(包括部署、擴容、監(jiān)控、故障處理、優(yōu)化等);
2. 參與系統(tǒng)運維的相關工具/系統(tǒng)開發(fā)(包括自動化運維、監(jiān)控等);
3. 負責數(shù)據(jù)中心日常運維管理工作;
崗位要求:
1. 深入了解HPC技術架構及原理,特別是HPC任務調(diào)度機制和安全策略,熟悉相關網(wǎng)絡和存儲解決方案,有相關工作經(jīng)驗。本科以上學歷。
2. 熟悉Linux系統(tǒng)運維,能熟練使用常用命令和工具
3. 熟悉服務器硬件維護,有服務器/存儲硬件維護相關工作經(jīng)驗
4. 具備基礎網(wǎng)絡知識,能進行基本的網(wǎng)絡故障排錯
5. 熟悉Nagios、Grafana、Prometheus、ELK等監(jiān)控告警系統(tǒng)
6. 了解Ansible自動化工具和Git代碼管理
7. 具備一定水準的Python和Bash Shell編程能力
8. 有HPC運維經(jīng)驗,了解Sge、Slurm等作業(yè)調(diào)度器優(yōu)先
9. 精通數(shù)據(jù)中心整體系統(tǒng)的設備選型、工程驗收和運行維護