崗位職責(zé)
1. 服務(wù)器與硬件基礎(chǔ)設(shè)施管理
- 負(fù)責(zé)物理服務(wù)器、虛擬機(jī)(VMware/KVM 等)的部署上架、硬件配置(CPU、內(nèi)存、硬盤、RAID 陣列)及網(wǎng)絡(luò)端口調(diào)試,確保硬件資源合規(guī)上線。
- 定期執(zhí)行服務(wù)器硬件巡檢,監(jiān)控硬件健康狀態(tài)(如硬盤 S.M.A.R.T 信息、電源穩(wěn)定性、散熱系統(tǒng)),及時(shí)發(fā)現(xiàn)并處理硬件故障(如硬盤損壞、內(nèi)存報(bào)錯(cuò)),協(xié)調(diào)供應(yīng)商完成維修或更換。
- 監(jiān)控服務(wù)器硬件資源使用率(CPU、內(nèi)存、磁盤 IO、網(wǎng)絡(luò)帶寬),結(jié)合業(yè)務(wù)增長趨勢(shì)預(yù)判資源瓶頸,輸出擴(kuò)容方案并推動(dòng)實(shí)施。
2. 操作系統(tǒng)部署與維護(hù)
- 主導(dǎo) Linux(CentOS、Ubuntu、RedHat 等)、Windows Server 操作系統(tǒng)的安裝、初始化配置與優(yōu)化,包括系統(tǒng)內(nèi)核參數(shù)調(diào)整、網(wǎng)絡(luò)參數(shù)優(yōu)化、文件系統(tǒng)規(guī)劃等。
- 負(fù)責(zé)操作系統(tǒng)日常維護(hù),包括系統(tǒng)補(bǔ)丁更新、安全漏洞修復(fù)、用戶賬號(hào)與權(quán)限管理(遵循最小權(quán)限原則)、系統(tǒng)日志清理與歸檔。
- 排查并解決操作系統(tǒng)層面故障,如系統(tǒng)崩潰、進(jìn)程異常占用資源、磁盤掛載失敗、網(wǎng)絡(luò)連接異常等,確保操作系統(tǒng)穩(wěn)定運(yùn)行。
3. 中間件與數(shù)據(jù)庫運(yùn)維
- 負(fù)責(zé)核心中間件的部署、配置與維護(hù),包括 Web 服務(wù)器(Nginx、Apache)、應(yīng)用服務(wù)器(Tomcat、Jetty)、緩存服務(wù)(Redis、Memcached)等,保障中間件服務(wù)高可用。
- 負(fù)責(zé)關(guān)系型數(shù)據(jù)庫(MySQL、PostgreSQL、SQL Server)及非關(guān)系型數(shù)據(jù)庫的安裝、配置、備份、恢復(fù)與性能優(yōu)化,包括索引優(yōu)化、SQL 語句調(diào)優(yōu)、主從復(fù)制搭建等。
- 監(jiān)控中間件與數(shù)據(jù)庫運(yùn)行狀態(tài)(連接數(shù)、響應(yīng)時(shí)間、吞吐量、錯(cuò)誤率),制定監(jiān)控告警策略,及時(shí)處理服務(wù)異常(如連接數(shù)滿、緩存穿透、數(shù)據(jù)庫死鎖)。
4. 運(yùn)維自動(dòng)化與標(biāo)準(zhǔn)化建設(shè)
- 基于 Shell、Python 等腳本語言開發(fā)自動(dòng)化工具,實(shí)現(xiàn)批量服務(wù)器操作、系統(tǒng)巡檢、日志收集、故障告警等場景的自動(dòng)化,減少重復(fù)人工操作。
- 運(yùn)用 Ansible、SaltStack 等配置管理工具,搭建服務(wù)器批量配置、軟件批量部署的自動(dòng)化體系,提升運(yùn)維效率與操作準(zhǔn)確性。
- 制定并完善操作系統(tǒng)、中間件、數(shù)據(jù)庫等運(yùn)維標(biāo)準(zhǔn)規(guī)范與操作手冊(cè),推動(dòng)團(tuán)隊(duì)運(yùn)維操作標(biāo)準(zhǔn)化,降低人為失誤風(fēng)險(xiǎn)。
5. 數(shù)據(jù)備份與災(zāi)備管理
- 根據(jù)業(yè)務(wù)數(shù)據(jù)重要性,制定差異化數(shù)據(jù)備份策略(全量備份、增量備份、差異備份),選擇合適的備份工具(如 mysqldump、xtrabackup)與存儲(chǔ)介質(zhì),確保備份策略合規(guī)。
- 定期執(zhí)行數(shù)據(jù)備份操作,驗(yàn)證備份數(shù)據(jù)的完整性與可恢復(fù)性,形成備份驗(yàn)證報(bào)告;監(jiān)控備份任務(wù)執(zhí)行狀態(tài),處理備份失敗問題
6. 故障應(yīng)急與協(xié)作支持
- 快速定位并解決系統(tǒng)層面突發(fā)故障(如服務(wù)器宕機(jī)、系統(tǒng)性能驟降、數(shù)據(jù)異常),減少故障對(duì)業(yè)務(wù)的影響,事后輸出故障分析報(bào)告(RCA)。
- 為研發(fā)團(tuán)隊(duì)提供環(huán)境支持,協(xié)助搭建開發(fā)、測試、預(yù)發(fā)布環(huán)境,保障環(huán)境一致性;配合研發(fā)團(tuán)隊(duì)進(jìn)行版本發(fā)布、代碼部署等操作,提供技術(shù)支撐。
- 與運(yùn)維、業(yè)務(wù)部門保持協(xié)作,共同解決跨部門技術(shù)問題,參與 IT 系統(tǒng)架構(gòu)優(yōu)化討論,提出系統(tǒng)層面優(yōu)化建議。
- 任職要求
- 本科及以上學(xué)歷,計(jì)算機(jī)科學(xué)與技術(shù)、軟件工程、信息管理等相關(guān)專業(yè)。
- 3 年及以上系統(tǒng)運(yùn)維相關(guān)工作經(jīng)驗(yàn),有互聯(lián)網(wǎng)、金融、大型企業(yè) IT 運(yùn)維經(jīng)驗(yàn)者優(yōu)先。
- 具備大型服務(wù)器集群(100 臺(tái)以上)運(yùn)維經(jīng)驗(yàn),或云服務(wù)器(阿里云、AWS 等)運(yùn)維經(jīng)驗(yàn)者優(yōu)先。
- 操作系統(tǒng):精通 Linux 操作系統(tǒng),熟練掌握系統(tǒng)內(nèi)核調(diào)優(yōu)、進(jìn)程管理、文件系統(tǒng)、網(wǎng)絡(luò)配置(TCP/IP、路由、防火墻);熟悉 Windows Server 系統(tǒng)基本操作。
- 軟件運(yùn)維:熟練掌握 Nginx、Tomcat、Redis、MySQL 等常用中間件與數(shù)據(jù)庫的部署、配置、故障排查及性能優(yōu)化;了解 Kafka、Elasticsearch 等組件者優(yōu)先。
- 自動(dòng)化工具:掌握 Shell、Python 至少一種腳本語言,能獨(dú)立編寫自動(dòng)化腳本;熟悉 Ansible、Zabbix、Prometheus、Grafana 等運(yùn)維工具的使用與配置。
- 故障排查:具備較強(qiáng)的邏輯分析能力與問題解決能力,能通過日志、監(jiān)控?cái)?shù)據(jù)快速定位并解決復(fù)雜系統(tǒng)故障;有大型系統(tǒng)故障應(yīng)急處理經(jīng)驗(yàn)者優(yōu)先。
- 安全意識(shí):具備基礎(chǔ)的系統(tǒng)安全知識(shí),熟悉常見系統(tǒng)漏洞與防護(hù)手段,了解等保 2.0 相關(guān)要求者優(yōu)先