Description:
后端Java開發(fā)工程師(AI開發(fā)者平臺(tái))
崗位職責(zé)
1. API平臺(tái)開發(fā)
o 負(fù)責(zé)AI能力開放平臺(tái)的API設(shè)計(jì)與開發(fā)(如模型推理、訓(xùn)練任務(wù)調(diào)度等),保障高可用與低延遲。
o 實(shí)現(xiàn)API鑒權(quán)、流量控制、多租戶管理等開發(fā)者服務(wù)基礎(chǔ)功能。
2. AI工程化建設(shè)
o 構(gòu)建模型服務(wù)化(MaaS)基礎(chǔ)設(shè)施,支持模型部署、彈性擴(kuò)縮容、灰度發(fā)布等全生命周期管理。
o 開發(fā)分布式任務(wù)調(diào)度系統(tǒng),保障大規(guī)模AI訓(xùn)練任務(wù)的可靠性。
3. 高并發(fā)架構(gòu)優(yōu)化
o 設(shè)計(jì)實(shí)時(shí)推理接口,通過異步編程、緩存策略等提升系統(tǒng)吞吐量(QPS萬級(jí)以上)。
o 優(yōu)化API網(wǎng)關(guān)性能,實(shí)現(xiàn)動(dòng)態(tài)限流、熔斷降級(jí)等能力。
4. 技術(shù)攻堅(jiān)與集成
o 解決AI場(chǎng)景技術(shù)問題(如模型傳輸優(yōu)化、GPU資源調(diào)度)。
o 參與AI框架(TensorFlow/PyTorch)與Java生態(tài)的集成與性能調(diào)優(yōu)。
5. 開發(fā)者生態(tài)支持
o 協(xié)作開發(fā)API文檔交互系統(tǒng),支持在線調(diào)試、多語言SDK生成。
o 構(gòu)建開發(fā)者控制臺(tái)后臺(tái)服務(wù),提供API使用分析、日志追蹤等運(yùn)營功能。
6. 質(zhì)量保障
o 設(shè)計(jì)混沌工程測(cè)試用例,覆蓋模型推理服務(wù)異常場(chǎng)景。
o 建立全鏈路監(jiān)控體系,追蹤API調(diào)用鏈與模型性能指標(biāo)。
崗位要求
1. 基礎(chǔ)要求
o 計(jì)算機(jī)相關(guān)專業(yè)本科及以上學(xué)歷,5年Java開發(fā)經(jīng)驗(yàn)(含2年B端/開發(fā)者平臺(tái)經(jīng)驗(yàn))。
2. 核心技術(shù)
o 精通Java并發(fā)編程、NIO,熟悉Spring Cloud Alibaba生態(tài)(Nacos/Sentinel/Feign)。
o 熟練開發(fā)高性能RPC接口,了解Kafka消息隊(duì)列優(yōu)化。
3. AI基礎(chǔ)設(shè)施
o 有Kubernetes上部署AI模型經(jīng)驗(yàn),熟悉Kubeflow/MLflow集成。
4. 分布式能力
o 精通分布式事務(wù)(SAGA)、分布式鎖(Redis/Zookeeper實(shí)現(xiàn))。
o 熟悉MySQL分庫分表,有Elasticsearch復(fù)雜查詢優(yōu)化經(jīng)驗(yàn)。
5. 性能優(yōu)化
o 具備JVM調(diào)優(yōu)與GC日志分析能力,能定位系統(tǒng)性能瓶頸。
o 熟悉Prometheus/Grafana監(jiān)控告警系統(tǒng)搭建。
6. 軟性素質(zhì)
o 技術(shù)敏感度高,能快速理解AI工程師需求并抽象為平臺(tái)能力。
o 具備抽象設(shè)計(jì)能力,平衡功能擴(kuò)展性與開發(fā)效率。