職位描述

崗位職責
1、保障大規模K8S集群的穩定運行,可以快速定位及解決K8S集群中的問題,工作內容包含:宿主資源管理、集群生命周期管理,核心組件變更、證書管理等、巡檢、重保、數據備份和恢復;
2、善于通過自動化手段提升工作效率,開發自動化工具提升oncall效率
3. 有大規模GPU集群管理經驗 , 熟悉訓練和推理的基本邏輯,了解機器學習的常用框架,可以快速處理GPU相關的需求和問題 。
職位要求
1、本科及以上學歷,計算機或者相關專業,2年以上運維相關工作經驗,有CKA證書優先;
2、精通Linux操作系統,熟悉TCP/IP、HTTP等協議,有良好的網絡、存儲、安全、計算機體系結構方面的知識等。
3、精通kubernetes/docker的架構技術及其內部實現原理,至少3年Kubernetes實際業務編排、管理及運維經驗,有容器技術、kubernetes、Dorker等開發經驗者優先。
4、熟悉Ansible等自動化運維技術,能熟練使用python/Golang其中至少一種語言運維開發,優先考慮會編寫opeator者,善于通過自動化方式解決運維工作中標準操作流程。
5、具有良好溝通能力和服務意識,能夠獨立解決項目的問題,善于總結和編寫文檔。
6、有工作熱情,較強的學習能力,高度的責任心、良好的溝通技巧和團隊合作精神。
工作地點
地址:北京海淀區北京-海淀區海淀區上地元中心


職位發布者
HR
小米科技有限責任公司


-
通信/電信/網絡設備/增值服務
-
1000人以上
-
私營·民營企業
-
北京市海淀區清河中街68號華潤五彩城寫字樓