京東云穩定性達行業最高標準:單云主機SLA提升至99.99%
來源:中金在線
?
2021-10-11 15:03:13
今年京東云峰會上發布京剛第四代云主機時,一項數據引起業界關注——“單云主機SLA承諾 99.99%”,這是迄今為止所有云服務商中最高的服務承諾。
500)this.width=500\" align=\"center\" hspace=10 vspace=10 alt=\"京東云穩定性達行業最高標準:單云主機SLA提升至99.99% \">
服務等級協議(Service-Level Agreement,縮寫SLA),是服務提供商與客戶之間的正式承諾,具有法律效力。云服務廠商的SLA通常以最小化不可用時間為目標,保障云服務器運行的穩定性與可用性。
99.975%到99.99%,云主機穩定性大升級
越來越多企業選擇“上云”,用“云”代替本地數據中心,一個重要原因就是傳統IT基礎設施難以企及云服務的超高穩定性。云廠商的SLA通常是線下數據中心的5倍以上,不僅大大降低了租用成本,也讓企業和用戶有了多元化選擇。
SLA的提升,意味著云服務商承諾提供的計算服務所能達到的服務質量和標準在提升。數字的微小變化,背后是企業級服務可靠性的巨大進步。
京東云單云主機SLA從99.975%提升至99.99%,意味著其月不可用時間從10.8分鐘降低至4.32分鐘,不可用時長降低了60%,標志著京東云在云服務穩定性領域達到行業最高標準,進一步保障企業關鍵業務在云上平穩、順滑運行。
京剛軟硬一體虛擬化架構,云主機性能的底層保障
500)this.width=500\" align=\"center\" hspace=10 vspace=10 alt=\"京東云穩定性達行業最高標準:單云主機SLA提升至99.99% \">
虛擬化是云主機的核心技術,基于公有云、專有云、混合云、邊緣計算等多樣化產品形態發展趨勢,京東云自主研發了行業領先的全技術棧云計算虛擬化引擎--“京剛”, 并兼容云主機、裸金屬、原生容器等原有各種計算服務形態,實現了虛擬化架構的統一升級。
“京剛”的核心功能模塊全部源自京東云自研虛擬化技術,實現了專有場景芯片自主研發技術的突破性創新。它將云計算的完整核心技術棧–計算虛擬化、網絡虛擬化和存儲虛擬化,高度集成到京東云自主研發的智能芯片中,實現了真正的硬件虛擬化,在提供高吞吐量、低延遲的虛擬網絡和存儲設備的同時,還從硬件級別隔離了用戶負載與管理負載,最大程度提高了云計算平臺的安全性。
故障預測+自動恢復,智能系統保障云主機穩定性
此次SLA提升,是在2020年12月京東云發布單云主機穩定性達99.975%基礎上的再次提升,不到一年的時間內兩次升級,已遠超行業內2-3年的平均提升周期,這得益于一套基于全方位數據驅動的故障預測及自動恢復系統。
借助這套系統,京東云可以對云主機進行涵蓋軟硬件的多維度、毫秒級別全棧響應。通過智能分析,學習相關歷史數據,可實現高準確率的故障預判,并結合豐富的熔斷策略,采取有效措施避免對用戶產生影響,減少用戶損失。在對單機穩定性要求極高的行業,比如游戲行業中,單云主機SLA的提升意義重大。
故障域隔離,多層次架構保障云服務高可用
面對政企客戶的數字化轉型需求,京東云提供完整的云基礎設施和應用開發平臺,不僅有高達 99.99% SLA標準的IaaS服務,還有云原生的PaaS服務、AI和IoT的全棧服務體系、多層次安全防護和合規認證。
500)this.width=500\" align=\"center\" hspace=10 vspace=10 alt=\"京東云穩定性達行業最高標準:單云主機SLA提升至99.99% \">
為保障整體公有云服務的穩定性,京東云在長期實踐中探索出出一套多層次高可用架構,并已在京東的復雜業務場景中得到充分驗證。
跨地域部署實現災備或雙活(地域級別高可用),以及單地域下跨多可用區部署實現低延遲服務高可用(可用區級別高可用)是兩種常見的高可用架構模型。在此基礎上,為進一步提高單可用區內部署業務的可用性,并降低服務系統升級迭代對客戶業務的影響,京東云優化了資源管理和調度,提出了故障影響域的概念,其包括:硬件故障影響域和管理軟件故障影響域。
硬件故障影響域,是數據中心內由網絡交換機或電源設備故障造成的單點硬件故障最大影響范圍,通常可以理解為一個或一組機架。不同影響域內的服務器,由于存在電力網絡的物理級別隔離,因此可以最小化物理硬件潛在故障、網絡中斷或電源中斷的影響。用戶可配合使用“高可用組”產品實現反親和性調度,將云主機實例創建在多個故障影響域內,最大程度規避局部硬件故障對業務的影響。
管理軟件故障影響域,是指由云服務系統管理軟件故障造成的云資源生命周期管理異常影響范圍。隨著云上用戶體量和資源規模逐步擴大,京東云在單地域下以分組集群模式管理系統軟件及服務,將多個可用區內的計算資源及系統服務橫向劃分為多個邏輯分組,多分組集群模式下系統服務的部署均以分組為最小單位,每個分組可以實現獨立升級,以此精確控制軟件故障機系統升級對用戶的影響范圍,降低服務異常對用戶業務的影響,實現無感知的平滑升級。
大規模復雜場景磨練,護航企業數字化轉型
單云主機的穩定性承諾提升到 99.99%,折射出京東云的前沿技術優勢和豐富業務經驗積。歷經京東零售、京東物流、京東科技等京東集團內部核心業務的千錘百煉,并通過歷年京東618及京東11.11考驗,京東云在保障服務穩定性方面有長期的技術積累和實踐。
伴隨京東體系的持續高速發展,京東云始終面臨數據流量的大規模增長,從前端網站、訂單、結算、支付、搜索、推薦,到后端的倉儲、配送、客服、售后全流程,為滿足各類業務系統在云上的平穩運行,磨練出京東云在云服務穩定性方面的的極強能力。
以今年618為例,京東云每秒用戶訪問峰值同比提升152%,訪問帶寬同比提升185%,混合云操作系統云艦在線管理Pod數量超過200萬,運行容器峰值核數超過1000萬,背后是京東云以超高彈性應對海量并發需求,以穩定、安全、可信賴的技術服務,高質量護航全程用戶體驗。
不僅僅在京東體系內部,京東云也在供應鏈、物流、金融、保險、地產、健康等十余個行業深耕多年,本次單云主機穩定性承諾升級,更是對廣大客戶的鄭重承諾,將助力更多政企客戶搭建高可用的云服務,讓企業上云不再是難題,讓云上業務運作不再有障礙。
服務等級協議(Service-Level Agreement,縮寫SLA),是服務提供商與客戶之間的正式承諾,具有法律效力。云服務廠商的SLA通常以最小化不可用時間為目標,保障云服務器運行的穩定性與可用性。
99.975%到99.99%,云主機穩定性大升級
越來越多企業選擇“上云”,用“云”代替本地數據中心,一個重要原因就是傳統IT基礎設施難以企及云服務的超高穩定性。云廠商的SLA通常是線下數據中心的5倍以上,不僅大大降低了租用成本,也讓企業和用戶有了多元化選擇。
SLA的提升,意味著云服務商承諾提供的計算服務所能達到的服務質量和標準在提升。數字的微小變化,背后是企業級服務可靠性的巨大進步。
京東云單云主機SLA從99.975%提升至99.99%,意味著其月不可用時間從10.8分鐘降低至4.32分鐘,不可用時長降低了60%,標志著京東云在云服務穩定性領域達到行業最高標準,進一步保障企業關鍵業務在云上平穩、順滑運行。
京剛軟硬一體虛擬化架構,云主機性能的底層保障
虛擬化是云主機的核心技術,基于公有云、專有云、混合云、邊緣計算等多樣化產品形態發展趨勢,京東云自主研發了行業領先的全技術棧云計算虛擬化引擎--“京剛”, 并兼容云主機、裸金屬、原生容器等原有各種計算服務形態,實現了虛擬化架構的統一升級。
“京剛”的核心功能模塊全部源自京東云自研虛擬化技術,實現了專有場景芯片自主研發技術的突破性創新。它將云計算的完整核心技術棧–計算虛擬化、網絡虛擬化和存儲虛擬化,高度集成到京東云自主研發的智能芯片中,實現了真正的硬件虛擬化,在提供高吞吐量、低延遲的虛擬網絡和存儲設備的同時,還從硬件級別隔離了用戶負載與管理負載,最大程度提高了云計算平臺的安全性。
故障預測+自動恢復,智能系統保障云主機穩定性
此次SLA提升,是在2020年12月京東云發布單云主機穩定性達99.975%基礎上的再次提升,不到一年的時間內兩次升級,已遠超行業內2-3年的平均提升周期,這得益于一套基于全方位數據驅動的故障預測及自動恢復系統。
借助這套系統,京東云可以對云主機進行涵蓋軟硬件的多維度、毫秒級別全棧響應。通過智能分析,學習相關歷史數據,可實現高準確率的故障預判,并結合豐富的熔斷策略,采取有效措施避免對用戶產生影響,減少用戶損失。在對單機穩定性要求極高的行業,比如游戲行業中,單云主機SLA的提升意義重大。
故障域隔離,多層次架構保障云服務高可用
面對政企客戶的數字化轉型需求,京東云提供完整的云基礎設施和應用開發平臺,不僅有高達 99.99% SLA標準的IaaS服務,還有云原生的PaaS服務、AI和IoT的全棧服務體系、多層次安全防護和合規認證。
為保障整體公有云服務的穩定性,京東云在長期實踐中探索出出一套多層次高可用架構,并已在京東的復雜業務場景中得到充分驗證。
跨地域部署實現災備或雙活(地域級別高可用),以及單地域下跨多可用區部署實現低延遲服務高可用(可用區級別高可用)是兩種常見的高可用架構模型。在此基礎上,為進一步提高單可用區內部署業務的可用性,并降低服務系統升級迭代對客戶業務的影響,京東云優化了資源管理和調度,提出了故障影響域的概念,其包括:硬件故障影響域和管理軟件故障影響域。
硬件故障影響域,是數據中心內由網絡交換機或電源設備故障造成的單點硬件故障最大影響范圍,通常可以理解為一個或一組機架。不同影響域內的服務器,由于存在電力網絡的物理級別隔離,因此可以最小化物理硬件潛在故障、網絡中斷或電源中斷的影響。用戶可配合使用“高可用組”產品實現反親和性調度,將云主機實例創建在多個故障影響域內,最大程度規避局部硬件故障對業務的影響。
管理軟件故障影響域,是指由云服務系統管理軟件故障造成的云資源生命周期管理異常影響范圍。隨著云上用戶體量和資源規模逐步擴大,京東云在單地域下以分組集群模式管理系統軟件及服務,將多個可用區內的計算資源及系統服務橫向劃分為多個邏輯分組,多分組集群模式下系統服務的部署均以分組為最小單位,每個分組可以實現獨立升級,以此精確控制軟件故障機系統升級對用戶的影響范圍,降低服務異常對用戶業務的影響,實現無感知的平滑升級。
大規模復雜場景磨練,護航企業數字化轉型
單云主機的穩定性承諾提升到 99.99%,折射出京東云的前沿技術優勢和豐富業務經驗積。歷經京東零售、京東物流、京東科技等京東集團內部核心業務的千錘百煉,并通過歷年京東618及京東11.11考驗,京東云在保障服務穩定性方面有長期的技術積累和實踐。
伴隨京東體系的持續高速發展,京東云始終面臨數據流量的大規模增長,從前端網站、訂單、結算、支付、搜索、推薦,到后端的倉儲、配送、客服、售后全流程,為滿足各類業務系統在云上的平穩運行,磨練出京東云在云服務穩定性方面的的極強能力。
以今年618為例,京東云每秒用戶訪問峰值同比提升152%,訪問帶寬同比提升185%,混合云操作系統云艦在線管理Pod數量超過200萬,運行容器峰值核數超過1000萬,背后是京東云以超高彈性應對海量并發需求,以穩定、安全、可信賴的技術服務,高質量護航全程用戶體驗。
不僅僅在京東體系內部,京東云也在供應鏈、物流、金融、保險、地產、健康等十余個行業深耕多年,本次單云主機穩定性承諾升級,更是對廣大客戶的鄭重承諾,將助力更多政企客戶搭建高可用的云服務,讓企業上云不再是難題,讓云上業務運作不再有障礙。