京東云穩(wěn)定性達(dá)行業(yè)最高標(biāo)準(zhǔn):?jiǎn)卧浦鳈C(jī)SLA提升至99.99%
來源:中金在線
?
2021-10-11 15:03:13
今年京東云峰會(huì)上發(fā)布京剛第四代云主機(jī)時(shí),一項(xiàng)數(shù)據(jù)引起業(yè)界關(guān)注——“單云主機(jī)SLA承諾 99.99%”,這是迄今為止所有云服務(wù)商中最高的服務(wù)承諾。
500)this.width=500\" align=\"center\" hspace=10 vspace=10 alt=\"京東云穩(wěn)定性達(dá)行業(yè)最高標(biāo)準(zhǔn):?jiǎn)卧浦鳈C(jī)SLA提升至99.99% \">
服務(wù)等級(jí)協(xié)議(Service-Level Agreement,縮寫SLA),是服務(wù)提供商與客戶之間的正式承諾,具有法律效力。云服務(wù)廠商的SLA通常以最小化不可用時(shí)間為目標(biāo),保障云服務(wù)器運(yùn)行的穩(wěn)定性與可用性。
99.975%到99.99%,云主機(jī)穩(wěn)定性大升級(jí)
越來越多企業(yè)選擇“上云”,用“云”代替本地?cái)?shù)據(jù)中心,一個(gè)重要原因就是傳統(tǒng)IT基礎(chǔ)設(shè)施難以企及云服務(wù)的超高穩(wěn)定性。云廠商的SLA通常是線下數(shù)據(jù)中心的5倍以上,不僅大大降低了租用成本,也讓企業(yè)和用戶有了多元化選擇。
SLA的提升,意味著云服務(wù)商承諾提供的計(jì)算服務(wù)所能達(dá)到的服務(wù)質(zhì)量和標(biāo)準(zhǔn)在提升。數(shù)字的微小變化,背后是企業(yè)級(jí)服務(wù)可靠性的巨大進(jìn)步。
京東云單云主機(jī)SLA從99.975%提升至99.99%,意味著其月不可用時(shí)間從10.8分鐘降低至4.32分鐘,不可用時(shí)長(zhǎng)降低了60%,標(biāo)志著京東云在云服務(wù)穩(wěn)定性領(lǐng)域達(dá)到行業(yè)最高標(biāo)準(zhǔn),進(jìn)一步保障企業(yè)關(guān)鍵業(yè)務(wù)在云上平穩(wěn)、順滑運(yùn)行。
京剛軟硬一體虛擬化架構(gòu),云主機(jī)性能的底層保障
500)this.width=500\" align=\"center\" hspace=10 vspace=10 alt=\"京東云穩(wěn)定性達(dá)行業(yè)最高標(biāo)準(zhǔn):?jiǎn)卧浦鳈C(jī)SLA提升至99.99% \">
虛擬化是云主機(jī)的核心技術(shù),基于公有云、專有云、混合云、邊緣計(jì)算等多樣化產(chǎn)品形態(tài)發(fā)展趨勢(shì),京東云自主研發(fā)了行業(yè)領(lǐng)先的全技術(shù)棧云計(jì)算虛擬化引擎--“京剛”, 并兼容云主機(jī)、裸金屬、原生容器等原有各種計(jì)算服務(wù)形態(tài),實(shí)現(xiàn)了虛擬化架構(gòu)的統(tǒng)一升級(jí)。
“京剛”的核心功能模塊全部源自京東云自研虛擬化技術(shù),實(shí)現(xiàn)了專有場(chǎng)景芯片自主研發(fā)技術(shù)的突破性創(chuàng)新。它將云計(jì)算的完整核心技術(shù)棧–計(jì)算虛擬化、網(wǎng)絡(luò)虛擬化和存儲(chǔ)虛擬化,高度集成到京東云自主研發(fā)的智能芯片中,實(shí)現(xiàn)了真正的硬件虛擬化,在提供高吞吐量、低延遲的虛擬網(wǎng)絡(luò)和存儲(chǔ)設(shè)備的同時(shí),還從硬件級(jí)別隔離了用戶負(fù)載與管理負(fù)載,最大程度提高了云計(jì)算平臺(tái)的安全性。
故障預(yù)測(cè)+自動(dòng)恢復(fù),智能系統(tǒng)保障云主機(jī)穩(wěn)定性
此次SLA提升,是在2020年12月京東云發(fā)布單云主機(jī)穩(wěn)定性達(dá)99.975%基礎(chǔ)上的再次提升,不到一年的時(shí)間內(nèi)兩次升級(jí),已遠(yuǎn)超行業(yè)內(nèi)2-3年的平均提升周期,這得益于一套基于全方位數(shù)據(jù)驅(qū)動(dòng)的故障預(yù)測(cè)及自動(dòng)恢復(fù)系統(tǒng)。
借助這套系統(tǒng),京東云可以對(duì)云主機(jī)進(jìn)行涵蓋軟硬件的多維度、毫秒級(jí)別全棧響應(yīng)。通過智能分析,學(xué)習(xí)相關(guān)歷史數(shù)據(jù),可實(shí)現(xiàn)高準(zhǔn)確率的故障預(yù)判,并結(jié)合豐富的熔斷策略,采取有效措施避免對(duì)用戶產(chǎn)生影響,減少用戶損失。在對(duì)單機(jī)穩(wěn)定性要求極高的行業(yè),比如游戲行業(yè)中,單云主機(jī)SLA的提升意義重大。
故障域隔離,多層次架構(gòu)保障云服務(wù)高可用
面對(duì)政企客戶的數(shù)字化轉(zhuǎn)型需求,京東云提供完整的云基礎(chǔ)設(shè)施和應(yīng)用開發(fā)平臺(tái),不僅有高達(dá) 99.99% SLA標(biāo)準(zhǔn)的IaaS服務(wù),還有云原生的PaaS服務(wù)、AI和IoT的全棧服務(wù)體系、多層次安全防護(hù)和合規(guī)認(rèn)證。
500)this.width=500\" align=\"center\" hspace=10 vspace=10 alt=\"京東云穩(wěn)定性達(dá)行業(yè)最高標(biāo)準(zhǔn):?jiǎn)卧浦鳈C(jī)SLA提升至99.99% \">
為保障整體公有云服務(wù)的穩(wěn)定性,京東云在長(zhǎng)期實(shí)踐中探索出出一套多層次高可用架構(gòu),并已在京東的復(fù)雜業(yè)務(wù)場(chǎng)景中得到充分驗(yàn)證。
跨地域部署實(shí)現(xiàn)災(zāi)備或雙活(地域級(jí)別高可用),以及單地域下跨多可用區(qū)部署實(shí)現(xiàn)低延遲服務(wù)高可用(可用區(qū)級(jí)別高可用)是兩種常見的高可用架構(gòu)模型。在此基礎(chǔ)上,為進(jìn)一步提高單可用區(qū)內(nèi)部署業(yè)務(wù)的可用性,并降低服務(wù)系統(tǒng)升級(jí)迭代對(duì)客戶業(yè)務(wù)的影響,京東云優(yōu)化了資源管理和調(diào)度,提出了故障影響域的概念,其包括:硬件故障影響域和管理軟件故障影響域。
硬件故障影響域,是數(shù)據(jù)中心內(nèi)由網(wǎng)絡(luò)交換機(jī)或電源設(shè)備故障造成的單點(diǎn)硬件故障最大影響范圍,通常可以理解為一個(gè)或一組機(jī)架。不同影響域內(nèi)的服務(wù)器,由于存在電力網(wǎng)絡(luò)的物理級(jí)別隔離,因此可以最小化物理硬件潛在故障、網(wǎng)絡(luò)中斷或電源中斷的影響。用戶可配合使用“高可用組”產(chǎn)品實(shí)現(xiàn)反親和性調(diào)度,將云主機(jī)實(shí)例創(chuàng)建在多個(gè)故障影響域內(nèi),最大程度規(guī)避局部硬件故障對(duì)業(yè)務(wù)的影響。
管理軟件故障影響域,是指由云服務(wù)系統(tǒng)管理軟件故障造成的云資源生命周期管理異常影響范圍。隨著云上用戶體量和資源規(guī)模逐步擴(kuò)大,京東云在單地域下以分組集群模式管理系統(tǒng)軟件及服務(wù),將多個(gè)可用區(qū)內(nèi)的計(jì)算資源及系統(tǒng)服務(wù)橫向劃分為多個(gè)邏輯分組,多分組集群模式下系統(tǒng)服務(wù)的部署均以分組為最小單位,每個(gè)分組可以實(shí)現(xiàn)獨(dú)立升級(jí),以此精確控制軟件故障機(jī)系統(tǒng)升級(jí)對(duì)用戶的影響范圍,降低服務(wù)異常對(duì)用戶業(yè)務(wù)的影響,實(shí)現(xiàn)無感知的平滑升級(jí)。
大規(guī)模復(fù)雜場(chǎng)景磨練,護(hù)航企業(yè)數(shù)字化轉(zhuǎn)型
單云主機(jī)的穩(wěn)定性承諾提升到 99.99%,折射出京東云的前沿技術(shù)優(yōu)勢(shì)和豐富業(yè)務(wù)經(jīng)驗(yàn)積。歷經(jīng)京東零售、京東物流、京東科技等京東集團(tuán)內(nèi)部核心業(yè)務(wù)的千錘百煉,并通過歷年京東618及京東11.11考驗(yàn),京東云在保障服務(wù)穩(wěn)定性方面有長(zhǎng)期的技術(shù)積累和實(shí)踐。
伴隨京東體系的持續(xù)高速發(fā)展,京東云始終面臨數(shù)據(jù)流量的大規(guī)模增長(zhǎng),從前端網(wǎng)站、訂單、結(jié)算、支付、搜索、推薦,到后端的倉(cāng)儲(chǔ)、配送、客服、售后全流程,為滿足各類業(yè)務(wù)系統(tǒng)在云上的平穩(wěn)運(yùn)行,磨練出京東云在云服務(wù)穩(wěn)定性方面的的極強(qiáng)能力。
以今年618為例,京東云每秒用戶訪問峰值同比提升152%,訪問帶寬同比提升185%,混合云操作系統(tǒng)云艦在線管理Pod數(shù)量超過200萬,運(yùn)行容器峰值核數(shù)超過1000萬,背后是京東云以超高彈性應(yīng)對(duì)海量并發(fā)需求,以穩(wěn)定、安全、可信賴的技術(shù)服務(wù),高質(zhì)量護(hù)航全程用戶體驗(yàn)。
不僅僅在京東體系內(nèi)部,京東云也在供應(yīng)鏈、物流、金融、保險(xiǎn)、地產(chǎn)、健康等十余個(gè)行業(yè)深耕多年,本次單云主機(jī)穩(wěn)定性承諾升級(jí),更是對(duì)廣大客戶的鄭重承諾,將助力更多政企客戶搭建高可用的云服務(wù),讓企業(yè)上云不再是難題,讓云上業(yè)務(wù)運(yùn)作不再有障礙。
服務(wù)等級(jí)協(xié)議(Service-Level Agreement,縮寫SLA),是服務(wù)提供商與客戶之間的正式承諾,具有法律效力。云服務(wù)廠商的SLA通常以最小化不可用時(shí)間為目標(biāo),保障云服務(wù)器運(yùn)行的穩(wěn)定性與可用性。
99.975%到99.99%,云主機(jī)穩(wěn)定性大升級(jí)
越來越多企業(yè)選擇“上云”,用“云”代替本地?cái)?shù)據(jù)中心,一個(gè)重要原因就是傳統(tǒng)IT基礎(chǔ)設(shè)施難以企及云服務(wù)的超高穩(wěn)定性。云廠商的SLA通常是線下數(shù)據(jù)中心的5倍以上,不僅大大降低了租用成本,也讓企業(yè)和用戶有了多元化選擇。
SLA的提升,意味著云服務(wù)商承諾提供的計(jì)算服務(wù)所能達(dá)到的服務(wù)質(zhì)量和標(biāo)準(zhǔn)在提升。數(shù)字的微小變化,背后是企業(yè)級(jí)服務(wù)可靠性的巨大進(jìn)步。
京東云單云主機(jī)SLA從99.975%提升至99.99%,意味著其月不可用時(shí)間從10.8分鐘降低至4.32分鐘,不可用時(shí)長(zhǎng)降低了60%,標(biāo)志著京東云在云服務(wù)穩(wěn)定性領(lǐng)域達(dá)到行業(yè)最高標(biāo)準(zhǔn),進(jìn)一步保障企業(yè)關(guān)鍵業(yè)務(wù)在云上平穩(wěn)、順滑運(yùn)行。
京剛軟硬一體虛擬化架構(gòu),云主機(jī)性能的底層保障
虛擬化是云主機(jī)的核心技術(shù),基于公有云、專有云、混合云、邊緣計(jì)算等多樣化產(chǎn)品形態(tài)發(fā)展趨勢(shì),京東云自主研發(fā)了行業(yè)領(lǐng)先的全技術(shù)棧云計(jì)算虛擬化引擎--“京剛”, 并兼容云主機(jī)、裸金屬、原生容器等原有各種計(jì)算服務(wù)形態(tài),實(shí)現(xiàn)了虛擬化架構(gòu)的統(tǒng)一升級(jí)。
“京剛”的核心功能模塊全部源自京東云自研虛擬化技術(shù),實(shí)現(xiàn)了專有場(chǎng)景芯片自主研發(fā)技術(shù)的突破性創(chuàng)新。它將云計(jì)算的完整核心技術(shù)棧–計(jì)算虛擬化、網(wǎng)絡(luò)虛擬化和存儲(chǔ)虛擬化,高度集成到京東云自主研發(fā)的智能芯片中,實(shí)現(xiàn)了真正的硬件虛擬化,在提供高吞吐量、低延遲的虛擬網(wǎng)絡(luò)和存儲(chǔ)設(shè)備的同時(shí),還從硬件級(jí)別隔離了用戶負(fù)載與管理負(fù)載,最大程度提高了云計(jì)算平臺(tái)的安全性。
故障預(yù)測(cè)+自動(dòng)恢復(fù),智能系統(tǒng)保障云主機(jī)穩(wěn)定性
此次SLA提升,是在2020年12月京東云發(fā)布單云主機(jī)穩(wěn)定性達(dá)99.975%基礎(chǔ)上的再次提升,不到一年的時(shí)間內(nèi)兩次升級(jí),已遠(yuǎn)超行業(yè)內(nèi)2-3年的平均提升周期,這得益于一套基于全方位數(shù)據(jù)驅(qū)動(dòng)的故障預(yù)測(cè)及自動(dòng)恢復(fù)系統(tǒng)。
借助這套系統(tǒng),京東云可以對(duì)云主機(jī)進(jìn)行涵蓋軟硬件的多維度、毫秒級(jí)別全棧響應(yīng)。通過智能分析,學(xué)習(xí)相關(guān)歷史數(shù)據(jù),可實(shí)現(xiàn)高準(zhǔn)確率的故障預(yù)判,并結(jié)合豐富的熔斷策略,采取有效措施避免對(duì)用戶產(chǎn)生影響,減少用戶損失。在對(duì)單機(jī)穩(wěn)定性要求極高的行業(yè),比如游戲行業(yè)中,單云主機(jī)SLA的提升意義重大。
故障域隔離,多層次架構(gòu)保障云服務(wù)高可用
面對(duì)政企客戶的數(shù)字化轉(zhuǎn)型需求,京東云提供完整的云基礎(chǔ)設(shè)施和應(yīng)用開發(fā)平臺(tái),不僅有高達(dá) 99.99% SLA標(biāo)準(zhǔn)的IaaS服務(wù),還有云原生的PaaS服務(wù)、AI和IoT的全棧服務(wù)體系、多層次安全防護(hù)和合規(guī)認(rèn)證。
為保障整體公有云服務(wù)的穩(wěn)定性,京東云在長(zhǎng)期實(shí)踐中探索出出一套多層次高可用架構(gòu),并已在京東的復(fù)雜業(yè)務(wù)場(chǎng)景中得到充分驗(yàn)證。
跨地域部署實(shí)現(xiàn)災(zāi)備或雙活(地域級(jí)別高可用),以及單地域下跨多可用區(qū)部署實(shí)現(xiàn)低延遲服務(wù)高可用(可用區(qū)級(jí)別高可用)是兩種常見的高可用架構(gòu)模型。在此基礎(chǔ)上,為進(jìn)一步提高單可用區(qū)內(nèi)部署業(yè)務(wù)的可用性,并降低服務(wù)系統(tǒng)升級(jí)迭代對(duì)客戶業(yè)務(wù)的影響,京東云優(yōu)化了資源管理和調(diào)度,提出了故障影響域的概念,其包括:硬件故障影響域和管理軟件故障影響域。
硬件故障影響域,是數(shù)據(jù)中心內(nèi)由網(wǎng)絡(luò)交換機(jī)或電源設(shè)備故障造成的單點(diǎn)硬件故障最大影響范圍,通常可以理解為一個(gè)或一組機(jī)架。不同影響域內(nèi)的服務(wù)器,由于存在電力網(wǎng)絡(luò)的物理級(jí)別隔離,因此可以最小化物理硬件潛在故障、網(wǎng)絡(luò)中斷或電源中斷的影響。用戶可配合使用“高可用組”產(chǎn)品實(shí)現(xiàn)反親和性調(diào)度,將云主機(jī)實(shí)例創(chuàng)建在多個(gè)故障影響域內(nèi),最大程度規(guī)避局部硬件故障對(duì)業(yè)務(wù)的影響。
管理軟件故障影響域,是指由云服務(wù)系統(tǒng)管理軟件故障造成的云資源生命周期管理異常影響范圍。隨著云上用戶體量和資源規(guī)模逐步擴(kuò)大,京東云在單地域下以分組集群模式管理系統(tǒng)軟件及服務(wù),將多個(gè)可用區(qū)內(nèi)的計(jì)算資源及系統(tǒng)服務(wù)橫向劃分為多個(gè)邏輯分組,多分組集群模式下系統(tǒng)服務(wù)的部署均以分組為最小單位,每個(gè)分組可以實(shí)現(xiàn)獨(dú)立升級(jí),以此精確控制軟件故障機(jī)系統(tǒng)升級(jí)對(duì)用戶的影響范圍,降低服務(wù)異常對(duì)用戶業(yè)務(wù)的影響,實(shí)現(xiàn)無感知的平滑升級(jí)。
大規(guī)模復(fù)雜場(chǎng)景磨練,護(hù)航企業(yè)數(shù)字化轉(zhuǎn)型
單云主機(jī)的穩(wěn)定性承諾提升到 99.99%,折射出京東云的前沿技術(shù)優(yōu)勢(shì)和豐富業(yè)務(wù)經(jīng)驗(yàn)積。歷經(jīng)京東零售、京東物流、京東科技等京東集團(tuán)內(nèi)部核心業(yè)務(wù)的千錘百煉,并通過歷年京東618及京東11.11考驗(yàn),京東云在保障服務(wù)穩(wěn)定性方面有長(zhǎng)期的技術(shù)積累和實(shí)踐。
伴隨京東體系的持續(xù)高速發(fā)展,京東云始終面臨數(shù)據(jù)流量的大規(guī)模增長(zhǎng),從前端網(wǎng)站、訂單、結(jié)算、支付、搜索、推薦,到后端的倉(cāng)儲(chǔ)、配送、客服、售后全流程,為滿足各類業(yè)務(wù)系統(tǒng)在云上的平穩(wěn)運(yùn)行,磨練出京東云在云服務(wù)穩(wěn)定性方面的的極強(qiáng)能力。
以今年618為例,京東云每秒用戶訪問峰值同比提升152%,訪問帶寬同比提升185%,混合云操作系統(tǒng)云艦在線管理Pod數(shù)量超過200萬,運(yùn)行容器峰值核數(shù)超過1000萬,背后是京東云以超高彈性應(yīng)對(duì)海量并發(fā)需求,以穩(wěn)定、安全、可信賴的技術(shù)服務(wù),高質(zhì)量護(hù)航全程用戶體驗(yàn)。
不僅僅在京東體系內(nèi)部,京東云也在供應(yīng)鏈、物流、金融、保險(xiǎn)、地產(chǎn)、健康等十余個(gè)行業(yè)深耕多年,本次單云主機(jī)穩(wěn)定性承諾升級(jí),更是對(duì)廣大客戶的鄭重承諾,將助力更多政企客戶搭建高可用的云服務(wù),讓企業(yè)上云不再是難題,讓云上業(yè)務(wù)運(yùn)作不再有障礙。