香港 C 區,阿里雲滑鐵盧!

我向來是很佩服阿里雲的,因爲它很有商業頭腦,很早就能夠抄 AWS 的作業,並能夠把那些開源軟件改吧改吧來賺錢。像其他的雲,反應就非常遲鈍,以至於現在不得不靠走關係、吹情懷來拉客戶。

但是在馬雲比較風光的那個年代,我們話不能亂說。往昔之阿里猶如今日之華爲,都喜歡暴力的把你的帖子幹掉,把你身上帶孔的地方全給堵住,讓這些憤恨與不甘,逐漸侵蝕你冰清玉潔的身體。這是比起事實本質來,更讓人寢食難安的地方。

那麼,事情發展到今天,我們也並不需要追尋事實的本質,我們只需要看事實的結果。

12月18日,阿里雲香港C區機房發生故障,持續達10小時以上(https://status.aliyun.com )。香港作爲金融技術行業最集中的存在,位置不可謂不重要。我們有理由相信,如果阿里雲連香港的可用區都做不好,其他地方的可用區就是一個笑話。

在這個高燒此起彼伏,世界盃決戰的18日,許多程序員註定需要陪跑一番,爲此買單。

那麼,什麼是可用區AZ?

對於雲廠商來說,Region 是指不同的物理區域,比如北美、亞洲等。AZ 則指的是某個 Region 的裡的可用區域。一個 Region 包含一個或者多個 AZ(通常是三個)。

AZ 是指在同一地域內,電力和網絡互相獨立的物理區域。當一個AZ 發生故障,其他 AZ 依然能夠提供服務。爲了保證可用區之間訪問時延能夠儘量小,通常都會建立在 100 公里以內,通過光纖和專線相連。

通過 Region 和 AZ,你可以將服務全部部署在同一個地域中,同時保證良好的時延和服務能力。

拿 ES 數據庫來說,如果你想要保證在某個 AZ 出現問題的時候,能夠正常提供服務,那麼就需要將 3 個節點部署在 3 個不同的 AZ 上。當其中一個 AZ 出現問題,剩餘的兩個節點依然能夠提供服務。

如今看來,AZ 自身的可用性以及雲提供商出現問題的響應能力,非常影響雲服務的整體穩健。除了自建機房這一套機制,未來跨雲服務依然是一個趨勢。

雖然 AZ 的存在,就是爲了解決單個 AZ 不可用的問題。但 AZ 的不可用時間,依然會大大影響部署在上面的服務。理論上,C 區崩了可以轉到 D 區,但:

客戶可能並沒有錢和意識來選擇多個 AZ 來分散風險;

一些平常看起來不重要,但其實很重要的服務,並沒有部署到多個 AZ;

許多軟件可能並沒有能力來兼容多個AZ;

k8s增加了雲上的複雜性,通常出問題會一鍋端;

也就是說,AZ 不能光靠想,還得靠演練,用實踐來確定其能力。僅靠空想,那是行不通的。所以單個AZ的可用能力依然是非常非常重要。

我們上面說過了,作爲用戶或者非雲廠商從業人員,並沒有必要關注其本質問題,比如是技術問題還是管理問題,我們只需要關注其結果。阿里雲此次當機,已經完全打破了它所承諾的服務等級協議(SLA)。雖然 SLA 低於某些水平,會有一定的賠付,但對商業公司所產生的信譽影響,並不是一些優惠券就能解決的事。

當然,本次阿里雲故障,沸騰的並不僅僅是吃瓜羣衆,另外一些不入流的雲廠商,更不會錯過這個沸騰的機會。但你一定要小心這些宣傳,因爲它們比起阿里雲,更加的不堪。

畢竟目前看來,使用阿里雲,你或許得到的是一個看起來很傲嬌的客服;但你如果用了某些雲,你的抱怨就會變成404。這些容易讓你憋出青春痘的做法,比起服務器宕機,要惡劣的多。