測(cè)試 Spark 任務(wù)包括對(duì)數(shù)據(jù)的解析、過(guò)濾、合并和聚合,這些數(shù)據(jù)來(lái)自公開(kāi)的 堆棧交換數(shù)據(jù)轉(zhuǎn)儲(chǔ) (Stack Exchange Data Dump)。通過(guò)運(yùn)行相同的 JAR,我們首先對(duì)大約 50M 的數(shù)據(jù)子集進(jìn)行 交叉驗(yàn)證 ,然后將驗(yàn)證擴(kuò)大到大約 9.5G 的數(shù)據(jù)集。

Figure 1. Credit: Michael Li and Ariel M'ndange-Pfupfu.

Figure 2. Credit: Michael Li and Ariel M'ndange-Pfupfu.
結(jié)果表明,短任務(wù)在 GCP 上具有明顯的成本優(yōu)勢(shì),這是因?yàn)?GCP 以分鐘計(jì)費(fèi),并最終扣除了 10 分鐘的費(fèi)用,而 AWS 則收取了 1 小時(shí)的費(fèi)用。但是即使長(zhǎng)任務(wù),因?yàn)橛?jì)費(fèi)方式占優(yōu),GPS 仍然具有相當(dāng)優(yōu)勢(shì)。同樣值得注意的是存儲(chǔ)成本并不包括在此次比較當(dāng)中。
結(jié)論
AWS 是云計(jì)算的先驅(qū),這甚至體現(xiàn)在 API 中。AWS 擁有巨大的生態(tài)系統(tǒng),但其許可模型已略顯陳舊,配置管理也有些晦澀難解。相比之下,Google 是云計(jì)算領(lǐng)域的新星并且將云計(jì)算服務(wù)打造得更加圓潤(rùn)自如。但是 GCP 缺少一些便捷的功能,比如通過(guò)簡(jiǎn)單方法自動(dòng)結(jié)束集群和詳細(xì)的任務(wù)計(jì)費(fèi)信息分解。另外,其 Python 編程接口也不像AWS 的 Boto 那么全面。
如果你初次使用云計(jì)算,GCP 因其簡(jiǎn)單易用,別具魅力。即使你已在使用 AWS,你也許會(huì)發(fā)現(xiàn)遷移到 GCP 可能更劃算,盡管真正從 AWS 遷移到 GCP 的代價(jià)可能得不償失。
當(dāng)然,現(xiàn)在對(duì)兩種云服務(wù)作一個(gè)全面的總結(jié)還非常困難,因?yàn)樗鼈兌疾皇菃我坏膶?shí)體,而是由多個(gè)實(shí)體整合而成的完整生態(tài)系統(tǒng),并且各有利弊。真正的贏家是用戶。一個(gè)例證就是在數(shù)據(jù)孵化器(The Data Incubator),我們的博士數(shù)據(jù)科學(xué)研究員在學(xué)習(xí)分布式負(fù)載的過(guò)程中真正體會(huì)到成本的下降。雖然我們的 大數(shù)據(jù)企業(yè)培訓(xùn)客戶 可能對(duì)價(jià)格不那么敏感,他們更在意能夠更快速地處理企業(yè)數(shù)據(jù),同時(shí)保持價(jià)格不增加。數(shù)據(jù)科學(xué)家現(xiàn)在可以享受大量的可選服務(wù),這些都是從競(jìng)爭(zhēng)激烈的云計(jì)算市場(chǎng)得到的實(shí)惠。