• 官方微信
  • 手機版
搜索

用云計算應對“突變”

中國科學報  |  2020年02月14日
增加服務器數量配合更強大的軟件是最直接的增強系統能力的方式,但服務器及其運維價格不菲,增加企業成本。如果按照滿足突變型峰值業務在峰值期間,來準備服務器資源,“閑時”則會造成巨大的資源閑置和浪費。

  2019年12月以來,突發的新冠肺炎疫情引起公眾關注。隨著發病人數持續上升,各大社交平臺也忙碌異常,與疫情相關的詞條、帖子等搜索瀏覽量急劇攀升,各大運營商的服務器壓力巨大。面對“壓力”,上海交通大學(以下簡稱上海交大)計算機科學與技術系教授過敏意很淡定。

  “目前我們的技術完全能滿足受眾需要,‘服務器不夠用’這種情況很難發生。”過敏意說。

  過敏意口中的技術就是日前在國家科學技術獎勵大會上獲得國家技術發明獎二等獎的“面對突變型峰值服務的云計算關鍵技術與系統”項目。該項目由上海交大與阿里云共同合作,歷時十余年,研發出支持突變型峰值服務的云計算系統SPS,可以支持暴增的流量服務需要。

  流量如洪

  2005年,當時在日本會津大學從事并行與分布計算研究的過敏意十分彷徨,5年來他一頭扎進云計算基礎研究,但也深知應用才是檢驗成果的金標準。當時,他預感中國有廣闊的云計算應用空間。

  為了近距離參與國內“計算”事業,2006年,過敏意離開舒適圈,來到上海交大計算機系。

  時間很快印證了過敏意的想法。2009年,阿里巴巴計劃推出天貓“雙十一”活動。該活動必然使大量流量集中流入,造成突變型峰值,這將導致用戶請求響應慢、系統崩潰等問題。

  阿里云智能事業群基礎產品事業部工程師丁海洋介紹,增加服務器數量配合更強大的軟件是最直接的增強系統能力的方式,但服務器及其運維價格不菲,增加企業成本。如果按照滿足突變型峰值業務需求在峰值期間,如“雙十一”當晚來準備服務器資源,“雙十一”之外的“閑時”則會造成巨大的資源閑置和浪費。

  “因此,我們必須想辦法提高數據中心單位服務器資源的使用效率,讓同樣規模的服務器做更多的事。”丁海洋說。

  因此,對于IT企業來說使用的服務器數量是一項頂級的商業機密。

  向“云”要答案

  突變型峰值常見于“春運搶票”“春晚”“雙十一”等場景。盡管這些場景在十年前非常少,但這一難題還是引起國內外諸多研究團隊關注。

  如何不依靠服務器提高數據處理能力?過敏意將目標鎖定在“云”上。

  “云計算具有極大的靈活性,它的彈性計算能力可以大大降低企業的運行成本。云計算也是今后幾十年企業的使能性技術,是發展趨勢。”過敏意說。

  但面對網絡流量洪峰,傳統云計算技術并不能應付,并呈現出云中低算力節點負載高,調度不均衡;存儲設備擴展故障劇增,恢復不迅速;服務鏡像倉庫網絡擁塞,分發不及時;專家經驗演進和查詢慢,分析不智能等四大問題。

  事實上,不只過敏意,很多研究團隊都將解決辦法聚焦在“云”上,但進展緩慢。

  過敏意并沒有打退堂鼓,相反他帶領團隊將云計算面臨的問題一一列出,并選出其中最艱難的問題,即強實時、高吞吐、快擴展、高魯棒性,作為攻關目標。

  此后的十余年里,過敏意往返于上海交大和杭州阿里巴巴總部之間,在應用中試驗研究成果,與阿里巴巴的工程師們探討解決辦法。

“過敏意幾乎每周都要來杭州一次,他所在的團隊也有長期駐阿里巴巴進行研究的成員。”阿里云智能事業群戰略與合作部工程師邵海濤說。

  把“最要命”的系統放在云上

  功夫不負有心人。歷時十余年,這項產學研的合作研究成效初現。在2019年天貓“雙十一”活動中,阿里巴巴核心系統100%上云,訂單創建峰值達到54.4萬筆/秒,是2009年第一次“雙十一”的1360倍。

  這些核心突破很多源于該項目的核心技術,如突變峰值用戶請求快速處理技術、基于存儲陣列的數據高可靠吞吐技術、基于容器和混合部署的高效資源整合技術和基于內存數據分析的服務質量保證技術。

  “快速處理技術”“高可靠吞吐技術” 滿足了用戶對低時延、高可靠的要求,實現了天貓“雙十一”2019年54.4萬單/秒的請求處理需求,將峰值時用戶請求尾時延從分鐘級降低至百毫秒級。“也就是說,用戶發出搜索指定商品、查庫存、總價計算等指令的響應速度大大加快。”丁海洋說。

  最讓研究人員自豪的是“容器和混部技術”,過敏意戲稱這項技術為“殺手锏”,大大提高了資源使用效率。究其秘訣,過敏意介紹,這項技術具有“統籌頭腦”,能將相同/相似需求合并處理,也能識別任務的輕重緩急,優先處理對時效要求高的任務。

  “盡管有輕重緩急之分,但這項技術并不會降低用戶體驗,用戶需求會在第一時間得到滿足。”邵海濤說,“此外,‘質量保證技術’也為服務質量加了把放心鎖。”

  一般千臺服務器同時運行的情況下,每天1~2臺出現問題比較常見。一種情況是,服務器直接宕機或因其它原因停止服務,系統具有自動恢復能力,用戶無法感知。還有更多的情況是,服務器本身的問題并不顯著,但的確降低了運行其上軟件的服務質量,像是在“偷懶”。

  “由于服務器規模太大、分布式系統本身的復雜性,在極端情況下,用戶反饋問題后,工作人員才能剝繭抽絲般找到“偷懶”的服務器,但此時服務質量已經受到影響。”丁海洋說。

  為了保證服務質量,研究人員研發出預先識別“偷懶”的服務器、引導負載使用其他正常運行的服務器的技術。

  阿里云智能事業群總裁張建鋒表示,2019年“雙十一”,阿里巴巴把“最要命”的系統全都放在云上。“雙十一”開始后十分鐘,基本上消費者沒有感受到任何抖動,購物非常順暢。這是因為阿里在核心虛擬機系統、數據庫、計算與存儲、RDMA網絡等四個方面做了核心突破。

科研有望上“云”

  SPS系統實現了云計算基礎軟件國外產品的替代,推動了核心軟件的國產化。過敏意介紹說,該成果除了保障天貓“雙十一”活動順利進行,還應用于國家電網、中國聯通、新浪微博、中國郵政、優酷視頻、餓了么、衛寧健康等30余家企事業單位。

  邵海濤表示,隨著新冠肺炎疫情的發展,該技術的應用場景進一步拓展。目前居家辦公的用戶越來越多,以釘釘打卡為代表的遠程辦公軟件也面臨突變型峰值需求場景。該技術能夠保障遠程辦公系統的正常運行。

  疫情當前,醫藥界科研人員的研發任務吃緊,計算資源巨大。“科研運算往往借助大型計算設備進行,但國內這樣的設備有限,很難滿足洪水般的運算需求,借助云計算解決科研數據處理的難題不失為一種解決辦法。”邵海濤提出。

  事實上,該項目的研究工作仍在繼續。談及后續的研究計劃,過敏意表示,隨著5G時代的來臨,客戶端的數據處理能力增強、數據交換更頻繁,這套系統如何增強邊緣計算的能力,如何支持和響應客戶端需求,是團隊接下來的研究方向。 

  隨時了解中國服務貿易(外包)行業最新動態,請掃描二維碼或搜索"鼎韜洞察",關注我們!

標簽:
分享到:
更多
相關閱讀
已有0條微評
還可以輸入 140 個字
新浪微博評論
推薦
開拓進取 引領未來|中國服務外包行業十大人物(2019...
即日起至2020年5月8日,“中國最具影響力服務貿易(...
為加快中國呼叫中心產業發展,提升中國呼叫中心運營管理水...
即日起至2020年5月8日,“中國最具影響力金融服務企...
數字化和貿易有機融合,所有服務企業都可以是數字化公司,...
專題
點擊排行榜
電話:+86-22-66211566
傳真:+86-22-66211568
郵箱:[email protected]
Copyright ? 2007 - 2018 Chnsourcing.com.cn All Rights Reserved
網站運營支持: 天津鼎韜科技發展有限公司
津B2-20080229
双色球开奖时间 温州麻将跑马规则 重庆幸运农场开到几点 推荐北单足球竞彩 信达期货配资 广东36选7怎么算中奖 股票k线组合图解 网络平台赚钱方法 浙江福利福彩十二选五 腾讯游戏没有天津麻将 大地棋牌游戏客户端下载 江苏快3直接下载 广西快乐十分20选8号万能码 内蒙古快3下载 658配资 谷歌股票行情 股票短线投资技巧