EN

中國移動集團首席專家楊慰民:達夢新一代分布式數(shù)據(jù)庫在福建移動OLAP場景中的成功實踐

時間:2023-05-30 來源:原創(chuàng)文章 瀏覽量:984
分享:

?

達夢數(shù)據(jù)40余年來始終堅持自主研發(fā)、原始創(chuàng)新,堅持高水平科技自立、自強,致力于推動國產(chǎn)數(shù)據(jù)庫走向更廣闊的應用天地。近日,在2023達夢數(shù)字產(chǎn)業(yè)大會現(xiàn)場,中國移動集團首席專家楊慰民帶來了《以自主研發(fā)推進大數(shù)據(jù)核心數(shù)據(jù)庫自主可控》主題演講。

?

?

達夢數(shù)據(jù)

以下為中國移動集團首席專家楊慰民現(xiàn)場演講內(nèi)容:

?

在我做系統(tǒng)之前,有人說達夢OLTP做得不錯,我今天跟大家分享的是,其實達夢做的OLAP在福建移動也解決了不少問題。


福建移動O域主動運維系統(tǒng)

首先,給大家分享的是福建移動O域主動運維系統(tǒng)。為什么叫主動運維系統(tǒng)?我們在過去十年時間里建了一套系統(tǒng),叫做主動運維系統(tǒng)。相對過去的被動運維系統(tǒng),它能先于客戶投訴,先于設備告警,我的系統(tǒng)能先發(fā)現(xiàn)問題,并且把問題解決了,才實現(xiàn)主動運維的目標。我們帶領團隊,把我們這套系統(tǒng)的整個理論體系、核心算法和所有代碼全都自主做出來了,所以我被評為中國移動的首席專家。當然,這套主動運維系統(tǒng)底層也需要一個強大的數(shù)據(jù)處理和計算平臺,這也就是我們與達夢合作的技術方向。

?

在這個系統(tǒng)當中,應用超過1000個,全部的應用是百分之百我們自己獨立完成。這個是我們的核心。福建移動的這套系統(tǒng)一天處理1.5萬億行、550T的數(shù)據(jù)。每天新增這么大的數(shù)據(jù),對什么數(shù)據(jù)庫都是一個巨大的挑戰(zhàn)。這么大的數(shù)據(jù)量過來,包括數(shù)據(jù)怎么進數(shù)據(jù)庫,如何查它的記錄,都是難題。



從應用100%自研到軟件全棧國產(chǎn)化演進

?

從2019年開始,我們用達夢的分布式數(shù)據(jù)庫換掉Teradata AsterDB。去年開始,又用達夢的分布式數(shù)據(jù)庫換掉了GP(EMC)。截至到當前,我們用達夢數(shù)據(jù)庫又要替換掉全部應用層的關系數(shù)據(jù)庫。整個過程,代碼遷移僅花了一個月左右的時間,一個月完成1000個以上應用系統(tǒng)的遷移。


數(shù)據(jù)現(xiàn)狀及進口數(shù)據(jù)庫弊端
當前數(shù)據(jù)現(xiàn)狀是計算復雜度非常高,核心數(shù)據(jù)層每天日均核心計算任務40000項。進口數(shù)據(jù)庫自主性差、應用成本性高、故障多。使用國外數(shù)據(jù)庫,經(jīng)常會有定期重啟的問題,以及經(jīng)常出現(xiàn)頭接尾的問題。例如,往往昨天數(shù)據(jù),一直算到今天晚上才能算得完。如果昨天數(shù)據(jù)還沒算完,新數(shù)據(jù)又來了,那這個應用只好放棄了,這就是非常大的一個矛盾。對于應用層的關系數(shù)據(jù)庫,它的處理能力也是要求非常高的,替換之后既要支撐應用,也需要參與部分大數(shù)據(jù)數(shù)據(jù)計算,還存在大量跨庫數(shù)據(jù)的處理。


從核心層到應用層數(shù)據(jù)庫國產(chǎn)化改造

核心層OLAP數(shù)據(jù)庫國產(chǎn)化遷移。在這個過程當中,我們以當前結果回看過去幾年,當時我們?yōu)槭裁锤矣眠_夢的OLAP?之前用國外數(shù)據(jù)庫,經(jīng)常重啟,數(shù)據(jù)出不來。后面,把每天運行足夠長的,如每天超過12小時甚至達到13小時的應用,備份一份數(shù)據(jù)到達夢上面。
剛開始,達夢的處理效率和國外差不多,但是通過我們不斷優(yōu)化數(shù)據(jù)庫,最后把之前一天要跑13個小時的應用,到達夢跑不到一半時間,5個多小時就處理完。就這樣,達夢OLAP數(shù)據(jù)庫由備用系統(tǒng)一步一步走向主用,最后把國外系統(tǒng)下線了;接著又把另外一套大數(shù)據(jù)系統(tǒng)業(yè)務也合并到這套達夢的分布式數(shù)據(jù)庫之上,將另外一套國外系統(tǒng)也下線了。
這套系統(tǒng)相對還算穩(wěn)定,但經(jīng)常出現(xiàn)頭接尾,出現(xiàn)數(shù)據(jù)丟失情況。原國外系統(tǒng)中TOP10應用平均應用時長大概是1.18小時,而用達夢的系統(tǒng),同時換了另外不同國外系統(tǒng)之后,TOP10應用平均應用時長只有0.65小時,達夢只用了原來國外數(shù)據(jù)庫的一半時長。再一個就是,因為我們用的OLAP系統(tǒng),我們跟達夢在降低空間存儲方面還實踐了很多有效的辦法。
當然中間的過程是非常艱辛的,達夢研發(fā)團隊付出了極大的努力,改進速度和迭代效率不斷提高。
對數(shù)據(jù)庫應用來講,存在時間、空間的考驗。可能沒有做過大數(shù)據(jù)的都沒有感覺到,數(shù)據(jù)大到存進去的東西取不出來,硬盤都轉不起來了,因此時間和空間是一個永恒的矛盾。在這個上面我們移動團隊也從業(yè)務和架構方面做了非常大的改進。

?

我曾經(jīng)跟達夢高管團隊溝通,希望有一天,達夢的一套OLAP系統(tǒng)能同時替換原來兩套國外數(shù)據(jù)庫(已經(jīng)非常艱難的),最后事實是我們已經(jīng)做到了。

?

傳統(tǒng)做數(shù)據(jù)庫的廠家,他們在網(wǎng)管上,更多把注意力放在資源利用率監(jiān)控、數(shù)據(jù)本身運行監(jiān)控等等。項目中,我們告訴他怎么做可能更適合,以我們多年經(jīng)驗來講,從業(yè)務層面開始進行監(jiān)控。所以我們把底層監(jiān)控和應用監(jiān)控加在一起,使得達夢數(shù)據(jù)庫的穩(wěn)定性又得到比較大的提升。其實,在監(jiān)控領域,是國產(chǎn)數(shù)據(jù)庫趕超國外數(shù)據(jù)庫的一個比較好的途徑,對業(yè)務理解上的補充這是非常重要的。
今年到這個月底,我們已經(jīng)做了百分之八十以上的應用層改造,已經(jīng)基本完成。我們原來應用層用28臺國外單機關系數(shù)據(jù)庫,現(xiàn)在我們只用7個節(jié)點的達夢新一代分布式數(shù)據(jù)庫一套就是先全替換,采用云化部署,穩(wěn)定性提高的同時,資源都大大省了下來。


總結與思考
最后是我們的總結,我想這是我們用心工作以后的真實的想法。


第一,自主研發(fā)的重要性。因為福建移動做的這套主動運維系統(tǒng)是百分之百我們自己做的。如果這個系統(tǒng)別人做的,遷移可能會存在一些問題。因為是我們自己做,我們對業(yè)務深刻理解,所以使后續(xù)處理問題變得簡單了。
第二,長期的暴力應用場景對達夢來講是一個考驗。長期暴力測試,所有原來沒出現(xiàn)的問題它都會暴露出來,最后都能解決,證明達夢數(shù)據(jù)庫更穩(wěn)定了。
第三,可管可控是提升國產(chǎn)數(shù)據(jù)庫有效途徑。前面我說的底層的網(wǎng)管能力、應用層的網(wǎng)管能力都是對你的能力有效的一個提升。
第四,兼容性是國產(chǎn)數(shù)據(jù)庫必過的一個坎。達夢跟Oracle的兼容性做的很好。我們國產(chǎn)數(shù)據(jù)庫是后來者,為了降低應用層遷移的成本,在兼容性方面一定要做好。
最后,期待未來和達夢有更多更深入、更全面的合作,雙方攜手推進國產(chǎn)數(shù)據(jù)庫在運營商行業(yè)更好的應用。

?

您對達夢數(shù)據(jù)官網(wǎng)的整體評價?
  • 較差
  • 一般
  • 較好
  • 很好
您遇到了哪些問題
* 請針對您所遇到的問題給出具體的反饋
取消
在線咨詢
400-991-6599