• <cite id="rnfwh"><var id="rnfwh"></var></cite>
      <mark id="rnfwh"><sup id="rnfwh"><rp id="rnfwh"></rp></sup></mark>
      <label id="rnfwh"><sup id="rnfwh"></sup></label>

      <var id="rnfwh"></var>
    1. <code id="rnfwh"></code>
        國內華企銀豐(北京)資產管理有限公司主頁 > 華企銀豐(北京)資產管理有限公司國內 >
        摘要:融資公司加盟 海寧...

        融資擔保考試試題及答案_數據量越發龐大怎么辦?新一代數據處理利器Greenplum來助攻

        銀行貸款融資的風險

        作者:李樹桓個推數據研發工程師

        前言:近年來,互聯網的快速發展積累了海量大數據,而!在這些大數據的:處理上,不同技術棧所具備的性能也有所不同,如何快速有效地處理這些龐大的數據倉,成為很多運營者為之苦惱的問題!隨著Greenplum的異軍突起,以,往大數據倉庫所面臨的很多問題都得到了有效解決,Greenplum也成為新一代海量數據處理典型代表。本文結合個推數據研發工程師李樹桓在大數據領域的實踐,對處理龐大的數據量時,如何選擇有效的技術棧做了深入研究,探索出Greenplum是當前處理大數據倉較為高效穩定的利器。

        一、Greenplum誕生的背景

        時間回到2002年,那時整個互聯網數據量正處于快速增長期,一方面傳統數據庫難以滿足當前的計算需求,?另一方面傳統數據庫大多基于SMP架構,這種架構最大的一個特點是共享所有資源,擴展性能差,因,此面對日益增長的數據量,難以繼續支撐,需要一種具有分布式并行數據計算能力的數據庫,Greenplum正是在此背景下誕生了。

        和傳統數據庫的SMP架構不同,Greenplum主要基于MPP架構,這是由多個服務器通過節點互聯網絡連接而成的系統,每個節點只訪問自己的本地資源(包括內存、存儲等),是一種完全無共享(Share Nothing)結構,擴展能力較之前有明顯提升。

        二、解讀 Greenplum架構

        Greenplum主要由Master主節點和Interconnect網絡層以及負責數據存儲和計算的多個節點共同組成。

        Master上有主節點和從節點兩部分,兩者主要的功能是生成查詢計劃并派發,以及協調Segment并行計算,同時在Master上保存著global system catalog,這個全局目錄存著一組G。reenplum數據庫系統本身所具有的元數據的系統表。需要說明的是Master本身不參與數據交互,Greenplum所有的并行任務都是在Segment的數據節點上完成的,因此,Master節點不會成為數據庫的性能瓶頸。

        中間的網絡層Interconnect,主要負責并行查詢計劃生產和Dispatch分發以及協調節點上QE執行器的并行工作, 正是因為Interconnect的存在,Greenplum才能實現對同一個集群中多個PostgreSQL實例的高效協同和并行計算。

        整個結構圖下方負責數據存儲和計算的每個節點上又有多個實例,每個實例都是一個PostgreSQL數據庫,這些實例共享節點的IO和CPU。PostgreSQL在穩定性和性能方面較為先進,同時又有豐富的語法支持,滿足了Greenplum的功能需要。

        三、了解Greenplum優勢

        Greenplum之所以能成為處理海量大數據的有效工具,與其所具備的幾大優勢密不可分。

        優勢一:計算效率提升

        Greenplum的數據管道可以高效地將數據從磁盤傳輸到CPU,而目前市面上常用的計算引擎SPARK在傳輸數據時,則需要為每個并發查詢分配一個內存,這對大型數據集的查詢十分不利,而Greenplum所具備的實時查詢功能,能夠有效對。大數據集進行計算。

        優勢二:擴展性能增強

        Greenplum基于的MPP架構,節點之間完全不共享,同時又可以達到并行查詢,因此在進行線性擴展時,數據規模可以達到PB級別。目前,Greenplum已經實現了開源,并且社區生態活躍,,對?于使用者而言,也會覺得更為可靠。

        優勢三:功能性優化

        Greenplum可以支!持復雜的SQL查詢,大幅簡化了數據的操作和交互過程。而目前流行的HAWQ、Spark SQL、Impala等技術基本都基于MapReduce進行的優化,雖然部分也使用了SQL查詢,但是對SQL的支持十分有限。

        四、Greenplum的容錯機制

        Greenplum數據庫簡稱GPDB,它擁有豐富:的特性,支持多級容錯機制和高可用。

        1)主節點高可用:為了避免主節點單點故障,特別設置一個主節點的副本(稱為 Standby Master),通過流復制技術實現兩者同步復制,當主節點發生故障時,,從節點可以成為主節點,從而完成用戶請求并協調查詢執行。

        2)數據節點高可用:每個數據節點都可以配備一個鏡像,它們之間通過文件操作級別的同步來實現數據的同步復制(稱為filerep技術)。故障檢測進程(ftsprobe)會定期發送心跳給各個數據節點,當某個節點發生故障時,GPDB會自動進行故障切換。

        3)網絡高可用:為了避免網絡的單點故障,每個主機會配置多個網口,并使用多個交換機,避免網絡故障時造成整個服務器不可用。

        同時,GPDB具有圖形化的性能監控功能,基于此功能,用戶可以確定數據庫當前的運行情況和歷史查詢信息,同時跟蹤系統使用情況和資源信息。

        五、 Greenplum在業務場景中的應用

        個推在大數據領域深耕多年,在處理龐大的數據倉的過程中,也在不斷進行優化和更新技術棧,在進行技術選型時,針對不同的技術棧做了如下對比:

        總得來說,Greenplum幫助開發者有效解決了處理數據庫時遇到的一些難點,比如跨天去重、用戶自定義維度、復雜的SQL查詢等問題,同時,也方便開發者直接在原始數據上進行實時查詢,減少了數據聚合過程中的遺失,當然,強大的Greenplum仍存在著一些問題需要去完善,例如在節點擴展的過程中元數據的管理問題,分布式數據庫在擴展節點時會帶來數據一致性,擴展的過程中有時會出現元數據混亂的情況等等,好在Greenplum有很多優秀的運維工具,能夠幫我們在發生問題及時進行排查,更好的保障業務的穩定性。但是,盡管Greenplum在處理大數據方面的優勢比較明顯,對開發者來說,還是要根據自身需求選擇相應的技術棧。

        交通項目評估與管理www.xzhichang.com wap.xzhichang.com bbs.xzhichang.com www.58trz.com www.yirenbbs.com m.yirenbbs.com

        當前文章:http://www.scvr.tw/gbqkcnap/329827_1043958.html

        發布時間:2018-10-18 05:56:39

        獵頭  化妝必備的化妝工具有哪些  華企銀豐(北京)資產管理有限公司  長靴美女  清潔私處用什么藥好  華企銀豐(北京)資產管理有限公司  怎樣打造無暇底妝  塑形的辦法  華企銀豐(北京)資產管理有限公司  畫眼線  美食  

        ?

        22选5河南最新开奖今