數(shù)據(jù)工程2-數(shù)據(jù)存儲(chǔ)2-數(shù)據(jù)存儲(chǔ)
它是數(shù)據(jù)工程概念系列10個(gè)部分的第二部分。我們將討論這個(gè)部分的數(shù)據(jù)存儲(chǔ)。
內(nèi)容:數(shù)據(jù)庫(kù)2.數(shù)據(jù)湖3.數(shù)據(jù)Lakehouse4.數(shù)據(jù)網(wǎng)格5.數(shù)據(jù)虛擬化6.數(shù)據(jù)虛擬化6。.DataFabric
數(shù)據(jù)工程概念:第一部分,數(shù)據(jù)建模
數(shù)據(jù)庫(kù)是什么?
數(shù)據(jù)庫(kù)是指從不同的相關(guān)來(lái)源中收集數(shù)據(jù),并進(jìn)行相應(yīng)的轉(zhuǎn)換,使數(shù)據(jù)適合分析,然后存儲(chǔ)到中央存儲(chǔ)庫(kù)的過(guò)程。
數(shù)據(jù)庫(kù)解決方案:
AzureSynapseAnalytics
AmazonRedshift
GoogleBigQuery
數(shù)據(jù)庫(kù)的特點(diǎn)
歷史數(shù)據(jù)的存儲(chǔ)如果數(shù)據(jù)庫(kù)只存儲(chǔ)當(dāng)前數(shù)據(jù),就很難隨著時(shí)間的推移觀察數(shù)據(jù)的趨勢(shì)。因此,我們需要將歷史數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中,我們可以使用它來(lái)做出由數(shù)據(jù)驅(qū)動(dòng)的業(yè)務(wù)決策。
示例:在零售業(yè)務(wù)中,數(shù)據(jù)倉(cāng)庫(kù)可以存儲(chǔ)往年的銷(xiāo)售數(shù)據(jù),使分析師能夠跟蹤一段時(shí)間的趨勢(shì),為未來(lái)的營(yíng)銷(xiāo)策略做出明智的決策。
2.集成從多個(gè)來(lái)源和格式數(shù)據(jù)可以集成到單個(gè)版本的事實(shí)中,從而使數(shù)據(jù)更清晰,并且有一個(gè)很好的結(jié)構(gòu)。
示例:醫(yī)療保健公司可以在數(shù)據(jù)倉(cāng)庫(kù)中集成電子健康記錄、實(shí)驗(yàn)室系統(tǒng)和計(jì)費(fèi)系統(tǒng)中的患者數(shù)據(jù)。這種整合為提高護(hù)理協(xié)調(diào)和決策提供了患者信息的綜合視圖。
3.數(shù)據(jù)質(zhì)量數(shù)據(jù)庫(kù)在使用一定的轉(zhuǎn)換后存儲(chǔ)數(shù)據(jù),這些轉(zhuǎn)換涉及到數(shù)據(jù)清理、驗(yàn)證和標(biāo)準(zhǔn)化,使其適應(yīng)并且易于分析團(tuán)隊(duì)瀏覽。
示例:對(duì)于金融企業(yè)來(lái)說(shuō),交易可能是由不同的貨幣進(jìn)行的,因此需要標(biāo)準(zhǔn)化進(jìn)行比較。
4.數(shù)據(jù)安全數(shù)據(jù)庫(kù)的訪問(wèn)僅限于獲得授權(quán)的人員,并有多種加密和審核機(jī)制來(lái)識(shí)別任何欺詐活動(dòng)。
示例:在教育系統(tǒng)中,需要加密相關(guān)學(xué)生的表現(xiàn)或SSN號(hào)碼以及個(gè)人詳細(xì)信息的敏感信息,以避免危害其安全的攻擊造成危害。
數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)有兩種很有名的:
Inmon數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)
數(shù)據(jù)庫(kù)鼻祖BillInmon認(rèn)為統(tǒng)一的信息源是非冗余的、干凈的、結(jié)構(gòu)化的,因此必須以3NF標(biāo)準(zhǔn)化的格式存儲(chǔ)。
Inmon的方法是一種自上而下的方法,其中數(shù)據(jù)倉(cāng)庫(kù)被分解為代表公司中不同系統(tǒng)(商品、銷(xiāo)售、人力資源局財(cái)務(wù))的部門(mén)數(shù)據(jù)集市,并根據(jù)其特定要求對(duì)數(shù)據(jù)進(jìn)行劃分。
中央數(shù)據(jù)倉(cāng)庫(kù)被稱(chēng)為公司數(shù)據(jù)倉(cāng)庫(kù)。它保證了整個(gè)系統(tǒng)的數(shù)據(jù)完整性和一致性。
優(yōu)勢(shì):1.在成立之前,所有部門(mén)都同意單一事實(shí)的來(lái)源。2.通過(guò)標(biāo)準(zhǔn)化建模很容易保存在3NF中,所以沒(méi)有必要再建模。3.由于缺乏重復(fù),存儲(chǔ)量較少,矛盾值的風(fēng)險(xiǎn)很低。
缺陷:1.由于標(biāo)準(zhǔn)化,連接多,報(bào)告和查詢(xún)速度慢。2.組織數(shù)據(jù),決定在公司數(shù)據(jù)倉(cāng)庫(kù)中使用哪些業(yè)務(wù)規(guī)則的大量前期工作。3.很難整合和分析不同部門(mén)的數(shù)據(jù)。
示例:在制造業(yè)中,與庫(kù)存、工作時(shí)間、銷(xiāo)售和商品相關(guān)的數(shù)據(jù)是相互關(guān)聯(lián)的,因此在這里使用Inmon的集中數(shù)據(jù)存儲(chǔ)是有意義的。
Kimball數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)
RalphKimball提出了這一結(jié)構(gòu),他致力于根據(jù)特定的業(yè)務(wù)需要通過(guò)維度數(shù)據(jù)建模來(lái)創(chuàng)建數(shù)據(jù)市場(chǎng),然后一旦所有的數(shù)據(jù)都加載到數(shù)據(jù)市場(chǎng)中,它們就會(huì)在數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行組合。
這是一種基本的方法,首先根據(jù)關(guān)鍵工作流程和問(wèn)題處理數(shù)據(jù)的關(guān)鍵特征,然后將相應(yīng)的ETL存儲(chǔ)到相應(yīng)的ETL中。在星形或雪花模式下。
優(yōu)勢(shì):快速、增量地構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),讓用戶(hù)參與設(shè)計(jì)過(guò)程,然后快速生成報(bào)告。2、優(yōu)先選擇非標(biāo)準(zhǔn)版本,提高用戶(hù)查詢(xún)效率。三、星形模式靈活,可擴(kuò)展,能夠適應(yīng)業(yè)務(wù)的變化。
缺陷:1.ETL因?yàn)椴灰?guī)范而復(fù)雜,所以需要時(shí)間。2.數(shù)據(jù)在不同的數(shù)據(jù)市場(chǎng)上會(huì)有冗余,可能會(huì)有矛盾。3.由于增量開(kāi)發(fā),維護(hù)將非常困難。
示例:在這種情況下,Kimball架構(gòu)將是合適的,因?yàn)樗且粋€(gè)行業(yè)領(lǐng)域,需要查看一些信息而不是整體視圖。
數(shù)據(jù)湖是什么?
數(shù)據(jù)湖是一種數(shù)據(jù)存儲(chǔ)。它將所有結(jié)構(gòu)化、半非結(jié)構(gòu)化的數(shù)據(jù)和結(jié)構(gòu)化的數(shù)據(jù)存儲(chǔ)在一個(gè)集中存儲(chǔ)庫(kù)中,并以其原始格式存儲(chǔ)數(shù)據(jù),無(wú)需任何預(yù)處理。為了滿(mǎn)足你的分析需求,有必要為數(shù)據(jù)元素建立一個(gè)唯一的標(biāo)志和標(biāo)簽。
這些提供了非常好的可擴(kuò)展性,適用于數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師,他們需要使用原始格式并進(jìn)行分析以獲得業(yè)務(wù)觀點(diǎn)。數(shù)據(jù)湖是一種讀取方式(只需要在搜索數(shù)據(jù)時(shí)定義方式),在存儲(chǔ)保質(zhì)期和快速實(shí)施方面更具成本效率,因?yàn)椴恍枰D(zhuǎn)換。數(shù)據(jù)倉(cāng)庫(kù)可以將歷史數(shù)據(jù)歸檔到數(shù)據(jù)湖中,使其查詢(xún)更快、更好。
數(shù)據(jù)湖將支持不同類(lèi)型的連接器,這些連接器支持?jǐn)?shù)據(jù)的批量和流量攝入,并提供控制哪些數(shù)據(jù)進(jìn)入數(shù)據(jù)湖以及如何管理數(shù)據(jù)的治理功能。
示例:在供應(yīng)鏈中,供應(yīng)商的詳細(xì)信息可能隱藏在許多系統(tǒng)中,因此很難發(fā)現(xiàn)任何問(wèn)題或找出問(wèn)題。如果我們從供應(yīng)商數(shù)據(jù)、內(nèi)部訂單、承運(yùn)人數(shù)據(jù)、天氣預(yù)報(bào)等外部數(shù)據(jù)源中使用數(shù)據(jù)來(lái)收集信息,那么我們就可以識(shí)別延遲的原因和瓶頸。
資料湖解決方案:
AzureDataLake
AmazonS3
ApacheHadoop
數(shù)據(jù)湖屋是什么?
數(shù)據(jù)湖屋是數(shù)據(jù)湖的靈活性和數(shù)據(jù)倉(cāng)庫(kù)管理的融合,由交易層推動(dòng)。交易層負(fù)責(zé)確保ACID的合規(guī)性(原子、一致性、隔離性和長(zhǎng)期性)和并發(fā)讀取和寫(xiě)入數(shù)據(jù)類(lèi)型,如Parquet。、ORC和Avro。ACID合規(guī)支持?jǐn)?shù)據(jù)治理、隱私法規(guī)和高效瀏覽。
為了實(shí)現(xiàn)性能、可訪問(wèn)性和可用性的優(yōu)化,數(shù)據(jù)湖屋還提供了添加元數(shù)據(jù)、緩存和檢索的功能。此外,數(shù)據(jù)可以通過(guò)SparkSQL和其他數(shù)據(jù)幀API工具使用,以滿(mǎn)足構(gòu)建機(jī)器學(xué)習(xí)管道和BI報(bào)告的要求。
示例:一家電子商務(wù)公司從其網(wǎng)站、移動(dòng)應(yīng)用、社交平臺(tái)、客戶(hù)支持互動(dòng)和第三方供應(yīng)商那里收集數(shù)據(jù)。通過(guò)數(shù)據(jù)湖屋架構(gòu),企業(yè)可以將這些不同的數(shù)據(jù)集提取到集中存儲(chǔ)庫(kù)中,將數(shù)據(jù)湖的可擴(kuò)展性和靈活性與數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)化查詢(xún)和ACID事務(wù)相結(jié)合。利用數(shù)據(jù)湖站,電子商務(wù)公司可獲得相關(guān)客戶(hù)行為、產(chǎn)品特性、營(yíng)銷(xiāo)效率和運(yùn)營(yíng)效率的寶貴見(jiàn)解。
資料湖屋解決方案:
DeltaLakebyDatabricks
ApacheIceBerg
ApacheHudi
數(shù)據(jù)網(wǎng)格是什么?
數(shù)據(jù)網(wǎng)格架構(gòu)是一種將數(shù)據(jù)分為特定領(lǐng)域的產(chǎn)品和所有權(quán)范式。每個(gè)領(lǐng)域都負(fù)責(zé)自己的品牌,可以擁有適合自己數(shù)據(jù)的數(shù)據(jù)模型和基礎(chǔ)設(shè)施。每個(gè)數(shù)據(jù)產(chǎn)品都應(yīng)該由用戶(hù)至上設(shè)計(jì)和定義良好的交互界面來(lái)構(gòu)建。
根據(jù)一系列全球政策和行業(yè)法規(guī),治理分布在各個(gè)團(tuán)隊(duì)中,每個(gè)團(tuán)隊(duì)都有責(zé)任使數(shù)據(jù)產(chǎn)品可靠、可互操作、可用。
示例:例如,包括電子商務(wù)、營(yíng)銷(xiāo)、供應(yīng)鏈和金融在內(nèi)的多個(gè)業(yè)務(wù)部門(mén)的大型零售組織。在數(shù)據(jù)網(wǎng)格架構(gòu)中,每個(gè)業(yè)務(wù)單元作為一個(gè)獨(dú)立的數(shù)據(jù)領(lǐng)域運(yùn)行,負(fù)責(zé)管理自己的數(shù)據(jù)資產(chǎn)。通過(guò)分散數(shù)據(jù)所有權(quán)和治理,可以?xún)?yōu)化各個(gè)領(lǐng)域的數(shù)據(jù)資產(chǎn),滿(mǎn)足其業(yè)務(wù)部門(mén)的具體需求,促進(jìn)整個(gè)組織的信息共享和合作。
資料網(wǎng)格解決方案:
GoogleCloudBigQuery
AzureSynapseAnalytics
AWSS3andAthena
dbtandSnowflake
數(shù)據(jù)虛擬化意味著什么?
在過(guò)去的30年里,傳統(tǒng)的數(shù)據(jù)結(jié)構(gòu)一直很出色,但是隨著行業(yè)信息量呈指數(shù)級(jí)增長(zhǎng),傳統(tǒng)的復(fù)制數(shù)據(jù)的方法變得更加困難。
在這種情況下,數(shù)據(jù)虛擬化是為了允許瀏覽數(shù)據(jù)庫(kù)而不需要獲得集中存儲(chǔ)。設(shè)計(jì)了一個(gè)抽象層,讓用戶(hù)可以通過(guò)API、相關(guān)元數(shù)據(jù)和目錄獲取數(shù)據(jù),這有助于區(qū)分具體業(yè)務(wù)定義的數(shù)據(jù)。
另外,為了保證移動(dòng)數(shù)據(jù)的安全性,中間件提供了治理和訪問(wèn)限制。
示例:輝瑞,世界領(lǐng)先的制藥和生物技術(shù)公司(Pfizer)利用TIBCO數(shù)據(jù)虛擬化軟件,加快向研究人員提供數(shù)據(jù)的速度。過(guò)去,該公司采用傳統(tǒng)的ETL數(shù)據(jù)集成方法,往往導(dǎo)致數(shù)據(jù)過(guò)時(shí)。輝瑞通過(guò)數(shù)據(jù)虛擬化,成功縮短了50%的項(xiàng)目實(shí)施時(shí)間。該公司除快速檢索和傳輸數(shù)據(jù)外,還對(duì)產(chǎn)品數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,以確保所有研究和醫(yī)療單位產(chǎn)品信息的一致性。
數(shù)據(jù)編織是什么?
DataFabric是一種結(jié)構(gòu),旨在在集中存儲(chǔ)中集成和安排不同的數(shù)據(jù)庫(kù)、服務(wù)和應(yīng)用程序,創(chuàng)建一個(gè)統(tǒng)一的生態(tài)系統(tǒng)。它基于數(shù)據(jù)虛擬化的概念,具有內(nèi)置的人工智能和機(jī)器學(xué)習(xí)功能,以促進(jìn)數(shù)據(jù)的投影和編程。
元數(shù)據(jù)是AI/ML算法支持的主動(dòng)格式,建立知識(shí)圖是為了找出不同數(shù)據(jù)元素之間的關(guān)系。DataOps將使用AI通過(guò)分析元數(shù)據(jù)來(lái)預(yù)測(cè)數(shù)據(jù)的攝入量和業(yè)務(wù)需求,DataOps將根據(jù)需求對(duì)數(shù)據(jù)進(jìn)行管理和處理。
示例:Domino模型隱含地依賴(lài)于來(lái)自多個(gè)源的各種數(shù)據(jù)。Domino實(shí)施了數(shù)據(jù)編織,以集成和統(tǒng)一分布式數(shù)據(jù)。這種數(shù)據(jù)結(jié)構(gòu)使Domino's能夠在整個(gè)數(shù)據(jù)生命周期(從銷(xiāo)售點(diǎn)系統(tǒng)到供應(yīng)鏈中心和所有營(yíng)銷(xiāo)工作)中實(shí)現(xiàn)端到端的跟蹤。
本文來(lái)自微信微信官方賬號(hào)“數(shù)據(jù)驅(qū)動(dòng)智能”(ID:Data作者:曉曉,36氪經(jīng)授權(quán)發(fā)布,_0101)。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com