亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

談數(shù)據(jù)工程6-數(shù)據(jù)架構(gòu)

2024-04-17

這個(gè)部分,我們將討論數(shù)據(jù)架構(gòu)。


內(nèi)容:1. 數(shù)據(jù)架構(gòu)2是什么?. Lambda vs Kappa 架構(gòu)3. 實(shí)際項(xiàng)目


一 什麼是數(shù)據(jù)架構(gòu)?


數(shù)據(jù)結(jié)構(gòu)是信息系統(tǒng)的藍(lán)圖,服務(wù)于商品的業(yè)務(wù)需求,描述如何收集、存儲(chǔ)、轉(zhuǎn)換和分發(fā)數(shù)據(jù)。它由數(shù)據(jù)模型、治理策略、規(guī)則和標(biāo)準(zhǔn)組成,需要實(shí)施和遵循,從而構(gòu)建一個(gè)強(qiáng)大而安全的信息系統(tǒng)。


資料結(jié)構(gòu)必須滿足信息系統(tǒng)的業(yè)務(wù)和技術(shù)要求。


項(xiàng)目需求下列內(nèi)容可能包括:1. 減少數(shù)據(jù)交付延遲2. 根據(jù)需要自動(dòng)擴(kuò)展數(shù)據(jù)交付33. 增加不同類(lèi)型數(shù)據(jù)的數(shù)據(jù)模型的靈活性4. 提高數(shù)據(jù)質(zhì)量和一致性5. 降低存儲(chǔ)成本和支持提高6. 提供可靠性和 GDPR 等待標(biāo)準(zhǔn)合規(guī)


支持業(yè)務(wù)的技術(shù)需求包含:


1. 最佳業(yè)務(wù)案例數(shù)據(jù)庫(kù)和攝入工具2. 數(shù)據(jù)倉(cāng)庫(kù)解決方案3高效檢索和存儲(chǔ)優(yōu)化. 定義數(shù)據(jù)關(guān)聯(lián)和消費(fèi)的轉(zhuǎn)換邏輯4. 設(shè)計(jì)分析推理平臺(tái)展示平臺(tái) KPI5. 采用云服務(wù)進(jìn)行分布式計(jì)算,確保6個(gè)不同團(tuán)隊(duì)的最低成本和訪問(wèn)限制. 為了遵守法律法規(guī),維護(hù)數(shù)據(jù)的完整性,制定安全管理和監(jiān)控系統(tǒng)。


下面是數(shù)據(jù)架構(gòu)師職責(zé)簡(jiǎn)述:



它是數(shù)據(jù)架構(gòu)師數(shù)據(jù)工程師兩者的區(qū)別:


二 Lambda 與 Kappa 架構(gòu)


Lamba 架構(gòu)它被定義為具有即時(shí)和批處理能力的組合。它有 3 層:即時(shí)層,用于使用。 Storm 或 Flink 等待服務(wù)處理傳遞到流程;批處理層用于使用 Hadoop 或 Spark 等待服務(wù)批量處理歷史數(shù)據(jù);服務(wù)層,提供批量處理和實(shí)時(shí)組合視圖數(shù)據(jù)。例如,在電子商務(wù)業(yè)務(wù)中,客戶(批號(hào))的消費(fèi)歷史記錄需要了解預(yù)算和質(zhì)量限制,并且需要立即瀏覽數(shù)據(jù)以提出適當(dāng)?shù)慕ㄗh。


Lambda 架構(gòu)面臨的問(wèn)題是,您需要將預(yù)處理和其他常見(jiàn)工作復(fù)制到即時(shí)層和批處理層,因此建議使用相同的服務(wù)進(jìn)行這兩種提取,例如 Spark,這有助于完成這兩個(gè)操作。


Kappa 架構(gòu)的介紹的目的是采用統(tǒng)一的方法來(lái)應(yīng)對(duì)這個(gè)挑戰(zhàn),而且只有一個(gè)流層, Apache Kafka 等待服務(wù)處理所有操作。首先,它可以在消息傳輸引擎中實(shí)時(shí)動(dòng)態(tài)存儲(chǔ),并可以存儲(chǔ)在分析數(shù)據(jù)庫(kù)中進(jìn)行批量檢索,或者通過(guò)服務(wù)層根據(jù)查詢類(lèi)型提供與消息傳輸引擎的實(shí)時(shí)互動(dòng)。


Kafka 它是一種快速、容錯(cuò)、水平可擴(kuò)展的服務(wù),具有以下許多特定功能,因此主要用于實(shí)現(xiàn)。 Kappa 架構(gòu)。


盡管 Lambda 維修和運(yùn)營(yíng)成本較高,但 Kappa 使系統(tǒng)更簡(jiǎn)單。但是為了建立 Kappa 為了保證可靠性和準(zhǔn)確性,需要不斷優(yōu)化結(jié)構(gòu)。


所以,一般而言,當(dāng)有大量或多個(gè)數(shù)據(jù)無(wú)法實(shí)時(shí)處理時(shí),就會(huì)使用。 Lambda 在需要傳入的流數(shù)據(jù)的情況下, Kappa 當(dāng)中等數(shù)據(jù)立即付諸行動(dòng)時(shí),會(huì)更傾向于 Kappa 結(jié)構(gòu)。數(shù)據(jù)具有高度一致性,因此不需要過(guò)多的質(zhì)量校準(zhǔn)或復(fù)雜性。


Kappa 一個(gè)實(shí)際的例子是存在的 Uber 與 Kafka 共同實(shí)現(xiàn):


三 實(shí)際項(xiàng)目 電動(dòng)汽車(chē)基礎(chǔ)設(shè)施分析


它是一個(gè)已經(jīng)實(shí)現(xiàn)的具體項(xiàng)目及其數(shù)據(jù)架構(gòu):


問(wèn)題闡述:對(duì)電動(dòng)汽車(chē)充電基礎(chǔ)設(shè)施進(jìn)行分析,以識(shí)別任何方法并提出改進(jìn)建議。數(shù)據(jù)庫(kù):Open Charge API數(shù)據(jù)編排:Airflow數(shù)據(jù)湖:AWS S3 存儲(chǔ)對(duì)數(shù)據(jù)結(jié)構(gòu)的理解:AWS Glue Crawler and Data Catalog數(shù)據(jù)清理與預(yù)處理:AWS LambdaETL 以及探索工具:AWS Glue 和 Athena數(shù)據(jù)庫(kù)及儀表板:Snowflake數(shù)據(jù)安全:IAM


澄清:我僅在 AWS 和 Snowflake 免費(fèi)套餐服務(wù)在中間使用。在我看來(lái),當(dāng)所有服務(wù)都在 AWS 里時(shí),明白為什么要用。 Airflow 而不是 Glue ETL 也許令人費(fèi)解——這只是成本因素。


我在這里免費(fèi)試用,所以有一些限制,但是如果你比較舒服,適合你的用例,你可以用。 Glue Studio 進(jìn)行 ETL 與倉(cāng)庫(kù)連接!


我僅使用 Glue Crawler 和 Data Catalog 等 Glue 對(duì)數(shù)據(jù)進(jìn)行服務(wù)探索,使用 Athena 運(yùn)行 SQL 查詢確保有正確的結(jié)構(gòu)。如您查看代碼庫(kù),您可以找到和找到它。 Snowflake 連接是通過(guò) SQL 查詢而不是 Glue。


Open Charge API


這個(gè)數(shù)據(jù)庫(kù)包含了各種有關(guān)電動(dòng)汽車(chē)充電站的信息,你可以使用經(jīng)度和緯度來(lái)查詢這個(gè)區(qū)域的電動(dòng)汽車(chē)充電站。


Airflow — ELT


用來(lái)安排數(shù)據(jù)管道,并根據(jù)不同區(qū)域定期攝取API數(shù)據(jù)。


AWS Glue


AWS Glue 用來(lái)理解數(shù)據(jù)架構(gòu),通過(guò)存儲(chǔ)元數(shù)據(jù)的爬網(wǎng)過(guò)程和數(shù)據(jù)目錄。也可以使用 通過(guò)Glue Glue Studio 進(jìn)行相關(guān)的數(shù)據(jù)轉(zhuǎn)換,然后將其加載到其中 Snowflake 在數(shù)據(jù)庫(kù)中。也可以定義 Lambda 函數(shù)調(diào)用的 ETL 操作或者調(diào)度它。數(shù)據(jù)質(zhì)量檢查也可以在ETL操作中進(jìn)行。


AWS Lambda


它用于清理和預(yù)處理原始數(shù)據(jù),并將中間結(jié)果存儲(chǔ)在清理后的另一個(gè)S3存儲(chǔ)桶中。每次將新數(shù)據(jù)加載到原始數(shù)據(jù)中。 S3 儲(chǔ)存桶內(nèi)時(shí),都能觸發(fā)。


AWS Athena


可以用 Athena 執(zhí)行 SQL 查詢了解數(shù)據(jù),并將查詢記錄存儲(chǔ)在分析數(shù)據(jù)庫(kù)中,以便瀏覽數(shù)據(jù)庫(kù)。


Snowflake data warehouse


該分析存儲(chǔ)用于終端用戶(數(shù)據(jù)分析師),用于了解趨勢(shì)和方法,并構(gòu)建儀表板向相關(guān)利益相關(guān)者展示。


AWS IAM


身份和訪問(wèn)管理允許您設(shè)定不同的定義。 AWS 資源密鑰管理的作用和策略。您需要定義以上每一個(gè)。 AWS 資源角色可以相互交互。


總之,使用 Airflow 從 API 進(jìn)行攝入,當(dāng) S3 當(dāng)目標(biāo)事件發(fā)生時(shí),存儲(chǔ)桶會(huì)觸發(fā) Lambda,如果有可用的清潔對(duì)象,可以使用。 Snowflake 觸發(fā)載入。


儀表板在Snowflake中的


找出可用設(shè)備的總數(shù)。


選擇前10名ev_table 個(gè)“l(fā)ocationtitle”、“quantity”,其中“quantity” > 1 order by “quantity” desc;


2. 找出不同電流類(lèi)型的功率分布特征


SELECT sum ("powerkw") as "total_power","currenttypeid" FROM ev_table where "currenttypeid" > 1 GROUP BY "currenttypeid" ORDER BY "currenttypeid" ;


找出電動(dòng)汽車(chē)站的地理鄰近性


從ev_table中選擇“緯度”、“經(jīng)度” ;



找出不同等級(jí)充電能力之間的功率分布。


按下ev_table組中的“l(fā)evelid”挑選“l(fā)evelid”、sum(“powerkw”);


5. 根據(jù)充電能力等級(jí)了解位置分布。


按下ev_table組中的“l(fā)evelid"選擇記數(shù)(""locationtitle”)、“ levelid”


6. 找出功率最高的位置


選擇前10名ev_table 個(gè) “l(fā)ocationtitle”、“powerkw”,其中“powerkw” > 0 order by “powerkw” desc;


本文來(lái)自微信微信官方賬號(hào)“數(shù)據(jù)驅(qū)動(dòng)智能”(ID:Data作者:曉曉,36氪經(jīng)授權(quán)發(fā)布,_0101)。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com