今天的數(shù)據(jù)平臺(tái)建設(shè)策略和五個(gè)關(guān)鍵參考標(biāo)準(zhǔn)
我們生活在一個(gè)數(shù)據(jù)驅(qū)動(dòng)的世界,我們的企業(yè)嚴(yán)重依賴于精心布局的數(shù)據(jù)分析平臺(tái)。從數(shù)據(jù)收集到各業(yè)務(wù)部門的數(shù)據(jù)服務(wù),可以看作是支持所有數(shù)據(jù)相關(guān)活動(dòng)的關(guān)鍵。
構(gòu)建數(shù)據(jù)平臺(tái)不再是一件可有可無的事情,而是大多數(shù)組織的必需品。企業(yè)根據(jù)從數(shù)據(jù)中獲取可操作意見的能力賦能,從而改變用戶體驗(yàn),增加收入,甚至定義其品牌。
這些數(shù)據(jù)平臺(tái)的成功取決于如何處理、組織和管理數(shù)據(jù),以及如何利用數(shù)據(jù)促進(jìn)創(chuàng)新和處理業(yè)務(wù)問題。以下是數(shù)據(jù)平臺(tái)建設(shè)策略應(yīng)該考慮的五個(gè)重要方面。
一 收集什么數(shù)據(jù),建立什么能力?
回顧過去,我們發(fā)現(xiàn)過去數(shù)據(jù)團(tuán)隊(duì)花費(fèi)大量的時(shí)間和精力從源系統(tǒng)中提取大量數(shù)據(jù),這在當(dāng)?shù)胤治鱿到y(tǒng)中是一個(gè)很大的限制。另一方面,從大數(shù)據(jù)平臺(tái)的“數(shù)據(jù)客戶”來看,這增加了上市日期。
因此,一個(gè)關(guān)鍵步驟是確定不同業(yè)務(wù)功能中的用例,并對其進(jìn)行優(yōu)先排序,從而創(chuàng)建高優(yōu)先數(shù)據(jù)中心的用例組合和管道。。通過從數(shù)據(jù)中生成所需的信息,這些用例可以看作是解決業(yè)務(wù)問題的數(shù)字產(chǎn)品。通過數(shù)據(jù)平臺(tái)提供這些信息。
這也將幫助開發(fā)團(tuán)隊(duì)根據(jù)優(yōu)先功能調(diào)整平臺(tái)構(gòu)建路線圖。例如,如果業(yè)務(wù)團(tuán)隊(duì)熱衷于數(shù)據(jù)科學(xué)測試項(xiàng)目,他們需要清理數(shù)據(jù)和操作臺(tái)服務(wù)。因此,平臺(tái)團(tuán)隊(duì)可以在平臺(tái)建設(shè)初期優(yōu)先考慮數(shù)據(jù)測試或數(shù)據(jù)科學(xué)服務(wù)。
用例驅(qū)動(dòng)方法也有助于基于高優(yōu)先用例逐步構(gòu)建數(shù)據(jù)。,這類信息真的可以為業(yè)務(wù)增加價(jià)值,而不是收集所有可用的數(shù)據(jù),并且可以用于未來的某些或其他用例。
二 怎樣組織數(shù)據(jù)?
除了確定需要優(yōu)先考慮哪些數(shù)據(jù),我們還應(yīng)該關(guān)注如何在平臺(tái)中組織數(shù)據(jù)。如果數(shù)據(jù)平臺(tái)以混亂的方式存儲(chǔ)太多數(shù)據(jù),沒有合適的元數(shù)據(jù)管理和可靠的數(shù)據(jù)治理,相關(guān)數(shù)據(jù)就會(huì)變得更加難以找到。雖然新數(shù)據(jù)在增加,但信息開始減少。
簡而言之,我們應(yīng)該制定一個(gè)策略,讓數(shù)據(jù)從它的來源“數(shù)據(jù)生產(chǎn)者”遍歷或跳躍到“數(shù)據(jù)客戶”的應(yīng)用程序和系統(tǒng)。在這方面,最有效的方法是遵循如圖所示的路徑:識(shí)別->收集->清理->整理->衍化 -

三 誰應(yīng)該擁有數(shù)據(jù)?
事實(shí)上,這一數(shù)據(jù)結(jié)構(gòu)的成功取決于誰在推進(jìn)整個(gè)數(shù)據(jù)建設(shè)過程,誰坐在前排,誰在后排給予支持,這意味著所有權(quán)。在過去的回顧中,我們觀察到不同的數(shù)據(jù)團(tuán)隊(duì)通常負(fù)責(zé)建立數(shù)據(jù)并做出相關(guān)決策。他們只有在從數(shù)據(jù)管理員那里獲得知識(shí)轉(zhuǎn)移后才這樣做。他們投入了時(shí)間和精力,但很難讓數(shù)據(jù)消費(fèi)者滿意。由于這些團(tuán)隊(duì)與實(shí)際信息系統(tǒng)不夠接近,無法理解數(shù)據(jù)流程,因此做出正確的決定,以促進(jìn)數(shù)據(jù)周期的完整性。
這樣就需要定義數(shù)據(jù)領(lǐng)域的團(tuán)隊(duì)和聯(lián)合治理模型。該領(lǐng)域由數(shù)據(jù)管理員、數(shù)據(jù)架構(gòu)師、業(yè)務(wù)代表、數(shù)據(jù)合規(guī)官等跨職能人員組成。他們負(fù)責(zé)各自領(lǐng)域的治理決策,以確保數(shù)據(jù)質(zhì)量、隱私、安全和合規(guī)性。最重要的是數(shù)據(jù)生命周期——包括數(shù)據(jù)收集、轉(zhuǎn)換和提供給終端用戶。通過將所有權(quán)和責(zé)任轉(zhuǎn)移回領(lǐng)域,數(shù)據(jù)所有權(quán)不會(huì)轉(zhuǎn)移,因此不會(huì)造成任何價(jià)值損失。最了解數(shù)據(jù)的人是為了分析而管理、準(zhǔn)備和提供數(shù)據(jù)的人。
雖然治理職責(zé)分布在不同的領(lǐng)域,但是整個(gè)組織仍然需要保持一致性和協(xié)調(diào)性。它需要為確保遵循整體組織目標(biāo)和監(jiān)管政策,應(yīng)建立共同的治理標(biāo)準(zhǔn)、政策和框架。
四 技術(shù)能提供什么支持?
技術(shù)在支持和實(shí)現(xiàn)數(shù)據(jù)戰(zhàn)略方面起著關(guān)鍵作用。它提供了工具、基礎(chǔ)設(shè)施和功能,可以有效地管理、處理和處理數(shù)據(jù),并從中獲得價(jià)值。
現(xiàn)代數(shù)據(jù)平臺(tái)一般涉及數(shù)據(jù)湖、數(shù)據(jù)倉庫、云存儲(chǔ)、大數(shù)據(jù)處理框架等多種技術(shù)的組合。但云托管數(shù)據(jù)湖仍然是一個(gè)解決方案,因?yàn)樗喕瞬檎蚁嚓P(guān)數(shù)據(jù)并準(zhǔn)備分析的過程,同時(shí)為數(shù)據(jù)科學(xué)團(tuán)隊(duì)提供了一個(gè)完整的訪問數(shù)據(jù)的角度。
然而,數(shù)據(jù)湖也面臨著一些挑戰(zhàn),如閱讀/寫作過程中缺乏一致性和實(shí)施方式。因此,有必要進(jìn)一步思考和思考。結(jié)合數(shù)據(jù)湖和數(shù)據(jù)倉庫的最佳特征選擇 Lakehouse 架構(gòu)。基本上,它在數(shù)據(jù)湖上增加了一層結(jié)構(gòu)化處理和查詢引擎。這個(gè)層通常包括 Apache Spark、Delta Lake 或者類似于框架等技術(shù)。這些技術(shù)可以實(shí)現(xiàn)模式實(shí)施、數(shù)據(jù)質(zhì)量管理、交易功能,提高數(shù)據(jù)湖中存儲(chǔ)的數(shù)據(jù)的查詢和處理性能。
另外一個(gè)重要方面是處理框架,在大數(shù)據(jù)背景下,技術(shù)從 Apache Hadoop 發(fā)展成與MPP 云數(shù)據(jù)庫相結(jié)合Apache spark。在某些工作負(fù)載下,Spark的內(nèi)存處理量比較 Hadoop 的 MapReduce 更快。通過將 Spark 與 MPP 通過數(shù)據(jù)庫的組合,組織可以從數(shù)據(jù)庫的可擴(kuò)展性和分布式處理能力中受益,同時(shí)利用數(shù)據(jù)庫。 Spark 數(shù)據(jù)處理和分析功能豐富。但是,也可采用混合法,這取決于最適合特定用例的方法。
除技術(shù)選擇外,還應(yīng)盡量選擇。基于微服務(wù)的結(jié)構(gòu)方法,并將數(shù)據(jù)提取、處理、部署和其他活動(dòng)建立為獨(dú)立的數(shù)據(jù)服務(wù)。這些數(shù)據(jù)服務(wù)在實(shí)現(xiàn)標(biāo)準(zhǔn)化和節(jié)約資源方面發(fā)揮著關(guān)鍵作用,當(dāng)多領(lǐng)域團(tuán)隊(duì)負(fù)責(zé)利用組織數(shù)據(jù)平臺(tái)為其領(lǐng)域建立數(shù)據(jù)資產(chǎn)或產(chǎn)品時(shí)。
五 怎樣保持?jǐn)?shù)據(jù)策略的相關(guān)性?
具有競爭優(yōu)勢的關(guān)鍵是保持相關(guān)性,更積極地響應(yīng)不斷變化的業(yè)務(wù)或客戶需求。為了保證最佳利用率和成功,需要根據(jù)組織的整體數(shù)據(jù)策略、目標(biāo)和具體要求不斷調(diào)整和評估。
另外,在整個(gè)組織和業(yè)務(wù)部門中,培養(yǎng)數(shù)據(jù)驅(qū)動(dòng)的文化這是非常必要的。這將有助于獲得積極的參與和貢獻(xiàn),從而可以從不同的數(shù)據(jù)視角獲得 數(shù)據(jù)視圖360度。
為了提高數(shù)據(jù)素養(yǎng)和數(shù)據(jù)意識(shí),制定培訓(xùn)計(jì)劃和措施,最重要的是鼓勵(lì)組織數(shù)據(jù)平臺(tái)的使用,使業(yè)務(wù)部門能夠創(chuàng)建和使用越來越多的數(shù)據(jù)產(chǎn)品。選擇數(shù)據(jù)市場這可能是一個(gè)很好的策略。它提供了一個(gè)數(shù)據(jù)提供商可以在這里銷售或交換數(shù)據(jù)的平臺(tái),數(shù)據(jù)用戶可以發(fā)現(xiàn)、瀏覽和獲取他們需要的數(shù)據(jù)。通過這種方式,數(shù)據(jù)提供商可以與消費(fèi)者互動(dòng),共享知識(shí)或做好實(shí)踐,并提供反饋,從而不斷提高數(shù)據(jù)產(chǎn)品的相關(guān)性。
擁抱前沿技術(shù),行業(yè)良好的實(shí)踐和監(jiān)管變化還可以大大增強(qiáng)數(shù)據(jù)策略。此外,為了找到創(chuàng)新和優(yōu)化的機(jī)會(huì),跟蹤數(shù)據(jù)管理、分析、人工智能和云計(jì)算的進(jìn)步也非常重要。
六 總結(jié)
該平臺(tái)的建設(shè)策略可以分為三個(gè)重點(diǎn)領(lǐng)域 -
?用例驅(qū)動(dòng)流為了識(shí)別不同業(yè)務(wù)功能中的用例,并進(jìn)行優(yōu)先排序培訓(xùn),從而創(chuàng)建高優(yōu)先數(shù)據(jù)中心的用例管道組合。整體負(fù)責(zé)培養(yǎng)數(shù)據(jù)驅(qū)動(dòng)的文化和合作環(huán)境,共享和利用數(shù)據(jù)洞察來促進(jìn)這種環(huán)境中的業(yè)務(wù)成果。
?數(shù)據(jù)管理流在中央管理團(tuán)隊(duì)的支持下,可以遵循良好可靠的去中心化領(lǐng)域模型,通過制定正確的政策和條款,將數(shù)據(jù)的有效性和相關(guān)性帶到終端進(jìn)行管理。
?技術(shù)與結(jié)構(gòu)流程通過選擇合適的技術(shù)(例如,通過選擇合適的技術(shù)),可以根據(jù)用例要求負(fù)責(zé)整個(gè)平臺(tái)架構(gòu) Lakehouse 根據(jù)微服務(wù)的實(shí)施方法,結(jié)構(gòu)、內(nèi)存計(jì)算或處理框架),跟蹤技術(shù)進(jìn)步。
最后,三流之間的緊密協(xié)調(diào)與合作,對于利用這一有效的數(shù)據(jù)策略來實(shí)現(xiàn)整個(gè)組織目標(biāo)至關(guān)重要。
本文來自微信微信官方賬號“數(shù)據(jù)驅(qū)動(dòng)智能”(ID:Data作者:曉曉,36氪經(jīng)授權(quán)發(fā)布,_0101)。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




