怎樣把數(shù)據(jù)質(zhì)量測(cè)量理論付諸行動(dòng)?
據(jù)調(diào)查,大多數(shù)企業(yè)希望提高投資的行業(yè)都是數(shù)據(jù)質(zhì)量,這是未來(lái)最受歡迎的投資領(lǐng)域。
這有充分的理由。首先,數(shù)據(jù)質(zhì)量差會(huì)導(dǎo)致對(duì)數(shù)據(jù)的信任度下降和決策錯(cuò)誤。其次,越來(lái)越多的企業(yè)投資于業(yè)務(wù)關(guān)鍵系統(tǒng),比如數(shù)據(jù)倉(cāng)庫(kù)直接支持的。 ML 或者對(duì)用戶(hù)進(jìn)行分析,而且這些系統(tǒng)沒(méi)有錯(cuò)誤的空間。
但是,大多數(shù)企業(yè)對(duì)數(shù)據(jù)質(zhì)量沒(méi)有客觀(guān)的評(píng)估方法,這使他們無(wú)法識(shí)別問(wèn)題區(qū)域或跟蹤一段時(shí)間內(nèi)的改善狀況。
我們?cè)诒疚闹杏懻撨^(guò)。
測(cè)量質(zhì)量時(shí)應(yīng)注意的問(wèn)題?
以數(shù)據(jù)資產(chǎn)為核心的方式
以數(shù)據(jù)產(chǎn)品為核心的方法
將質(zhì)量洞察與定量指標(biāo)相結(jié)合。
把洞察付諸實(shí)踐
您在玩什么游戲?
假設(shè)你和大多數(shù)人一樣,你不會(huì)為了好玩而測(cè)量數(shù)據(jù)質(zhì)量。取而代之的是,你有一個(gè)明確的項(xiàng)目要求,例如,
?讓分布式團(tuán)隊(duì)通過(guò)強(qiáng)調(diào)問(wèn)題區(qū)域來(lái)掌握數(shù)據(jù)質(zhì)量;?在利益相關(guān)者多次詢(xún)問(wèn)數(shù)據(jù)質(zhì)量被視為較低之后,向他們展示自信;?向監(jiān)管部門(mén)說(shuō)明你掌握了數(shù)據(jù)質(zhì)量的主導(dǎo)權(quán);?與數(shù)據(jù)產(chǎn)品的工程師分享你的承諾。 SLA 系統(tǒng)正常運(yùn)行時(shí)間。
在進(jìn)行測(cè)量數(shù)據(jù)質(zhì)量之前,你應(yīng)該知道你在玩什么游戲。。獲得可靠性指標(biāo)將是一項(xiàng)投資,一旦你發(fā)現(xiàn)問(wèn)題區(qū)域,更多的投資等著你,以更好的數(shù)據(jù)質(zhì)量控制來(lái)改變這些問(wèn)題。
一 測(cè)量質(zhì)量時(shí)應(yīng)注意的問(wèn)題?
為了讓每個(gè)人都能以一致的方式對(duì)待它,制定了衡量數(shù)據(jù)質(zhì)量的指導(dǎo)方針。盡管這可能取決于業(yè)務(wù)狀況,但是我們發(fā)現(xiàn)這些指導(dǎo)原則非常有效。
指標(biāo)——測(cè)量覆蓋率和正常運(yùn)行時(shí)間
行動(dòng)——可以操作,后續(xù)步驟清晰明確
細(xì)分——可以根據(jù)關(guān)鍵層次進(jìn)行細(xì)分
用例——考慮數(shù)據(jù)的使用方法
趨勢(shì)——時(shí)間的流逝是一致的,可以衡量。
在許多情況下,需要根據(jù)數(shù)據(jù)的使用方法來(lái)指定預(yù)期。一般來(lái)說(shuō),建議這樣做,因?yàn)槟憧赡懿幌M匈Y產(chǎn)都遵循同樣的標(biāo)準(zhǔn)。記住哪些數(shù)據(jù)對(duì)業(yè)務(wù)特別重要,哪些數(shù)據(jù)會(huì)被公開(kāi)(例如,在儀表板上),哪些資產(chǎn)應(yīng)該有 SLA(例如,如果數(shù)據(jù)沒(méi)有按時(shí)到達(dá),就會(huì)產(chǎn)生下游的影響),可以幫助你評(píng)估你需要什么樣的檢查,然后衡量哪些是重要的。
示例 – 每一表的質(zhì)量標(biāo)準(zhǔn)和元數(shù)據(jù)
二 數(shù)據(jù)質(zhì)量以數(shù)據(jù)資產(chǎn)為核心進(jìn)行測(cè)量
資產(chǎn)等級(jí)監(jiān)控?cái)?shù)據(jù)質(zhì)量非常直觀(guān):正常運(yùn)行時(shí)間和覆蓋率可以計(jì)算在表等級(jí),并且可以根據(jù)元數(shù)據(jù)維度進(jìn)行細(xì)分(如所有者領(lǐng)域、關(guān)鍵性和隨時(shí)間推移)。
這樣可以俯瞰數(shù)據(jù)堆棧,了解哪些領(lǐng)域比較薄弱,哪些領(lǐng)域比較強(qiáng),以及這與預(yù)期有什么關(guān)系。
為了獲得最完整的信息,我們建議您考慮兩個(gè)指標(biāo)。
正常工作時(shí)間——每一次運(yùn)行,當(dāng)前控制措施成功通過(guò)的百分比是多少?
覆蓋率——有多少比例的數(shù)據(jù)資產(chǎn)已經(jīng)實(shí)施了必要的控制?
將質(zhì)量標(biāo)準(zhǔn)分組到語(yǔ)義相似的領(lǐng)域,以更符合業(yè)務(wù)用例的方式探討數(shù)據(jù)質(zhì)量。
(1) 時(shí)效性– 是否根據(jù)與業(yè)務(wù)商定的數(shù)據(jù)? SLA 保持最新和最新的狀態(tài),
(2) 準(zhǔn)確性– 是否可以使用所有數(shù)據(jù),
(3) 完整性– 語(yǔ)義上的數(shù)據(jù)是否正確,
(4) 一致性– 可用數(shù)據(jù)在系統(tǒng)結(jié)構(gòu)中是否一致。
同時(shí),我們也建議明確哪些情況是“差”、“好”或“好”。例如,任何低于每個(gè)人的例子 50% 所有的分?jǐn)?shù)都被標(biāo)記為“差”,這意味著需要付諸行動(dòng)。
數(shù)據(jù)質(zhì)量明細(xì)表-正常運(yùn)行時(shí)間和覆蓋范圍,跨質(zhì)量維度和隨時(shí)間變化。
這一洞察水平可以讓你開(kāi)始詢(xún)問(wèn)數(shù)據(jù)質(zhì)量問(wèn)題,例如,
雖然我們對(duì)空值檢查有很好的覆蓋作用,但是我們應(yīng)該研究哪些檢查失敗了,是否可以修復(fù),或者是否應(yīng)該刪除。
為什么我們肯定測(cè)試的正常運(yùn)行時(shí)間明顯減少?
鑒于覆蓋率低,我們?cè)谖ㄒ恍詸z測(cè)中的高正常運(yùn)行時(shí)間是否會(huì)給我們一種虛假的安全感?
假設(shè)你已經(jīng)指定了域所有者等元數(shù)據(jù)。在這種情況下,你可以對(duì)數(shù)據(jù)進(jìn)行細(xì)分,以檢查準(zhǔn)確性分?jǐn)?shù)的下降通常由數(shù)據(jù)倉(cāng)庫(kù)團(tuán)隊(duì)擁有的表的肯定檢測(cè)驅(qū)動(dòng)。我想你現(xiàn)在知道找誰(shuí)了。
三 數(shù)據(jù)質(zhì)量測(cè)量方法以數(shù)據(jù)產(chǎn)品為核心。
雖然上面提到的以數(shù)據(jù)資產(chǎn)為核心的方法有優(yōu)勢(shì)——它很容易理解和實(shí)施,但是推理它有一個(gè)主要的缺點(diǎn)。
本質(zhì)上,以數(shù)據(jù)資產(chǎn)為核心的質(zhì)量標(biāo)準(zhǔn)與數(shù)據(jù)用例無(wú)關(guān)。
也就是說(shuō),你的時(shí)效性分?jǐn)?shù)可以達(dá)到 95%。但是,如果包含關(guān)鍵廣告費(fèi)用管道的話(huà) ML 每周運(yùn)行前預(yù)測(cè)數(shù)據(jù)模型失敗,那么你的情況就不會(huì)好轉(zhuǎn),你的情況也不會(huì)好轉(zhuǎn)。 CTO 會(huì)生氣地來(lái)找你,要求你控制參數(shù)質(zhì)量。
以數(shù)據(jù)產(chǎn)品為核心,我們提出了一種替代數(shù)據(jù)質(zhì)量的方法。
數(shù)據(jù)產(chǎn)品是由曝光鏈接等一組相關(guān)資產(chǎn)。 DBT 支持營(yíng)銷(xiāo)自動(dòng)化的模型 CLTV 使用表格或模型 BI 在工具中選擇一組儀表板。也就是說(shuō),數(shù)據(jù)產(chǎn)品與其業(yè)務(wù)用例密切相關(guān)。
數(shù)據(jù)產(chǎn)品類(lèi)似于汽車(chē)儀表盤(pán)上的警示燈。他們不會(huì)馬上告訴你任何關(guān)于底層指標(biāo)的信息(例如,油量是否低于 10%),而是告訴你商品存在問(wèn)題,問(wèn)題的重要性,以及你應(yīng)該如何調(diào)查。
你可以在上面的例子中立即看到業(yè)務(wù)。 KPI 上游資產(chǎn)數(shù)據(jù)產(chǎn)品問(wèn)題。
你可以在考慮數(shù)據(jù)產(chǎn)品內(nèi)部和上游問(wèn)題的同時(shí),跟蹤數(shù)據(jù)產(chǎn)品的健康狀況。這創(chuàng)造了一種以最終用戶(hù)為中心的更直觀(guān)的數(shù)據(jù)健康測(cè)量方法。有了這些信息,你可以自信地告訴你的首席財(cái)務(wù)官和你的業(yè)務(wù)。 KPI 過(guò)去儀表板存在可靠性問(wèn)題, 15 天內(nèi)停機(jī)時(shí)間為 6 天。
當(dāng)數(shù)據(jù)產(chǎn)品的穩(wěn)定性出現(xiàn)問(wèn)題時(shí),你可以對(duì)不同的數(shù)據(jù)控制進(jìn)行深入的研究,找出根本原因。
四 結(jié)合定量指標(biāo)和定性觀(guān)點(diǎn)
盡管數(shù)據(jù)質(zhì)量檢查覆蓋率高,錯(cuò)誤少,但你可能仍然存在盲點(diǎn)。你可以通過(guò)將質(zhì)量標(biāo)準(zhǔn)與相關(guān)數(shù)據(jù)用戶(hù)體驗(yàn)的定性觀(guān)點(diǎn)和指標(biāo)相結(jié)合來(lái)解決這個(gè)問(wèn)題。
利益相關(guān)者的調(diào)查將定量指標(biāo)與利益相關(guān)者調(diào)查相結(jié)合,是發(fā)現(xiàn)改進(jìn)領(lǐng)域的好方法。要求他們提供誠(chéng)實(shí)匿名的反饋,包括自助服務(wù)的滿(mǎn)意度、儀表板的質(zhì)量以及他們所在地區(qū)是否有足夠的數(shù)據(jù)人員。
對(duì)數(shù)據(jù)事件進(jìn)行宣布和監(jiān)控數(shù)據(jù)隊(duì)對(duì)事件并不陌生。但是處理數(shù)據(jù)問(wèn)題通常沒(méi)有標(biāo)準(zhǔn)的方法,許多團(tuán)隊(duì)只是偶爾宣布數(shù)據(jù)事件。
不像自動(dòng)數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn),事件是手動(dòng)聲明和分類(lèi)的(例如 P1、P2、P3)。記錄歷史事件是一種很好的方法,可以補(bǔ)充數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn),向利益相關(guān)者透明。
監(jiān)控?cái)?shù)據(jù)的可用性雖然嚴(yán)格來(lái)說(shuō)不是數(shù)據(jù)質(zhì)量的衡量標(biāo)準(zhǔn),但數(shù)據(jù)資產(chǎn)的可用性往往被忽視。這可能會(huì)導(dǎo)致終端用戶(hù)感覺(jué)不好,比如對(duì)同一個(gè)指標(biāo)有多個(gè)定義,或者堆放臃腫,包括上百個(gè)未使用的數(shù)據(jù)模型和儀表板。為了克服這個(gè)問(wèn)題,我們建議您使用可用性指標(biāo)來(lái)補(bǔ)充您的質(zhì)量標(biāo)準(zhǔn),例如
參與性成績(jī)——在數(shù)據(jù)模型上,儀表板的用戶(hù)數(shù)量和下游依賴(lài)項(xiàng)以及查詢(xún)的總數(shù)
可用性評(píng)分– 列和表中包含描述的百分比
這是維護(hù)健康堆棧的重要組成部分,可以幫助您實(shí)施淘汰未使用的數(shù)據(jù)模型或儀表板等計(jì)劃。
五 把洞察付諸實(shí)踐
你經(jīng)常想把監(jiān)控?cái)?shù)據(jù)質(zhì)量過(guò)程中發(fā)現(xiàn)的洞察付諸行動(dòng)。無(wú)論是為了改善一個(gè)特定的領(lǐng)域,還是和利益相關(guān)者分享你的改進(jìn)方法,還是別的什么。
雖然沒(méi)有一勞永逸的解決辦法,但是我們已經(jīng)看到這些方法更有效。
自動(dòng)通過(guò)每周電子郵件摘要追究責(zé)任——成為一個(gè)必須告訴他們數(shù)據(jù)質(zhì)量差的人并不總是一件有趣的事情。安排每周自動(dòng)發(fā)送一封電子郵件,包括隨時(shí)間的推移和每個(gè)業(yè)主領(lǐng)域的質(zhì)量分?jǐn)?shù)。這是一種很好的追究責(zé)任的方式,不需要一個(gè)人指責(zé)。
如果人們看到自己的團(tuán)隊(duì)得分低于同行,他們就會(huì)引起注意。
認(rèn)真對(duì)待元數(shù)據(jù)— 我們可以看到,數(shù)據(jù)質(zhì)量計(jì)劃失敗最常見(jiàn)的原因是每個(gè)人都對(duì)數(shù)據(jù)質(zhì)量負(fù)責(zé),所以沒(méi)有人感到負(fù)責(zé)。只有通過(guò)強(qiáng)制執(zhí)行元數(shù)據(jù)(如關(guān)鍵和所有者或領(lǐng)域),人們才能對(duì)其領(lǐng)域的數(shù)據(jù)質(zhì)量負(fù)責(zé)。
警惕“破窗理論”——“破窗理論”可以追溯到犯罪。它認(rèn)為,如果院子里的一扇窗戶(hù)被打碎,院子里的其他一切都會(huì)開(kāi)始崩潰。如果居民開(kāi)始看到一切都崩潰了,他們就不會(huì)再關(guān)注其他事情了。我們可以將同樣的隱喻應(yīng)用到數(shù)據(jù)質(zhì)量上。
如果有很多測(cè)試失敗,這通常是信噪比過(guò)低或測(cè)試實(shí)施位置不正確的前兆。失敗的數(shù)據(jù)檢查不能擱置。相反,解決這類(lèi)問(wèn)題并刪除不再需要的數(shù)據(jù)檢查,應(yīng)該留出特殊的時(shí)間(例如,每隔一周的“修復(fù)星期五”)。
建立數(shù)據(jù)質(zhì)量操作手冊(cè)– 如果您的團(tuán)隊(duì)規(guī)模較大,請(qǐng)包括明確的步驟來(lái)處理每個(gè)數(shù)據(jù)質(zhì)量維度,以便每個(gè)人都能清楚地了解它。例如,如果時(shí)效性成績(jī)較低,可以推薦一些步驟,例如添加數(shù)據(jù)庫(kù)新鮮度檢查或設(shè)置新鮮度監(jiān)控器。
數(shù)據(jù)質(zhì)量評(píng)分的行動(dòng)不一定就此結(jié)束。我們已經(jīng)看到最好的團(tuán)隊(duì)進(jìn)一步將質(zhì)量評(píng)分嵌入關(guān)鍵儀表板,向利益相關(guān)者解釋數(shù)據(jù)是否值得信賴(lài),并設(shè)置要求,即業(yè)務(wù)關(guān)鍵流程中使用的數(shù)據(jù)資產(chǎn)必須在公開(kāi)之前獲得“良好”的評(píng)分。
本文來(lái)自微信微信官方賬號(hào)“數(shù)據(jù)驅(qū)動(dòng)智能”(ID:Data作者:曉曉,36氪經(jīng)授權(quán)發(fā)布,_0101)。
本文僅代表作者觀(guān)點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com