亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

Hadoop 已死,AI 吞噬世界?

商界觀察
2024-02-22

Apache Kylin 畢業(yè)于 2015 年,Kyligence 公司成立于 2016 年,在過去幾年,我們在技術上不斷迭代和更新,以適應新的技術趨勢,積累了不少實踐和總結(jié)。

 

在新年之際,我想借此機會,和大家分享更多我們的一些思考,介紹我們對相關趨勢的觀察和思考,以及對未來的一些認知。希望大家一起,為這個行業(yè)的變革帶來貢獻。

 

01 開源賺不了大錢!

 

Open source can't make big money

 

這是我很不愿意提及的話題,但事實如此。

 

商業(yè)角度看,開源不是商業(yè)模式,只是市場手段。而在商業(yè)上,如果沒有有效的商業(yè)化手段,開源的用戶是不會轉(zhuǎn)換成為付費用戶,從行業(yè)中很多朋友們的實踐中可以深刻地感受到。

 

很多人對我們的認知不夠深刻,覺得我們是讓用戶先用開源 Kylin,然后轉(zhuǎn)換到商業(yè)版本,這個誤解很多年了。Apache Kylin 在我們離開 eBay 的時候,已經(jīng)完成了幾項重要的社區(qū)工作:

 

畢業(yè)成為 ASF 頂級項目,建立了品牌和知名度

 

被幾大互聯(lián)網(wǎng)廠商大規(guī)模使用,包括百度、網(wǎng)易、頭條、美團等,磨煉了技術成熟度

 

作為中國第一個 ASF 頂級開源項目,構建了社區(qū)和影響力

 

因此,在我們創(chuàng)立 Kyligence 公司的時候,即全面開啟商業(yè)化,幾乎所有的客戶都是直接談的企業(yè)版,并且在一開始就走商業(yè)化合作,這也是這么多頭部客戶持續(xù)合作多年的原因。今天我們積累了這么多企業(yè)級客戶,只有極個別是使用了 Apache Kylin 之后轉(zhuǎn)換為商業(yè)版的,尤其是銀行等金融客戶,一開始就對企業(yè)級特性、安全、資源管理以及服務等提出了苛刻的需求,而這些也是企業(yè)版的設計目標。客戶要的從來不僅僅只是技術,而是技術背后的產(chǎn)品設計、服務保障以及持續(xù)的創(chuàng)新能力。

 

商業(yè)是商業(yè),我們所有人必須要深刻理解客戶為什么付錢,為什么愿意付我們這么多錢。底層技術突破很難,但往往在產(chǎn)品上,真正賺錢的不是最高深的技術,我們只需要提升一些用戶體驗,改變一些工藝流程,只要能夠幫助用戶節(jié)省人力、成本,提升效率,客戶都是愿意付費的——每個技術點,都要設計價值主張給到客戶,而不只是聲稱技術很厲害,必須得到客戶的認可。這需要我們更多地深入客戶現(xiàn)場,更多去理解客戶的實際需求、痛點、癢點。

 

當然,我們并不否認開源的價值。我們自己也是從開源技術、社區(qū)等獲益匪淺,因此我們也將持續(xù)在各個開源項目中持續(xù)投入、參與和繼續(xù)主導。

 

02 Hadoop 已死

 

Hadoop is dead

 

Hadoop 作為大數(shù)據(jù)的代表,曾經(jīng)風光無限,有著巨大的市場機會。可惜在 2021 年隨著 MapR 的出售和 Cloudera 的私有化逐漸沒落。這里面夾雜著太多的原因,但從我的視角,主要來自于社區(qū)的分裂和商業(yè)策略上的保守。

 

2017 年,Doug Cutting(Hadoop 之父)在Hadoop 十周年之際暢想未來十年的 Hadoop 生態(tài)將會如何。而不到 5 年,行業(yè)已經(jīng)幾乎很少再談論 Hadoop 的相關技術——有也只是小修改,沒有驚艷的項目出現(xiàn)了。

 

在創(chuàng)業(yè)的前五年,我們很幸運跟著大數(shù)據(jù)、數(shù)據(jù)湖的擴張而擴張,那時候各家銀行都在將基于 MPP 數(shù)據(jù)倉庫的應用遷移到基于 Hadoop 的大數(shù)據(jù)平臺。但隨著 Hadoop 廠商的沒落,我們也明顯能感覺到市場的快速變化,同時隨著云計算的興起,云數(shù)據(jù)倉庫、云數(shù)據(jù)湖又非??焖俚脑谑袌錾铣霈F(xiàn),“數(shù)據(jù)倉庫”的技術流派逐漸分裂。而國內(nèi)的情況更加糟糕,滋生了各種定制的 Hadoop、魔改的私有云,使得這個市場非常復雜,卻又很難賺到超額利潤。

 

2021 年,某銀行客戶領導聯(lián)系我們?nèi)ブv課,直接坦承“Hadoop 已經(jīng)結(jié)束了”,讓我們?nèi)ズ退麄兊募軜媹F隊探討 Hadoop 之后的大數(shù)據(jù)平臺應該如何走向,以及現(xiàn)有的架構、應用等如何遷移等。當時我們就非常敏感地意識到,必須更快地迭代和轉(zhuǎn)型。

 

過去的兩年多來,我們可以真切地感受到,以 Hadoop 為主的平臺正在放緩建設,一部分重新回到了 MPP(以數(shù)據(jù)倉庫為基礎,大數(shù)據(jù)/數(shù)據(jù)湖支撐部分業(yè)務),一部分走向了云原生架構(以數(shù)據(jù)湖為基礎,走向湖倉一體)。我預測,未來這種復雜的混部架構應該會持續(xù)存在至少 5 年以上。

 

03 BI 即將進化

 

BI will be evolved

 

現(xiàn)代的 BI 工具,幾乎都是可視化工具,而之所以需要這么強的可視化,是因為人類無法直接理解數(shù)據(jù),給人 0 和 1 是無法直接解讀和理解的。而圖形可以幫助人類快速理解,某個指標是漲了還是跌了,某個因子比另外一個要影響更大,哪個結(jié)果指標是由哪幾個過程指標分解等等。優(yōu)秀的可視化能力,是幫助分析師高效完成分析、總結(jié)和探索的的利器。

 

但今天,當 AI 可以直接讀取和分析數(shù)據(jù)的時候,就不需要前置一個可視化工具了。直接給 AI 數(shù)據(jù) 0 和 1,即可讓 AI 快速給出分析結(jié)論:是漲了跌了?背后是為什么?什么因子影響的?影響有多大?還有什么原因……AI 產(chǎn)生的效率提升,是十倍到百倍以上的。相當于 AI 把以前分析師需要做的大部分工作都做了,人類只需要進行選擇、判斷和稍微修正就行。這是 AI 時代對數(shù)據(jù)和分析行業(yè)帶來巨大變化的第一點。

 

自動化行業(yè)有一個非常好的比喻:不要讓機器人打算盤。都已經(jīng)有 AI 了,人類可以問 AI 要結(jié)果和建議,而不是依然讓 AI 去做低效的工作。

 

我們今天的產(chǎn)品已經(jīng)做到了這些能力,我們可以更進一步,去改變這個行業(yè)。為用戶提供一個動態(tài)的、聰明的、高效的決策助理/Copilot,而不僅僅只是一個數(shù)據(jù)呈現(xiàn)工具。

 

04 從性能轉(zhuǎn)移到績效

 

Performance is not the key

 

Performance will be the new key

 

我們在 OLAP 的場景中,經(jīng)常碰到的挑戰(zhàn)就是 Performance/性能。

 

雖然性能是我們的強項,但往往我們花費了無數(shù)的心血,可能只是為了幫助客戶的某條 SQL 提速了幾秒鐘,或者只是讓他們在點開儀表盤的時候少等待幾秒。

 

在技術 PK 中,Performance也是最常見的、競爭性最強的一個點。性能良好的系統(tǒng)/OLAP,當然是非常好的,但當大家都到了秒級的時候,其實已經(jīng)沒什么可比的。而往往改變一個數(shù)據(jù)結(jié)構,或者一個數(shù)據(jù) Pipeline,就能夠以數(shù)量級的方式提升性能。

 

那為什么需要這么好的性能?在 AI 時代,性能依然重要嗎?我們認為,之所以需要 OLAP 或者數(shù)據(jù)倉庫端有極好的性能,是因為大量的數(shù)據(jù)分析工作,依賴于有限的幾個分析師或業(yè)務用戶,而這個人群的業(yè)務壓力非常大,且往往數(shù)據(jù)出來后,依然有著非常繁重的任務,比如對比數(shù)據(jù)、查閱歷史、分析原因、重跑各種可能性等等,并要形成報告和決策、行動建議。所以一個非常好用的工具確實是必不可少的。

 

但在 AI 時代,這里的大量工作其實可以委托給 AI 完成,甚至可以讓 AI 提前完成,尤其是固有的、常用分析套路。AI 可以快速給出大致的總結(jié),這已經(jīng)能夠大大節(jié)省人力。AI 甚至可以讓各種系統(tǒng)自動化連接起來。

 

今天我們用 Kyligence Zen 出一個周報或者做一次歸因,只要十秒左右即可,而且自帶了總結(jié),這比傳統(tǒng)的那套流程:出結(jié)果、查資料、寫報告……已經(jīng)有了質(zhì)的提升。性能,尤其是查詢性能,在這個場景下其實已經(jīng)沒那么嚴苛了。反而,并發(fā)性成了下一個挑戰(zhàn),因為會有越來越多的人來使用系統(tǒng)。而并發(fā),正好也是我們的強項。

 

而最近,更多的客戶已經(jīng)將關注點,從性能轉(zhuǎn)移到了Performance 的另外一個含義:績效。

 

指標平臺,本質(zhì)上是一個 KPI 平臺,而 KPI 則是 Key Performance Indicator 的縮寫。當我們將關注點從性能轉(zhuǎn)移到績效的時候,突然發(fā)現(xiàn),這才是客戶真正要的產(chǎn)品:儀表盤或者報表從來不是客戶要得最終結(jié)果,他們要得是基于數(shù)據(jù)的管理能力。幾乎每一個有用的指標/Metric,都展示了某個業(yè)務或者管理的結(jié)果,而一個公司之所以需要指標,就是為了更好地觀測相關業(yè)務的進展、健康狀態(tài)以及及時采取措施來修正組織行為,從而確保公司的整體或者部分績效能夠按照設定的目標行進。

 

我們要跳出技術思維,在Performance/績效上打出差異化和壁壘,提升技術投入的 ROI,并快速占據(jù)市場。

 

05 AI 吞噬世界

 

AI is eating the world

 

圖片來自網(wǎng)絡

 

AI 正在吞噬軟件,這是 NVIDIA 黃仁勛在2017年的一篇采訪中提到的,到今天,應該沒有人再懷疑這個論斷?,F(xiàn)在的問題是,AI 將如何改變不同領域的軟件,在我們自己的行業(yè),就是 AI 將如何改變數(shù)據(jù)與分析市場。

 

在數(shù)倉領域,上面這種圖已經(jīng)用了超過 30 年了:“數(shù)據(jù)源”—“ETL”—“數(shù)據(jù)倉庫”—“OLAP/數(shù)據(jù)集市”—“BI/Reporting”頂多再加上“元數(shù)據(jù)”和“分析預測”。無論 ELT 還是 ETL、數(shù)據(jù)湖還是數(shù)據(jù)倉庫、本地部署還是云端部署,其中所有的假設,都是數(shù)據(jù)需要經(jīng)過漫長的工程,從原始數(shù)據(jù)萃集后,整理成星型或雪花模型,從而提供給上層 BI 等使用。作為使用者的最終用戶,往往是最后才被賦能,從而導致大量的數(shù)據(jù)其實今天依然沒有被充分利用起來。

 

Generative AI(生成式 AI)的出現(xiàn),使得數(shù)據(jù)的工藝流程出現(xiàn)了巨大的變革,數(shù)據(jù)的加工方式發(fā)生了革命性的變化。首先,各種復雜的重復性的勞動,尤其是數(shù)據(jù)的 Pipeline,都將由 AI Agent 來處理。小到行列轉(zhuǎn)換,大到數(shù)據(jù)治理,未來應該有很多的 AI Agent 來處理這些工作,人類只需要用提示詞設計合理的流程就好。這從 ChatGPT 自帶的 Advanced Data Analysis 和眾多使用 OpenAI’s Code Interpreter 的數(shù)據(jù)分析工具都可以看到,甚至 GPTs 可以通過幾個簡單的提示詞就可以完成很多數(shù)據(jù)梳理、分析的工作。

 

當時我在一個內(nèi)部的文檔中就寫到:

 

其次,人和機器的交互進化到了最自然的方式,數(shù)據(jù)的消費方式發(fā)生了革命性的變化。只要會說話,就能用數(shù)據(jù),是這一次 AI 帶來的巨大變革。這使得原來只有領導、分析師、專業(yè)用戶等才能使用的“數(shù)據(jù)和分析能力”,一下子平民化到了每個人,即使文化水平有限的用戶,也能被充分賦能。這將大大改變現(xiàn)在的數(shù)據(jù)架構、處理模式和消費方式等。

 

大部分公司現(xiàn)在能夠有效使用數(shù)據(jù)的員工不超過 10 ~ 15%,而這次 AI 革命,能夠讓其余 85 ~ 90% 的人直接消費數(shù)據(jù)或者數(shù)據(jù)產(chǎn)品,可以預見,現(xiàn)有的數(shù)據(jù)架構是無法滿足的。這里的變革才剛開始,我們的實踐走在行業(yè)最前沿,最近收到很多的市場反饋,都說我們的產(chǎn)品做的非常務實和好用,甚至某頭部股份制銀行和我談是不是給他們提供個產(chǎn)品咨詢教他們怎么做產(chǎn)品——這說明我們的設計、體驗和功能,獲得了最終用戶的認可,正在影響行業(yè)的發(fā)展。

 

當每個人都能、都需要消費數(shù)據(jù)的時候,傳統(tǒng)的數(shù)據(jù)倉庫或者數(shù)據(jù)湖的架構是否還適用,數(shù)據(jù)的存儲方式將發(fā)生什么樣的變革?這是一個開放問題,目前我還沒有具體的答案,但可以預見,AI 的場景,必然會要求系統(tǒng)處理更多的數(shù)據(jù),更靈活地訪問數(shù)據(jù)和更高效地服務更多人。從今天的大部分 MPP 和大數(shù)據(jù)的架構上看,在這幾個方面應該都會很快面臨巨大的挑戰(zhàn),當比現(xiàn)在訪問量大十倍、百倍甚至萬倍的時候,今天任何數(shù)據(jù)系統(tǒng)要在成本可控的情況下完成都非常困難,這里期待我們未來和客戶一起共同研究和探索,一起突破這里的極限。

 

AI 能帶來的,將遠比這些更多。AI 將帶來數(shù)據(jù)和分析的深層次革命。機器將代替人類完成更多的工作,尤其是重復的、可被自動化的。過去數(shù)據(jù)系統(tǒng)完成數(shù)據(jù)的加工和指標的統(tǒng)計后,后續(xù)需要大量的人工去分析影響相關指標變化的影響要素,探索根因,并根據(jù)經(jīng)驗提供相關的決策建議。

 

簡單的實踐就能看到巨大的變化,這里面的潛力無限。希望所有人都能發(fā)揮想象力,更多地讓 AI 來改變數(shù)據(jù)和分析,甚至是整個企業(yè)的經(jīng)營和管理。

 

本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com