亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

被忽視的AI力量:數(shù)據采集作為基礎設施

08-08 07:03

人工智能社區(qū)熱衷于追求更大的模型、十億令牌上下文窗口以及GPU的微調運行,然而,人工智能堆棧中最易被忽視的強大力量卻潛藏于這一切的底層,那就是數(shù)據。

需要明確的是,盡管擴大模型規(guī)模仍有其重要性,但對于大多數(shù)現(xiàn)實世界的人工智能產品而言,性能的提升越來越依賴于數(shù)據的質量和新鮮度,而非僅僅是參數(shù)的數(shù)量。為了獲取邊際收益而將模型規(guī)模翻倍,不僅成本高昂,而且在環(huán)境方面也難以持續(xù),因為巨大的電力和水成本根本無法實現(xiàn)大規(guī)模擴展。

這一瓶頸已從堆棧中凸顯出來。

構建AI原生產品的創(chuàng)始人和首席技術官逐漸意識到,他們的代理出現(xiàn)問題,并非是“模型”本身“不夠智能”,而是因為它盲目地處理過時、不相關或不完整的上下文。例如,Salesforce在2025年5月斥資80億美元收購了Informatica,目的是增強其AI驅動的Agentforce平臺。通過此次收購,他們能夠訪問高質量的實時數(shù)據,從而獲得更準確、更具擴展性的成果。

性能的優(yōu)劣取決于能夠檢索到的數(shù)據,而不僅僅是提示的方式。除非使用H100集群或運行著API預算無限的前沿模型,否則超越巨頭的最佳途徑是在可承受的范圍內為模型提供更智能的數(shù)據,即領域特定、結構化、去重且新鮮的數(shù)據。

但在構建上下文之前,數(shù)據必須先存在。這就需要可靠、實時地訪問開放網絡,不僅僅是進行一次性的數(shù)據抓取或獲取數(shù)據集,而是要建立能夠反映當前情況的強大管道。

各位,這就是基礎設施。如果說計算讓NVIDIA變得不可或缺,那么我認為下一個重大突破不在于更多的層數(shù),而在于獲取更多有價值的信號而非噪聲。而這一切始于將數(shù)據采集視為生產基礎設施。

“好數(shù)據”的標準

如果正在構建一款AI原生產品,系統(tǒng)的智能程度將不再取決于提示的巧妙程度,或者上下文窗口中能容納的標記數(shù)量,而是取決于為其提供當下重要上下文的能力。

但“好數(shù)據”的定義較為模糊,下面來具體說明它對人工智能的意義:

領域特定:例如AI輔助優(yōu)化零售定價,需要的是競爭對手數(shù)據、客戶評論或區(qū)域趨勢等相關信息,而非無關的噪音,必須做到精準定位。

持續(xù)更新:網絡變化迅速,錯過今日X趨勢的情緒模型,或使用上周價格的供應鏈模型,都已過時。

結構化和去重:重復、不一致和噪聲會浪費計算資源并稀釋信號,結構比規(guī)模更重要,干凈的數(shù)據勝過龐大的數(shù)據。

實時可操作:過時的數(shù)據毫無價值,實時數(shù)據如價格變動、新聞、庫存變化等,能夠為即時決策提供支持,但前提是數(shù)據收集必須合乎道德、可靠且可規(guī)?;?/p>

這就是Salesforce收購Informatica的原因,不是為了新模型,而是為Agentforce提供結構化的實時數(shù)據,以改善下游決策。

同樣,IBM在2024年7月斥資23億美元收購了StreamSets用于打造Watsonx。StreamSets專注于從混合數(shù)據源提取數(shù)據、監(jiān)控數(shù)據流并處理模式漂移,這使IBM能夠跨企業(yè)系統(tǒng)為Watsonx提供最新、一致的信號。對于需要基于實時狀態(tài)進行推理的AI來說,這種基礎設施能帶來10倍的增效效果。

Dataweps轉向Bright Data為飛利浦和華碩等電商客戶收集實時競爭對手定價和市場趨勢也是出于類似原因。他們的AI驅動定價和競價系統(tǒng)依賴于快速、準確的數(shù)據,而Bright Data的API驅動生態(tài)系統(tǒng)(包括代理、存檔/數(shù)據集、支持AI代理的瀏覽器自動化工具等)使他們能夠可靠且大規(guī)模地收集這些數(shù)據。Bright Data不僅是數(shù)據抓取工具,更是一家AI基礎設施提供商。

關鍵在于,檢索質量如今比提示工程更為重要。即使是最好的提示也無法解決模型在推理時提取過時或不相關數(shù)據的問題。

在當下,正確的環(huán)境是后Deepseek時代AI生存或消亡的關鍵。

數(shù)據采集的挑戰(zhàn)

乍一看,數(shù)據基礎設施似乎只是管道,如采集管道、轉換、存儲等,顯得枯燥乏味。但在RAG和代理AI時代,這種管道變得至關重要。因為系統(tǒng)不再只是進行推理,而是基于外部、不斷變化的多模態(tài)實時信息進行推理,這改變了一切。

我認為,現(xiàn)代人工智能數(shù)據棧已發(fā)展成為一個成熟的價值鏈,涵蓋信息的獲取和提取、轉換和豐富、整理和排序,以及存儲并提供給合適的組件(無論是模型、代理還是人類)。每一層都面臨著實時挑戰(zhàn)和現(xiàn)實后果,與傳統(tǒng)的ETL管道不同,它并非只是將數(shù)據錄入數(shù)據湖然后擱置一旁。

大多數(shù)團隊在第一步,即采集環(huán)節(jié)就容易出錯。糟糕的數(shù)據提取會破壞上下文,如果采集層錯過了關鍵更新,在邊緣情況下默默失敗,或者以錯誤的結構或語言捕獲信息,那么整個堆棧都會受到影響。

換句話說,無法設計未曾攝取的語境。有一篇有趣的論文《AI海洋中的塞壬之歌:大型語言模型中的幻覺調查》,作者是Zhang等人,該論文指出在生產級系統(tǒng)中,未解決的攝取問題是“模型幻覺”和其他異常代理行為的最常見根源。

因此,在RAG和代理AI時代,攝取必須具有戰(zhàn)略性:

它必須對人工智能代理友好,能夠提供結構化的、即時的數(shù)據。

它必須能夠處理動態(tài)UI、CAPTCHA、變化的模式和混合提?。ˋPI + 抓取)。

多步驟AI代理既需要實時信號,也需要歷史記憶,因此該基礎設施必須支持定時提取、增量更新和TTL感知路由,并且具備彈性、合規(guī)性,隨時準備應對變化。

它必須具有規(guī)??煽啃?,能夠持續(xù)從數(shù)百萬個來源提供最新信息,并且符合網站條款和法律規(guī)范。

這就是脆弱的抓取工具、靜態(tài)數(shù)據集和一次性連接器不再適用的原因,也是像Bright Data這樣專注于自動化友好、代理優(yōu)先數(shù)據基礎設施的平臺變得和模型本身一樣重要的原因。

我見過像Gemma 3這樣的開源、開放權重模型在狹窄領域中表現(xiàn)優(yōu)于GPT - 4,僅僅是因為新鮮的、精選的、基于領域的數(shù)據讓它們能夠用于更好的檢索系統(tǒng)。

我們來計算一下,假設將檢索到的上下文片段的總效用定義為:U = ∑i = 1kRiFi 。其中,Ri ∈ [0,1]是第i個檢索到的片段與查詢的相關性得分;Fi ∈ [0,1]是新鮮度得分,以隨時間衰減的函數(shù)建模(例如指數(shù)或線性);k是檢索到的上下文塊的數(shù)量,受模型的上下文窗口約束。

即使假設語義搜索完美,最大化U也可能意味著丟棄高度相關但過時的數(shù)據,轉而選擇相關性稍低但最新的信號。如果提取層跟不上,就會導致可見性損失和效用下降,并且過時內容的存在還會降低性能,導致檢索到的上下文質量的復合下降。

這就是為什么數(shù)據采集(包括但不限于計劃更新、TTL感知爬取、SERP提取、提要解析等)不再僅僅是管道。

數(shù)據采集基礎設施的模樣

那么,將數(shù)據采集視為一流的基礎設施究竟意味著什么呢?

這意味著:

構建循環(huán)管道,而非負載:數(shù)據不應只是一次性抓取并存檔,而應按計劃進行流式傳輸、刷新和更新,并且內置自動化、版本控制、重試邏輯和可追溯性。一次性轉儲無法提供持久的智能。

將新鮮度納入檢索邏輯:數(shù)據會隨著時間老化,排名和檢索系統(tǒng)應將時間漂移視為首要信號,優(yōu)先考慮能夠反映當前世界狀態(tài)的上下文。

使用基礎設施級來源:從自制腳本中抓取原始HTML無法實現(xiàn)大規(guī)模擴展,需要訪問層,這些層應提供SLA、對驗證碼的彈性、模式漂移處理、重試、代理編排和合規(guī)性支持。

跨模態(tài)采集:有價值的信號存在于PDF、儀表板、視頻、表格、屏幕截圖和嵌入式組件中,如果系統(tǒng)只能從純HTML或Markdown中提取數(shù)據,就會錯過一半的信息。

構建事件原生數(shù)據采集架構:Kafka、Redpanda、Materialize和時間序列數(shù)據庫等并非只適用于后端基礎設施團隊,在AI原生系統(tǒng)中,它們將成為采集和重放時間敏感信號的神經系統(tǒng)。

簡而言之,不要把數(shù)據視為靜態(tài)資源,而要把它當成計算資源,需要進行編排、抽象、擴展和保護,這才是“數(shù)據采集即基礎設施”的真正含義。

未來:信息大于規(guī)模

大多數(shù)RAG討論都集中在模型層面,但如今興起的AI棧中,模型可以互換,而數(shù)據基礎設施才是長期的競爭優(yōu)勢。

摩爾定律或許已不再適用,但原始性能仍在穩(wěn)步提升。在不久的將來,我不確定人工智能系統(tǒng)的性能是否取決于微調或快速的技巧。我認為,最終的勝利將取決于系統(tǒng)掌握的知識以及獲取知識的速度。最智能的人工智能系統(tǒng)并非擁有最大窗口的系統(tǒng),而是擁有最佳上下文管理能力的系統(tǒng),這得益于實時數(shù)據、動態(tài)內存和智能提取。

因此,作為工程師,不應將每一個新的數(shù)據源、反饋或實時數(shù)據流視為“內容”,而應將其視為能力;每一個新的數(shù)據流也未必是噪音,而是信號。

也許你已經構建了這樣一個關鍵的人工智能基礎設施,只是還沒有這樣稱呼它。

也許你已經開始考慮將數(shù)據(例如API)饋送到自己的內部智能層,并且意識到不需要最大的模型,只需要合適的管道。

那些將網絡規(guī)模的數(shù)據采集視為基礎設施而非次要任務的團隊,將會行動得更快、學到更多、用更少的費用獲得成功。

本文來自微信公眾號“數(shù)據驅動智能”(ID:Data_0101),作者:曉曉,36氪經授權發(fā)布。

本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。

免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com