訓練集、驗證集、測試集和而不同,國內數(shù)據(jù)集又是怎樣光景?

0 評論 1423 瀏覽 7 收藏 37 分鐘

在AI的世界中,有關數(shù)據(jù)集的“故事”有很多,這篇文章里,作者就繼續(xù)講述有關AI數(shù)據(jù)集的那些原理,梳理了訓練集、驗證集、測試集的區(qū)別和聯(lián)系,以及目前國內數(shù)據(jù)集的現(xiàn)狀、挑戰(zhàn)和應對之策。想弄懂AI數(shù)據(jù)集的同學,不妨來看看這篇文章。

各位看官:

歡迎一起揭秘AI的世界。AI領域中,無論是模型,算法,還是應用,都離不開數(shù)據(jù)。

如果將AI比喻成一個廚師,那么數(shù)據(jù)就是食材。沒有食材,廚師就無法烹飪出美味的佳肴。同樣地,沒有數(shù)據(jù),AI就無法進行分析和預測,無法提供有價值的信息和決策支持。

所以,我覺得很有必要在了解AI的初步階段時,就先和大家一起了解一下AI數(shù)據(jù)集是怎么回事。

無論你是廚師還是食客,大致要知道一些,美食佳肴用哪些食材烹飪而成的吧?

原本呢,我是打算僅一篇文章就把數(shù)據(jù)集的事情說清楚的,但后面越寫越發(fā)現(xiàn),數(shù)據(jù)集的內容比我預想的要多,文章草稿擬完后,意外發(fā)現(xiàn)竟然有2萬多字。

2萬多字如果放在一篇文章中,不符合閱讀習慣,不能發(fā)。所以,即使我已經將整體的內容草稿都寫好了,還是決定再投入一些精力和時間,重新進行一輪拆分。

畢竟太長的內容,確實會影響到閱讀的耐心,在短視頻充斥的當代,也不知道還剩多少人會有耐心看完一篇長文了。可見,內容太長,亟待拆解,分章閱讀,許更合適。

本篇依舊繼續(xù)說數(shù)據(jù)集的故事,這是數(shù)據(jù)集的第三篇文章,和之前兩篇有上下文的邏輯關聯(lián),但不會影響獨立閱讀。如果想一次性弄懂AI數(shù)據(jù)集,可以連著前面兩篇一起看。

第一篇《帶你識別AI數(shù)據(jù)集的各種面孔 (AI從業(yè)萬字干貨)》中,我主要介紹了AI數(shù)據(jù)集是什么,這些數(shù)據(jù)集的常見格式有哪些,分別有哪些適用場景和局限之處,也給大家整理了一些網上的公開數(shù)據(jù)集,當我們需要數(shù)據(jù)來做AI項目時,可供君參考。

第二篇《AI屆的英雄好漢“訓練集、驗證集、測試集”各顯神通!》中,我將三者比喻成了教師、輔導員和考官,通過貓貓識別模型的模擬案例來說明三者在不同階段所發(fā)揮的能力以及如何運用。

這是第三篇,我想說的是“訓練集,驗證集,測試集”的區(qū)別和聯(lián)系,以及目前國內數(shù)據(jù)集的現(xiàn)狀、挑戰(zhàn)和應對之策。希望對你有幫助。

全文8000字左右,預計閱讀時間12分鐘,若是碎片時間不夠,建議先收藏后看,便于找回。

照例,開篇提供文章結構導圖,方便大家在閱讀前總攬全局,有大致的畫面框架。

一、訓練集、測試集、驗證集的不同之處

訓練集、測試集、驗證集這三者,在數(shù)據(jù)目的與功能、數(shù)據(jù)交互頻率上、數(shù)據(jù)劃分與比例以及使用時機等方面均有不同之處。

1. 目的與功能不同

訓練集、測試集、驗證集這三者的目的和功能不同。訓練集主要用于訓練模型,驗證集主要用于在訓練過程中選擇模型和調整超參數(shù),測試集則用來最終評估模型的性能。

【訓練集】:訓練模型

訓練集用于模型訓練,幫助模型確定權重和偏置等參數(shù),模型通過深入學習和理解訓練集中的數(shù)據(jù),逐漸學會識別其中的模式和規(guī)律,并逐步優(yōu)化其預測能力。

這就像是人類在學習語言和知識,一步步建立起自己的認知體系。

“九層之臺,起于累土?!睕]有良好的訓練集,模型就像是失去了根基的大樹,無法穩(wěn)固地生長和擴展。

因此,我們需要精心準備和挑選訓練集,確保它具有代表性和高質量,這樣模型才能更好地理解和適應真實世界的變化。

【驗證集】:選擇和調參

驗證集用于模型選擇和超參數(shù)調整。它不參與學習參數(shù)的確定,主要幫助我們在眾多可能性中,找到那些能夠使模型性能達到巔峰的超參數(shù),如網絡層數(shù)、網絡節(jié)點數(shù)、迭代次數(shù)、學習率等。

它有點像是幕后的智囊團,默默地為挑選最優(yōu)模型超參數(shù)提供優(yōu)質的咨詢和建議。

驗證集讓我們能夠在實戰(zhàn)之前,就預知模型的性能,從而做出最佳的選擇。這種前瞻性的策略,不僅能夠提高模型的效率,更能夠節(jié)省寶貴的時間和資源。

【測試集】:評估性能

測試集用于評估模型的最終性能,是考驗模型的最后一關。它不參與模型的學習參數(shù)過程,也不介入超參數(shù)的選擇,它的存在,就是為了對模型的最終性能(即泛化能力)做出公正的評價。

如果把自己想象成一個AI大模型,有沒有覺得測試集有點像古代的科舉考試,或者是當今的高考,是對自己所學知識的一次全面檢驗。

“真金不怕火煉”,測試集就是那煉金的火焰,一個AI模型只有通過了它的考驗,才能真正稱得上是具備良好泛化能力的模型。

2. 數(shù)據(jù)交互頻率不同

訓練集、測試集、驗證集這三者和模型的數(shù)據(jù)交互頻率不同。訓練集會不斷交互,驗證集是定期交互,而測試集只交互一次。

【訓練集】:不斷交互

使用訓練集時,模型在訓練階段不斷與訓練集交互,通過多次地學習、調整和迭代來提高性能。它是在訓練集的多次反饋中完成優(yōu)化的。

這讓我想到“熟能生巧”這個詞,在訓練集中,模型就像是一位手藝人在反復錘煉自己的技藝,通過一次次的迭代優(yōu)化,逐步提升自己的工藝水平。

【驗證集】:定期交互

驗證集在訓練過程中的不同時間點交互,幫助開發(fā)人員調整模型參數(shù)和決定訓練的結束點。它在訓練過程中的每一個關鍵時刻出現(xiàn),為開發(fā)人員提供寶貴的反饋和指引,幫助開發(fā)人員調整模型的超參數(shù)。

所以,模型并不會在驗證集中反復訓練。和訓練集中的情況不一樣,模型只會定期和驗證集進行數(shù)據(jù)交互,驗證集的每一次反饋,都是對模型的一次重要檢驗,所獲得的數(shù)據(jù)評估指標,也是優(yōu)化AI性能的重要依據(jù)。

【測試集】:交互一次

測試集在整個訓練過程完成后只交互一次,用于模型的最終評估。就像是那最后一場決定勝負的較量,只有在整個訓練過程圓滿完成后,它才會出現(xiàn)。

正因為只有一次,所以才倍感珍惜,測試集是模型的最后一道關卡,通過了,它就“出師”了,可以“下山”去江湖中見世面,接受真實世界的考驗了。

3. 數(shù)據(jù)劃分與比例不同

通常情況下,數(shù)據(jù)集會通過隨機抽樣、分層抽樣、時間序列抽樣等方式,按照不同比例劃分為訓練集、驗證集和測試集,三者之間不能有交集。

【訓練集】:占比約60%~80%

訓練集作為模型學習的主要來源,需要占據(jù)較大的比例,以確保模型有足夠的數(shù)據(jù)來捕捉到數(shù)據(jù)中的模式和規(guī)律。

【驗證集】:占比約10%~20%

一般來說,這個占比規(guī)模的驗證集已經足夠提供模型性能的合理估計,能提供有關模型泛化能力的有用信息就行,不用過多。

而且,如果驗證集太大,每次評估的時間成本會顯著增加,這會拖慢整個實驗的進度。

【測試集】:占比約10%~20%

因為測試集在模型訓練完成后只評估一次,所以只要足夠用于評估模型最終性能就行。

如果測試集太大,評估過程可能也會消耗大量的計算資源和時間,沒有必要。

以上,就是在數(shù)據(jù)劃分上,訓練集、測試集、驗證集較為常見的劃分比例。具體比例取決于實際任務的需求和數(shù)據(jù)量的大小,不同的機器學習問題可能有不同的數(shù)據(jù)劃分需求。

例如,對于數(shù)據(jù)量非常龐大的情況,可能只需要很小的驗證集和測試集;而對于數(shù)據(jù)量本身就很小的情況,可能需要采用交叉驗證等方法來充分利用數(shù)據(jù)。

4. 使用時機不同

訓練集、驗證集和測試集在模型的整個訓練過程中,會在不同階段發(fā)揮作用,所以開發(fā)人員使用它們的時機是不同的。

【訓練集】:在模型的初始訓練階段使用

模型剛剛搭建起來的時候,就像是個對世界一無所知的新生兒,我們需要耐心地用訓練集對它進行大量的訓練,就像是給孩子上課,一遍又一遍,直到它掌握了所有的知識為止,這是初始必經過程。

【驗證集】:在模型訓練過程中定期使用

因為驗證集用于監(jiān)控模型的性能和調整超參數(shù)。所以在模型通過初始階段的訓練后,我們需要在過程中可以監(jiān)督到模型的學習效果。

于是,在模型的訓練過程中,直到結束訓練前的這個階段,我們會用驗證集給模型來幾場“摸底考試”,若是發(fā)現(xiàn)不對的地方,還可以及時調整,以確保模型在訓練過程中具備良好的性能。

【測試集】:在模型訓練完成后使用

測試集用于最終評估模型性能。所以,在訓練集和驗證集階段,我們都不會用到測試集的數(shù)據(jù),并且也需要保證測試集的數(shù)據(jù)是模型之前未見過的數(shù)據(jù)。

然后,在模型訓練完成后,測試集作為最后的“期末大考”,會給模型一次真槍實彈的考驗。

對模型學習成果來一次最終的全面檢驗是測試集存在的價值之一,這也是為什么測試集會被放在模型訓練的最后階段。

二、訓練集、測試集、驗證集的相似之處

訓練集、測試集和驗證集在數(shù)據(jù)來源、預處理、目標、獨立性以及數(shù)據(jù)質量和代表性方面都有著相似之處,這些相似性是確保模型完成有效訓練和評估的基礎。

1. 數(shù)據(jù)來源一致

訓練集、驗證集和測試集通常來自同一數(shù)據(jù)源或具有相同的數(shù)據(jù)分布。這意味著它們共享相同的數(shù)據(jù)特征和屬性,確保模型在不同階段處理的數(shù)據(jù)具有一致性。

這就像是在同一個課堂里學習,大家都在吸收著同樣的知識。

2. 相似的數(shù)據(jù)預處理

在模型訓練之前,訓練集、驗證集和測試集都需要進行相似的數(shù)據(jù)預處理步驟,如歸一化、標準化、缺失值處理等。

歸一化就像是給數(shù)據(jù)量體裁衣,讓每個數(shù)據(jù)點都在合適的范圍內。

數(shù)據(jù)歸一化是將數(shù)據(jù)縮放到一個特定的范圍,通常是在0和1之間。這樣做的目的是讓數(shù)據(jù)在相同的尺度上,以便模型能夠更好地學習和識別其中的模式。

例如,如果數(shù)據(jù)集中的某些特征值非常大,而另一些特征值非常小,那么在訓練過程中,較大的值可能會對模型的學習產生更大的影響。

通過歸一化,我們可以減少這種影響,使得每個特征對模型的貢獻更加均衡。

標準化則是調整數(shù)據(jù)的尺碼,讓它們能夠站在同一條起跑線上。

標準化的方法,是將數(shù)據(jù)特征的均值(mean)設置為0,標準差(standard deviation)設置為1。這通常通過減去特征的均值然后除以其標準差來實現(xiàn)。

公式為:z= (x?μ)/σ

其中:x 是數(shù)據(jù)點的原始值,μ 是該特征的均值,σ 是該特征的標準差。

通過將每個數(shù)據(jù)點減去其特征的均值,然后除以其標準差,我們可以將數(shù)據(jù)特征縮放到一個標準單位,使其具有零均值和單位方差。這個過程有助于某些算法(如線性回歸)的訓練和預測過程更加穩(wěn)定。

缺失值的處理,則像是填補數(shù)據(jù)中的空白,讓整個數(shù)據(jù)集更加完整。

在數(shù)據(jù)集中,可能會有一些數(shù)據(jù)點由于各種原因(如測量錯誤、數(shù)據(jù)錄入錯誤等)而丟失。

處理這些缺失值的方法有多種,包括刪除含有缺失值的樣本、填充缺失值(如使用平均值、中位數(shù)或眾數(shù)填充)、或者使用模型預測缺失值等。

處理缺失值的關鍵是確保不會引入偏差,同時保留盡可能多的有效信息。

3. 目標一致

盡管這三個數(shù)據(jù)集在模型開發(fā)的不同階段使用,但它們的目標是一致的,即都是為了構建一個泛化能力強、能夠準確預測新數(shù)據(jù)的模型。

這三個數(shù)據(jù)集,就像是一個團隊的成員,奔著共同的目標,各司其職,相互協(xié)作,一起推動模型的成長。

4. 數(shù)據(jù)皆有獨立性

為了保證模型評估的公正性,訓練集、驗證集和測試集中的樣本必須保持相互獨立。

這意味著,每個集合中的數(shù)據(jù)是獨一無二的,不會與其他集合的數(shù)據(jù)交叉重疊,讓模型在評估過程中的表現(xiàn)不會受到其他集合數(shù)據(jù)的影響。這種獨立性確保了評估結果的真實性和有效性。

5. 保證數(shù)據(jù)質量和代表性

為了確保模型在不同階段的學習和評估過程中能夠獲得準確和可靠的結果,訓練集、驗證集和測試集都需要能夠代表原始數(shù)據(jù)的整體特性,同時還需保證數(shù)據(jù)質量。

這意味著它們都應該包含所有可能的數(shù)據(jù)特征和類別,以便模型能夠在不同的數(shù)據(jù)集上都能學習到有效的模式,提高其泛化能力。

關于什么樣的數(shù)據(jù)集算得上高質量,什么樣的數(shù)據(jù)集屬于具有代表性,我在《AI屆的英雄好漢“訓練集、驗證集、測試集”各顯神通!》中有詳細介紹,感興趣的朋友可以進一步閱讀。

整體而言,我們從訓練集、驗證集和測試集的不同與相似之中可以發(fā)現(xiàn),它們在機器學習的模型訓練中是緊密相連的。

如果拿它們的關系舉例的話。

訓練集相當于課后的練習題,用于日常的知識鞏固。

驗證集相當于平時的周考月考,用來糾正和強化學到的知識。

測試集相當于期末考試,用來最終評估學習效果。

它們各司其職,共同保障了模型的有效學習結果和泛化能力。

三、國內AI數(shù)據(jù)集的現(xiàn)狀與挑戰(zhàn)

AI行業(yè)經過2023年一整年的喧囂與熱鬧之后,大模型之間的“卷”也走向了高潮,國外有OpenAI的GPT-4、DALL-E,Meta的LLaMA 2等,國內有阿里的通義千問,百度的文心一言,百川智能的百川大模型等。

但實際上,AI應用的成功案例并不多,這表明AI落地的部分仍不明確,需要進一步的探索和創(chuàng)新。為了適應更多細分的落地場景,大模型之間這股“卷”的浪潮也將逐步帶起一堆小模型之間的競爭。

“王侯將相寧有種乎”,AI的風吹起來了,更多的創(chuàng)業(yè)者和普通大眾的機會來了,挖掘適合自己或者某個細分行業(yè)的小模型、小gpt,恐怕是2024年的主旋律了。

畢竟,“不管白貓黑貓,抓住老鼠就是好貓”。不管大模型小模型,能掙到錢的就是好模型。

但最關鍵的是,好模型離不開好數(shù)據(jù),好的數(shù)據(jù)集對模型的成功至關重要。它能提升模型的精確度,讓模型能更準確地預測或分類。

同時,好的數(shù)據(jù)集還能增強模型的可解釋性,使我們更容易理解模型的決策過程。也有助于模型更快地收斂到最優(yōu)解,這意味著模型的訓練時間將大大縮短,這背后也意味著的,是實打實的效率和成本,是核心競爭力。

我們不妨一起來看看,國內數(shù)據(jù)集的現(xiàn)狀與挑戰(zhàn)。

1. 數(shù)據(jù)集的規(guī)模和質量還待提升

由于數(shù)據(jù)來源多樣、數(shù)據(jù)類型復雜,國內AI大模型數(shù)據(jù)集存在質量參差不齊的問題。高質量的數(shù)據(jù)集往往需要專業(yè)的標注和清洗過程。這一過程包括對數(shù)據(jù)進行詳細的分類、校對和驗證,以確保模型能夠接收準確、一致和有用的信息。

然而,國內部分AI數(shù)據(jù)集因缺乏嚴格的標注和清洗流程,導致數(shù)據(jù)質量不盡如人意。這些問題包括標注錯誤、數(shù)據(jù)重復和不平衡的數(shù)據(jù)分布,這些都可能削弱AI大模型的訓練效果。

從另外一個角度看,這也凸顯了高質量數(shù)據(jù)的價值,高質量的數(shù)據(jù)集不僅能夠提升模型的性能,而且由于其收集和處理的復雜性,成本也相對較高。

與此同時,國內的數(shù)據(jù)文化有其自身的特色,國內在數(shù)據(jù)集的共享和開放性方面相對謹慎。由于對數(shù)據(jù)隱私、安全以及商業(yè)競爭的考慮,許多有價值的數(shù)據(jù)庫并沒有對外公開。從技術的角度來看,這種做法可能會限制數(shù)據(jù)集的廣泛應用和研究。

然而,從其他角度來看,保持數(shù)據(jù)的獨立性和私密性也是有其合理性的。這種做法有助于保護敏感信息,防止數(shù)據(jù)被濫用,同時也鼓勵企業(yè)和機構投資于數(shù)據(jù)收集和分析,以獲得競爭優(yōu)勢,也算是體現(xiàn)了對數(shù)據(jù)安全和商業(yè)利益的重視。

隨著AI浪潮的涌進,未來的大模型可能會呈現(xiàn)出一種增長飛輪效應。然而,無論模型變得多么龐大,數(shù)據(jù)集的質量始終是關鍵。

為了從公開網絡中獲取高質量的數(shù)據(jù),我們需要尋找那些內容質量高、規(guī)模大的平臺。例如,對于視頻內容,字節(jié)跳動和騰訊的視頻平臺是不錯的選擇,B站上的視頻質量也比較優(yōu)秀。至于觀點表達和知識分享,百家號、知乎等平臺則提供了豐富的資源。

在國內,中文數(shù)據(jù)集在AI研究中進展較慢,部分原因是構建中文數(shù)據(jù)集的難度大,且NLP算法的進步與中文數(shù)據(jù)集關聯(lián)性不強。這些因素導致我們的中文NLP數(shù)據(jù)集在數(shù)量和質量上與國外存在明顯差距。

為了有效縮小這一差距,同時考慮實際操作、成本效益和時間效率,我們可以推動關鍵行業(yè)應用數(shù)據(jù)集的發(fā)展。這樣做不僅能加快中文NLP技術的發(fā)展,還能確保其在實際應用中的高效和實用。

2. 大模型與數(shù)據(jù)集之間必然相輔相成

國內的大模型呈現(xiàn)著百花齊放的盛況,數(shù)據(jù)的發(fā)展同樣需要跟上這一步伐。

在2024年1月23日浙江省兩會上,浙江省政協(xié)委員、達摩院院長、湖畔實驗室主任張建鋒建議統(tǒng)籌建設高質量醫(yī)學影像數(shù)據(jù)集,推動醫(yī)療AI技術的廣泛應用,進而促進醫(yī)療行業(yè)的發(fā)展。

在模型和數(shù)據(jù)相互助力方面,達摩院(湖畔實驗室)與全球多家頂級醫(yī)療機構合作,創(chuàng)建了一個迄今為止最大的胰腺腫瘤CT影像訓練集,并利用它訓練出了一個具有強大泛化能力的AI模型。

據(jù)央廣網報道,在一個包含2萬多人的回顧性真實病例試驗中,該模型成功發(fā)現(xiàn)了31例之前未被診斷出的臨床病變,其中2例病患已經通過手術治愈。這項研究的成果被發(fā)表在了國際著名的醫(yī)學期刊《自然·醫(yī)學》上。

由此可見,好的AI模型和好的數(shù)據(jù)集,相輔相成,互相助力。AI模型如同大腦,通過深度學習與不斷優(yōu)化,實現(xiàn)智能識別、預測與分析;而數(shù)據(jù)集則如同養(yǎng)料,為AI模型提供豐富、準確的信息來源。

只有優(yōu)秀的AI模型與高質量的數(shù)據(jù)集相結合,才能充分發(fā)揮AI的潛力,為各行各業(yè)帶來顛覆性的變革。

伴隨著GPT系列大模型的火熱,國內的各大模型也都發(fā)揮著渾身解數(shù),國內的科大訊飛星火認知大模型,百度文心一言,商湯商量,智譜AI-ChatGLM等模型都相繼面市,不知道各位有沒有去體驗過呢?

小插曲,我們讓星火認知大模型,文心一言,商湯商量,智譜AI-ChatGLM這四位來個小試牛刀。

假設初次見面,讓它們做一個自我介紹,如何?

問題很簡單,就用“你好,請介紹一下你自己,我該如何向你提問才能得到有效的答案?”一起來看看它們的回復吧。

科大訊飛星火認知大模型

百度文心一言

商湯商量

智譜AI-ChatGLM

從4款產品的回復來看,貌似是星火認知大模型更勝一籌呢,它的回答更加清晰易懂,結構層次分明,內容詳盡周全。相較于其他產品,它在信息的組織上,邏輯性更強,傳達信息時更加高效和精確。

當然啦,國內大模型還有很多,有阿里巴巴的通義千問,百川智能的百川大模型等,感興趣的朋友,可以自行體驗哈。

3. 數(shù)據(jù)集標準規(guī)范需更健全

隨著人工智能技術的快速發(fā)展,AI大模型在眾多領域展現(xiàn)出驚人的成長速度,幾乎每周都能看到新的變化。

然而,AI大模型所需的數(shù)據(jù)集標準規(guī)范卻略顯滯后,數(shù)據(jù)集的標準和規(guī)范還不夠健全,這在一定程度上影響了AI模型的訓練效果和應用范圍。

顯然,國家已經認識到這一情況的重要性,制定了一系列政策和規(guī)劃,如《國家新一代人工智能標準體系建設指南》、《AI大模型發(fā)展白皮書》等。這些政策文件為AI大模型的數(shù)據(jù)集標準規(guī)范提供了高層次的指導,指明了發(fā)展方向。

《國家新一代人工智能標準體系建設指南》中提到,“到 2023 年,初步建立人工智能標準體系,重點研制數(shù)據(jù)算法、系統(tǒng)、服務等重點急需標準,并率先在制造、交通、金融、安防、家居、養(yǎng)老、環(huán)保、教育、醫(yī)療健康、司法等重點行業(yè)和領域進行推進。建設人工智能標準試驗驗證平臺,提供公共服務能力?!?/p>

《AI大模型發(fā)展白皮書》由國家工信安全中心在2023年9月14日發(fā)布,其中也有提到,在基礎支撐方面,AI大模型訓練數(shù)據(jù)需求激增,高質量數(shù)據(jù)集成為AI大模型進化的關鍵支撐。并建議全面夯實算法、算力、數(shù)據(jù)等高質量發(fā)展根基。

與此同時,由國家網信辦聯(lián)合國家發(fā)展改革委、教育部、科技部、工業(yè)和信息化部、公安部和廣電總局共同發(fā)布的《生成式人工智能服務管理暫行辦法》中,明確了生成式人工智能服務提供者在數(shù)據(jù)處理活動中應遵循的規(guī)定,包括使用合法來源的數(shù)據(jù)和基礎模型,提高訓練數(shù)據(jù)質量,確保數(shù)據(jù)的真實性、準確性、客觀性和多樣性等。

無論是從政策文件出發(fā),還是從實際應用出發(fā),AI大模型數(shù)據(jù)集標準規(guī)范對于我國AI產業(yè)發(fā)展具有重要意義。

面對當前的挑戰(zhàn),我們期待能看到更完善的政策法規(guī)體系,建立有效的數(shù)據(jù)集質量評估體系,推動數(shù)據(jù)集共享與開放,加強國際合作與交流,從而讓我們的國產AI在全球競爭中也能立于不敗之地。

4. 數(shù)據(jù)存儲性能還需提高

人工智能技術的快速進步推動了AI數(shù)據(jù)集的急劇擴張和復雜化。大型數(shù)據(jù)集不僅包含海量的數(shù)據(jù),而且還包括大量的文本、圖片、音頻和視頻等不同類型的數(shù)據(jù)。

這就要求存儲系統(tǒng)必須擁有更大的存儲空間和更快的讀寫速度,才能滿足這些不斷增長的數(shù)據(jù)需求。

在AI的整個工作流程中,從數(shù)據(jù)收集、預處理、模型訓練與評估,再到模型的部署和應用,每個環(huán)節(jié)都離不開對海量數(shù)據(jù)的存儲和快速訪問。

然而,目前主流的存儲架構,如共享存儲結合本地SSD硬盤,還有一些IT系統(tǒng)大多采用煙囪式的建設模式,導致了數(shù)據(jù)在不同存儲集群之間需要頻繁遷移。

這種數(shù)據(jù)遷移不僅增加了復雜性,還降低了AI大模型處理數(shù)據(jù)的效率,已然是當前AI數(shù)據(jù)集發(fā)展中面臨的一個挑戰(zhàn)。

所以,為了提高AI數(shù)據(jù)集的存儲性能,需要對存儲架構進行優(yōu)化。

可以考慮采用分布式存儲系統(tǒng),將數(shù)據(jù)分散存儲在多個節(jié)點上,提高數(shù)據(jù)的訪問速度和可靠性。也可以采用數(shù)據(jù)壓縮和去重技術,減少數(shù)據(jù)存儲的空間需求,提高存儲效率。

除了數(shù)量規(guī)模和數(shù)據(jù)架構,大模型參數(shù)的頻繁優(yōu)化和訓練平臺的不穩(wěn)定性也會增加對高性能存儲的需求。

可以采用數(shù)據(jù)分片和索引技術,提高數(shù)據(jù)的查詢和訪問速度。也可以采用數(shù)據(jù)預處理和特征提取技術,減少訓練數(shù)據(jù)的大小和復雜度,提高訓練效率。

伴隨著AI大模型發(fā)展的大趨勢:參數(shù)量指數(shù)增長、多模態(tài)和全模態(tài)的發(fā)展、以及對算力需求的增長,都會帶來數(shù)據(jù)存儲架構的挑戰(zhàn),如存儲容量、數(shù)據(jù)遷移效率、系統(tǒng)故障間隔時間等。

因此,一個滿足AI大模型發(fā)展的存儲架構需要具備高性能和大容量,并能進行數(shù)據(jù)全生命周期管理,能支持AI全流程業(yè)務,兼容多種協(xié)議,支持數(shù)據(jù)高效流轉的同時又能滿足數(shù)千節(jié)點的橫向擴展。要達到這個標準,著實不容易。

其實國內已經有頭部企業(yè)在提供解決方案了,華為推出了OceanStor A310深度學習數(shù)據(jù)湖存儲和FusionCube A3000訓/推超一體機。既展現(xiàn)了華為在AI存儲領域的深厚技術積累,也為AI大模型的發(fā)展和應用提供了強大的基礎設施支持。

其中,OceanStor A310,專為處理基礎和行業(yè)大模型場景設計,支持高達96個NVMe SSD閃存盤,帶寬可達400GB/s,IOPS達到驚人的1200萬。

與此同時,F(xiàn)usionCube A3000訓/推超一體機的推出,進一步降低了企業(yè)應用AI大模型的門檻。該系統(tǒng)集成了高性能存儲、高速網絡和多樣化的計算資源,專為應對行業(yè)大模型的訓練和推理需求而設計。它不僅簡化了部署和運維流程,還提高了資源利用率和系統(tǒng)穩(wěn)定性。

不僅是華為,焱融科技的焱融全閃一體機F8000X,搭載全NVMe SSD硬件架構,攜手YRCloudFile軟件系統(tǒng),能全力發(fā)揮硬件性能。結合高速infiniband 200Gb網絡,為NVIDIA GPU集群實現(xiàn)存儲、網絡、計算全鏈路高性能配比。

這種設計摒棄了傳統(tǒng)的數(shù)據(jù)核心建設模式,實現(xiàn)了存儲、網絡和計算三大核心資源的優(yōu)化組合。這不僅消除了IT基礎資源的限制,降低了數(shù)據(jù)流成本,還避免了資源浪費,實現(xiàn)了更優(yōu)的投入產出比。

綜合來看,AI數(shù)據(jù)集的重要性日益凸顯,是AI行業(yè)進步的關鍵因素,同時也面臨著許多挑戰(zhàn)。我們需要企業(yè)和專業(yè)人士加大對AI數(shù)據(jù)集構建的投入,擴大數(shù)據(jù)集規(guī)模,提升數(shù)據(jù)質量。

同時,加強數(shù)據(jù)集的標準化和規(guī)范化同樣重要,需要提高數(shù)據(jù)標注的質量,以確保數(shù)據(jù)集的有效性和可靠性。

在存儲性能方面,需要研發(fā)和部署高性能、高可靠的存儲系統(tǒng),以支持大規(guī)模數(shù)據(jù)集的存儲和管理,確保AI模型的訓練效率和數(shù)據(jù)處理的準確性,這樣的系統(tǒng)是AI行業(yè)的基礎建設,是增長基礎。

作者:果釀,公眾號:果釀產品說

本文由 @果釀 原創(chuàng)發(fā)布于人人都是產品經理,未經作者許可,禁止轉載。

題圖來自 Unsplash,基于CC0協(xié)議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!