Lit opslach net de kaai knelpunt wurde yn modeltraining

It is sein dat technologybedriuwen óf scrambling foar GPU's óf op it paad binne om se te krijen. Yn april kocht Tesla CEO Elon Musk 10,000 GPU's en stelde dat it bedriuw soe trochgean mei it keapjen fan in grutte hoemannichte GPU's fan NVIDIA. Oan 'e ûndernimmingskant drukke IT-personiel ek hurd om te soargjen dat GPU's konstant wurde brûkt om it rendemint op ynvestearring te maksimalisearjen. Guon bedriuwen kinne lykwols fine dat wylst it oantal GPU's tanimt, GPU-ledigens slimmer wurdt.

As de skiednis ús wat leard hat oer hege prestaasjes komputer (HPC), is it dat opslach en netwurking net opoffere wurde moatte op kosten fan tefolle te fokusjen op berekkening. As opslach gegevens net effisjint kin oerdrage nei de komputerienheden, sels as jo de measte GPU's yn 'e wrâld hawwe, sille jo gjin optimale effisjinsje berikke.

Neffens Mike Matchett, in analist by Small World Big Data, kinne lytsere modellen wurde útfierd yn ûnthâld (RAM), wêrtroch mear fokus op berekkening mooglik is. Gruttere modellen lykas ChatGPT mei miljarden knopen kinne lykwols net yn it ûnthâld bewarre wurde fanwegen de hege kosten.

"Jo kinne gjin miljarden knopen yn it ûnthâld passe, dus opslach wurdt noch wichtiger," seit Matchett. Spitigernôch wurdt gegevens opslach faak oersjoen tidens it planningproses.

Yn 't algemien, nettsjinsteande it gebrûksgefal, binne d'r fjouwer mienskiplike punten yn it modeltrainingsproses:

1. Model Training
2. Inference Application
3. Data Storage
4. Accelerated Computing

By it meitsjen en ynsetten fan modellen prioritearje de measte easken fluch proof-of-concept (POC) of testomjouwings om modeltraining te begjinnen, mei gegevensopslachbehoeften dy't net top beskôge wurde.

De útdaging leit lykwols yn it feit dat training of ynfeksje ynset moannen of sels jierren kin duorje. In protte bedriuwen skaalje har modelgrutte yn dizze tiid rap op, en de ynfrastruktuer moat útwreidzje om de groeiende modellen en datasets te foldwaan.

Undersyk fan Google oer miljoenen workloads foar ML-training docht bliken dat gemiddeld 30% fan trainingstiid wurdt bestege oan 'e pipeline foar ynfiergegevens. Wylst ferline ûndersyk hat rjochte op it optimalisearjen fan GPU's om training te fersnellen, bliuwe in protte útdagings noch yn it optimalisearjen fan ferskate dielen fan 'e gegevenspipeline. As jo ​​​​in wichtige berekkeningskrêft hawwe, wurdt it echte knelpunt hoe fluch jo gegevens yn 'e berekkeningen kinne feede om resultaten te krijen.

Spesifyk fereaskje de útdagings yn gegevensopslach en -behear planning foar gegevensgroei, wêrtroch jo kontinu de wearde fan gegevens kinne ekstrahearje as jo foarútgong, benammen as jo weagje yn mear avansearre gebrûksgefallen lykas djip learen en neurale netwurken, dy't hegere easken stelle oan opslach yn termen fan kapasiteit, prestaasjes en skaalberens.

Yn't bysonder:

Scalability
Masine learen fereasket it behanneljen fan grutte hoemannichten gegevens, en as it folume fan gegevens tanimt, ferbetteret de krektens fan modellen ek. Dit betsjut dat bedriuwen alle dagen mear gegevens moatte sammelje en opslaan. As opslach net skaalber is, meitsje data-yntinsive workloads knelpunten, beheine prestaasjes en resultearje yn kostbere GPU-iddle-tiid.

Fleksibiliteit
Fleksibele stipe foar meardere protokollen (ynklusyf NFS, SMB, HTTP, FTP, HDFS en S3) is nedich om te foldwaan oan 'e behoeften fan ferskate systemen, ynstee fan beheind ta ien soart omjouwing.

Wachttiid
I / O-latens is kritysk foar it bouwen en brûken fan modellen, om't gegevens meardere kearen wurde lêzen en opnij lêzen. It ferminderjen fan I / O-latens kin de trainingstiid fan modellen mei dagen as moannen ferkoartje. Snellere modelûntwikkeling fertaalt direkt nei gruttere saaklike foardielen.

Trochfier
De trochfier fan opslachsystemen is krúsjaal foar effisjinte modeloplieding. Trainingsprosessen befetsje grutte hoemannichten gegevens, typysk yn terabytes per oere.

Parallelle tagong
Om hege trochset te berikken, splitsen trainingsmodellen aktiviteiten yn meardere parallelle taken. Dit betsjut faaks dat masine-learalgoritmen tagelyk tagong krije ta deselde bestannen fan meardere prosessen (potinsjeel op meardere fysike tsjinners). It opslachsysteem moat tagelyk easken behannelje sûnder prestaasjes te kompromittearjen.

Mei syn treflike mooglikheden yn lege latency, hege trochput, en grutskalige parallelle I/O, is Dell PowerScale in ideale opslachkomplemint foar GPU-fersnelde komputer. PowerScale ferminderet effektyf de tiid dy't nedich is foar analysemodellen dy't multi-terabyte datasets traine en testen. Yn PowerScale all-flash opslach fergruttet de bânbreedte mei 18 kear, elimineert I/O-knelpunten, en kin wurde tafoege oan besteande Isilon-klusters om de wearde fan grutte hoemannichten unstrukturearre gegevens te fersnellen en te ûntsluten.

Boppedat jouwe PowerScale's multi-protokol tagongsmooglikheden unbeheinde fleksibiliteit foar it útfieren fan wurkloads, wêrtroch gegevens kinne wurde opslein mei ien protokol en tagong ta in oar. Spesifyk helpe de krêftige funksjes, fleksibiliteit, skalberens en funksjonaliteit fan bedriuwsklasse fan it PowerScale-platfoarm de folgjende útdagings:

- Fersnelle ynnovaasje mei maksimaal 2,7 kear, it ferminderjen fan de modeltrainingssyklus.

- Eliminearje I/O-knelpunten en leverje rapper modeloplieding en falidaasje, ferbettere modelkrektens, ferbettere produktiviteit fan gegevenswittenskip, en maksimaal rendemint op komputerynvestearingen troch gebrûk te meitsjen fan funksjes fan ûndernimmingsgraad, hege prestaasjes, tagelyk en skalberens. Ferbetterje de krektens fan model mei djippere datasets mei hegere resolúsje troch te brûken oant 119 PB oan effektive opslachkapasiteit yn ien kluster.

- Berikke ynset op skaal troch lyts te begjinnen en selsstannich te skaaljen fan berekkenjen en opslach, it leverjen fan robúste gegevensbeskerming en feiligensopsjes.

- Ferbetterje de produktiviteit fan gegevenswittenskip mei analytiken op it plak en foarôf falidearre oplossingen foar rappere ynset mei leech risiko.

- Leveraging fan bewiisde ûntwerpen basearre op bêste-of-breed technologyen, ynklusyf NVIDIA GPU-fersnelling en referinsjearsjitektueren mei NVIDIA DGX-systemen. PowerScale's hege prestaasjes en tagelyk foldogge oan de easken foar opslachprestaasjes yn elke faze fan masine learen, fan gegevenswinning en tarieding oant modeltraining en konklúzje. Tegearre mei it OneFS-bestjoeringssysteem kinne alle knooppunten naadloos operearje binnen itselde OneFS-oandreaune kluster, mei funksjes op bedriuwsnivo lykas prestaasjesbehear, gegevensbehear, feiligens en gegevensbeskerming, wêrtroch it rapper foltôgjen fan modeltraining en validaasje foar bedriuwen mooglik makket.


Post tiid: Jul-03-2023