Sinasabi na ang mga kumpanya ng teknolohiya ay nagsusumikap para sa mga GPU o nasa landas na makuha ang mga ito. Noong Abril, ang Tesla CEO na si Elon Musk ay bumili ng 10,000 GPU at sinabi na ang kumpanya ay patuloy na bibili ng malaking dami ng mga GPU mula sa NVIDIA. Sa panig ng negosyo, ang mga tauhan ng IT ay nagsusumikap din nang husto upang matiyak na ang mga GPU ay patuloy na ginagamit upang i-maximize ang return on investment. Gayunpaman, maaaring makita ng ilang kumpanya na habang tumataas ang bilang ng mga GPU, nagiging mas malala ang pagiging idle ng GPU.
Kung ang kasaysayan ay nagturo sa atin ng anumang bagay tungkol sa high-performance computing (HPC), ito ay ang pag-iimbak at networking ay hindi dapat isakripisyo sa gastos ng labis na pagtutok sa pagtutuos. Kung ang storage ay hindi makapaglipat ng data nang mahusay sa mga computing unit, kahit na mayroon kang pinakamaraming GPU sa mundo, hindi mo makakamit ang pinakamainam na kahusayan.
Ayon kay Mike Matchett, isang analyst sa Small World Big Data, ang mga maliliit na modelo ay maaaring isagawa sa memorya (RAM), na nagbibigay-daan sa higit na pagtuon sa pagkalkula. Gayunpaman, ang mga malalaking modelo tulad ng ChatGPT na may bilyun-bilyong node ay hindi maiimbak sa memorya dahil sa mataas na halaga.
"Hindi mo maaaring magkasya ang bilyun-bilyong node sa memorya, kaya ang storage ay nagiging mas mahalaga," sabi ni Matchett. Sa kasamaang palad, ang pag-iimbak ng data ay madalas na napapansin sa panahon ng proseso ng pagpaplano.
Sa pangkalahatan, anuman ang kaso ng paggamit, mayroong apat na karaniwang punto sa proseso ng pagsasanay ng modelo:
1. Pagsasanay ng Modelo
2. Paglalapat ng Hinuha
3. Imbakan ng Data
4. Pinabilis na Pag-compute
Kapag gumagawa at nagde-deploy ng mga modelo, inuuna ng karamihan sa mga kinakailangan ang quick proof-of-concept (POC) o mga kapaligiran sa pagsubok upang simulan ang pagsasanay sa modelo, na ang pag-iimbak ng data ay hindi kailangang bigyan ng pangunahing pagsasaalang-alang.
Gayunpaman, ang hamon ay nakasalalay sa katotohanan na ang pagsasanay o pag-deploy ng inference ay maaaring tumagal ng ilang buwan o kahit na taon. Maraming kumpanya ang mabilis na nagpapalaki ng kanilang mga laki ng modelo sa panahong ito, at ang imprastraktura ay dapat lumawak upang matugunan ang lumalaking mga modelo at dataset.
Ang pananaliksik mula sa Google sa milyun-milyong workload ng pagsasanay sa ML ay nagpapakita na ang average na 30% ng oras ng pagsasanay ay ginugugol sa pipeline ng data ng input. Habang nakatuon ang nakaraang pananaliksik sa pag-optimize ng mga GPU para mapabilis ang pagsasanay, nananatili pa rin ang maraming hamon sa pag-optimize ng iba't ibang bahagi ng pipeline ng data. Kapag mayroon kang malaking computational power, ang tunay na bottleneck ay nagiging kung gaano kabilis mong makakapag-feed ng data sa mga computations para makakuha ng mga resulta.
Sa partikular, ang mga hamon sa pag-imbak at pamamahala ng data ay nangangailangan ng pagpaplano para sa paglago ng data, na nagbibigay-daan sa iyong patuloy na kunin ang halaga ng data habang ikaw ay sumusulong, lalo na kapag nakikipagsapalaran ka sa mga mas advanced na kaso ng paggamit tulad ng malalim na pag-aaral at mga neural network, na naglalagay ng mas mataas na pangangailangan sa imbakan sa mga tuntunin ng kapasidad, pagganap, at scalability.
Sa partikular:
Scalability
Ang machine learning ay nangangailangan ng pangangasiwa ng napakaraming data, at habang tumataas ang dami ng data, ang katumpakan ng mga modelo ay bumubuti rin. Nangangahulugan ito na ang mga negosyo ay dapat mangolekta at mag-imbak ng higit pang data araw-araw. Kapag hindi mai-scale ang storage, ang mga data-intensive na workload ay nagdudulot ng mga bottleneck, na naglilimita sa performance at nagreresulta sa magastos na GPU idle time.
Kakayahang umangkop
Ang flexible na suporta para sa maraming protocol (kabilang ang NFS, SMB, HTTP, FTP, HDFS, at S3) ay kinakailangan upang matugunan ang mga pangangailangan ng iba't ibang mga system, sa halip na limitado sa isang uri ng kapaligiran.
Latency
Ang I/O latency ay kritikal para sa pagbuo at paggamit ng mga modelo habang binabasa at binabasa muli ang data nang maraming beses. Ang pagbabawas ng I/O latency ay maaaring paikliin ang oras ng pagsasanay ng mga modelo sa pamamagitan ng mga araw o buwan. Ang mas mabilis na pag-develop ng modelo ay direktang nagsasalin sa mas malaking pakinabang sa negosyo.
Throughput
Ang throughput ng mga storage system ay mahalaga para sa mahusay na pagsasanay sa modelo. Ang mga proseso ng pagsasanay ay nagsasangkot ng malaking halaga ng data, karaniwang nasa terabytes bawat oras.
Parallel Access
Upang makamit ang mataas na throughput, hinati ng mga modelo ng pagsasanay ang mga aktibidad sa maraming magkakatulad na gawain. Madalas itong nangangahulugan na ang mga algorithm ng machine learning ay nag-a-access sa parehong mga file mula sa maraming proseso (malamang sa maraming pisikal na server) nang sabay-sabay. Ang sistema ng imbakan ay dapat humawak ng kasabay na mga kahilingan nang hindi nakompromiso ang pagganap.
Sa mga namumukod-tanging kakayahan nito sa mababang latency, mataas na throughput, at malakihang parallel na I/O, ang Dell PowerScale ay isang perpektong storage na pandagdag sa GPU-accelerated computing. Mabisang binabawasan ng PowerScale ang oras na kinakailangan para sa mga modelo ng pagsusuri na nagsasanay at sumusubok ng mga multi-terabyte na dataset. Sa PowerScale all-flash storage, tumataas ang bandwidth ng 18 beses, inaalis ang mga bottleneck ng I/O, at maaaring idagdag sa mga kasalukuyang cluster ng Isilon upang mapabilis at ma-unlock ang halaga ng malalaking halaga ng hindi nakaayos na data.
Bukod dito, ang mga kakayahan ng multi-protocol na access ng PowerScale ay nagbibigay ng walang limitasyong flexibility para sa pagpapatakbo ng mga workload, na nagpapahintulot sa data na maimbak gamit ang isang protocol at ma-access gamit ang isa pa. Sa partikular, ang mga mahuhusay na feature, flexibility, scalability, at enterprise-grade functionality ng PowerScale platform ay nakakatulong na matugunan ang mga sumusunod na hamon:
- Pabilisin ang pagbabago ng hanggang 2.7 beses, binabawasan ang cycle ng pagsasanay ng modelo.
- Tanggalin ang mga bottleneck ng I/O at magbigay ng mas mabilis na pagsasanay at pagpapatunay ng modelo, pinahusay na katumpakan ng modelo, pinahusay na produktibidad ng data science, at pinalaki ang kita sa mga pamumuhunan sa pag-compute sa pamamagitan ng paggamit ng mga feature na nasa antas ng enterprise, mataas na performance, concurrency, at scalability. Pahusayin ang katumpakan ng modelo gamit ang mas malalim at mas mataas na resolution na mga dataset sa pamamagitan ng paggamit ng hanggang 119 PB ng epektibong kapasidad ng storage sa isang cluster.
- Makamit ang deployment sa sukat sa pamamagitan ng pagsisimula ng maliit at independiyenteng pag-scale ng compute at storage, na naghahatid ng matatag na proteksyon ng data at mga opsyon sa seguridad.
- Pagbutihin ang pagiging produktibo ng agham ng data gamit ang in-place na analytics at mga paunang na-validate na solusyon para sa mas mabilis at mababang panganib na pag-deploy.
- Paggamit ng mga napatunayang disenyo batay sa pinakamahusay na mga teknolohiya, kabilang ang NVIDIA GPU acceleration at mga reference na arkitektura na may mga NVIDIA DGX system. Ang mataas na performance at concurrency ng PowerScale ay nakakatugon sa mga kinakailangan sa pagganap ng imbakan sa bawat yugto ng machine learning, mula sa pagkuha ng data at paghahanda hanggang sa pagsasanay sa modelo at hinuha. Kasama ang operating system ng OneFS, ang lahat ng node ay maaaring gumana nang walang putol sa loob ng parehong cluster na hinimok ng OneFS, na may mga feature sa antas ng enterprise tulad ng pamamahala sa pagganap, pamamahala ng data, seguridad, at proteksyon ng data, na nagbibigay-daan sa mas mabilis na pagkumpleto ng pagsasanay sa modelo at pagpapatunay para sa mga negosyo.
Oras ng post: Hul-03-2023