AI-optimoitu tallennusarkkitehtuuri
Seuraavan sukupolven tallennusinfrastruktuuri, joka on suunniteltu auttamaan tekoälyjärjestelmiä käsittelemään valtavaa kontekstimuistia ja monikäänteistä päättelyä, on asetettu muokkaamaan sitä, miten laajamittaisia päättelytyökuormia tuetaan.
NVIDIAn kehittämä uusi tekoälyyn suuntautunut tallennusteknologian luokka syntyi, joka vastaa yhteen nykyaikaisten tekoälytyökuormien vaikeimmista haasteista: valtavien kontekstitietojen hallinta ja jakaminen tehokkaasti päättelyn aikana.Perinteiset tallennus- ja muistihierarkiat, jotka on rakennettu yleistä laskentaa varten tekoälyn erityistarpeiden sijaan, kamppailevat pysyäkseen perässä, kun mallit kasvavat moniagentteiksi, monikäännöksiksi päättelyjärjestelmiksi, jotka vaativat jatkuvaa, suuren kapasiteetin kontekstimuistia.
Kehityksen ydin on erikoistunut tietojenkäsittelyprosessori, joka tukee äskettäin julkistettua tekoälyn alkuperäistä tallennusarkkitehtuuria, joka laajentaa GPU-muistia ja jakaa avainarvon (KV) päättelyvälimuistin klustereiden kesken, joilla on suuri kaistanleveys ja ennustettava latenssi.Tämä muutos johtuu tekoälyn siirtymisestä yksittäisen kehotteen käsittelystä jatkuvaan, pitkän kontekstin päättelyyn, jossa suuri jaettu muisti on välttämätöntä reagoivuuden ja tarkkuuden kannalta.
Tärkeimmät ominaisuudet ovat:
Laajentaa GPU-muistia klusterimittakaavaisella avainarvovälimuistikapasiteetilla pitkän kontekstin päättelyä varten.
Jopa 5 kertaa suurempi tokeneita sekunnissa suorituskyky verrattuna perinteiseen tallennustilaan.
Laitteistokiihdytetty KV-välimuistin sijoittelu vähentää metadatan ylikuormitusta ja tiedon liikkumista.
Tehokas kontekstin jakaminen solmujen välillä tehokkaan Ethernetin kautta.
Jopa 5 kertaa parempi virrantehokkuus verrattuna perinteisiin tallennusarkkitehtuureihin.
Alan kumppanit, mukaan lukien suuret tallennus- ja järjestelmätoimittajat, rakentavat jo tukialustoja ja suunnittelevat saatavuutta vuoden 2026 jälkipuoliskolla. Varhaiset vertailuarvot ja ennusteet korostavat merkittäviä suorituskyvyn ja tehokkuuden parannuksia päättelytyökuormituksissa, jotka riippuvat nopeasta kontekstin käytöstä ja jakamisesta.Raaka suorituskyvyn lisäksi uusi infrastruktuuri käsittelee skaalautuvuutta ja energiatehokkuutta, kaksi rajoitusta, jotka ovat painaneet palvelinkeskuksia tekoälyn työkuormien lisääntyessä.Irrottamalla tallennuspalvelut isäntäprosessoreista ja mahdollistamalla avainarvovälimuistitietojen laitteistokiihdytetyn sijoittamisen, arkkitehtuuri lupaa jopa viisinkertaisia parannuksia sekunnissa prosessoituihin tokeneihin ja tehotehokkuuteen verrattuna perinteisiin tallennusjärjestelmiin samanlaisilla kuormituksilla.
Tämä muotoilu tuo myös tiiviimmän integroinnin korkean suorituskyvyn verkko-, muisti- ja tallennustoimintojen välille hyödyntäen kehittyneitä Ethernet-kudoksia, jotka tarjoavat matalan viiveen, suoran etäkäytön palvelimien välillä.Tuloksena on perusta, joka sopii paremmin yhteen kehittyvien päättelyparadigmojen kanssa, joissa muistin pysyvyys ja solmujen välinen kontekstin jakaminen ovat kriittisiä.Tekoälyinfrastruktuurin kehittyessä tästä tallennustasosta voi tulla tärkeä mahdollistaja seuraavan sukupolven tekoälypalveluille, mikä alentaa viivettä ja energiakustannuksia samalla kun tukee monimutkaisempia päättelytehtäviä mittakaavassa.