Keväällä 2026 tekoälyteollisuutta järkyttivät suuret uutiset: Reutersin mukaan Anthropic tutkii mahdollisuutta suunnitella omia siruja.Tämä tekoälylaboratorio, jonka vuotuinen liikevaihto ylittää 30 miljardia dollaria ja jonka Claude-mallin käyttäjäkunta on kasvanut, harkitsee vakavasti kehittymistä laskentatehon kuluttajasta sen määrittäjäksi.
Lähteet myöntävät, että suunnitelmat ovat vielä alkuvaiheessa;yhtiö ei ole vielä viimeistellyt tarkkoja suunnitelmia tai muodostanut omaa tiimiä.Anthropic voi viime kädessä ostaa pelimerkkejä sen sijaan, että suunnittelee ne itse.Mutta jopa mahdollisuus puhuu paljon.
Tällä hetkellä Anthropic käyttää sekä Googlen emoyhtiön Alphabetin suunnittelemia TPU:ita (Tensor Processing Units) että Amazonin Trainium-siruja Clauden kehittämiseen ja käyttämiseen.Juuri tällä viikolla yritys allekirjoitti myös pitkän aikavälin sopimuksen Googlen ja Broadcomin kanssa – jälkimmäinen on Googlen TPU:iden suunnittelun ydintuki.Monen miljardin dollarin ulkopuolisen hankintasopimuksen allekirjoittaminen samalla kun hiljaa tutkimme sisäistä kehitystä, tämä kaksitahoinen lähestymistapa on aavemaisen samanlainen kuin Metta ja Microsoft muutama vuosi sitten, joilla molemmilla on nyt omat mukautetut sirunsa.
Alan arvioiden mukaan huipputason tekoälysirun suunnittelu maksaa noin 500 miljoonaa dollaria, mutta hinnan lisäksi huomionarvoisempi on Anthropicin liikkeen takana oleva alan signaali.Kun puhdas malliyritys alkaa vakavasti harkita oman piin kehittämistä, laitteistotaistelu tekoälypäätelmästä on itse asiassa astunut uudelle tasolle.
Tekoälyteollisuus on viimeisen kahden vuoden aikana kokenut dramaattisen muutoksen, kun suuri määrä laskentatehon kysyntää on siirtynyt nopeasti koulutuspuolelta päättelypuolelle.
Koulutusvaihe, joka voi kestää viikkoja tai jopa kuukausia, vaatii suuria GPU-klustereita rinnakkaislaskentaan, ja Nvidian dominointi tällä puolella on lähes horjumaton.Mutta päättely on eri asia.Päätelmä on reaaliaikainen laskenta, joka tapahtuu aina, kun malli vastaa käyttäjän pyyntöön;se tavoittelee pientä latenssia, suurta suorituskykyä ja alhaista energiankulutusta – tavoitteet, jotka eivät ole täysin linjassa GPU:iden kanssa.
Barclaysin ennusteen mukaan vuoteen 2026 mennessä johtopäätösten laskennan kysyntä on yli 70 prosenttia tekoälyn kokonaistehontarpeesta, mikä on 4,5 kertaa koulutustarpeeseen verrattuna.Voidaan sanoa, että todellinen ratkaiseva taistelu tulevaisuuden AI-sirumarkkinoilla tulee olemaan päätelmiä.
Nvidia on rakentanut kymmenen vuoden vallihautaa koulutuspäähän, mutta jos tämä vallihauta ei voi ulottua päättelypäähän, koko toimialarakenne joutuu uudelleenkirjoitukseen.Tästä syystä Nvidia teki muodollisen muutoksen viime vuoden lopussa ja ilmoitti ei-yksinomaisesta lisenssisopimuksesta tekoälyn päättelypiirin startup Groqin kanssa.Jonathan Ross, Groqin perustaja ja toimitusjohtaja, presidentti Sonny Madra ja useat ydininsinöörit liittyivät myöhemmin Nvidiaan.Ulkomaiset tiedotusvälineet lainasivat sisäpiiriläisten sanoneen, että kauppahinta on noin 20 miljardia dollaria.
Nvidian virallinen sanamuoto on varovainen ja korostaa, että se on vain teknologialisenssi plus kykyjen hankinta, ei perinteinen hankinta.Mutta tämä epätyypillinen hankintamenetelmä on melko yleinen Piilaaksossa – se voi välttää rasittavat kilpailunrajoitukset ja tuoda kohdeteknologian ja ydintiimin olennaisesti osaksi.
Groqin tarina oli alun perin varsin merkittävä.Perustaja Ross oli Googlen TPU-projektin ydinjäsen ja oli hyvin tietoinen GPU-arkkitehtuurin luontaisista rajoituksista päättelyskenaarioissa: tuhansia rinnakkaisia laskentayksiköitä ja erittäin monimutkaista muistin ajoituslogiikkaa.Nämä ominaisuudet ovat etuja koulutuksessa, mutta aiheuttavat arvaamatonta latenssivärinää päätelmissä.
Tästä syystä Groq valitsi täysin erilaisen polun: eliminoi ajoittimen kokonaan laitteistotasolta ja sen sijaan antoi kääntäjän määrittää jokaisen databitin virtauspolun koodivaiheessa, jolloin siru voi toimia kuin automatisoitu kokoonpanolinja nanosekunnin tarkkuudella.Tämä arkkitehtuuri on nimeltään LPU tai Language Processing Unit.Valtavirran suurten mallien päättelytesteissä sen sananmuodostusnopeus voi olla yli kymmenen kertaa Nvidia-grafiikkasuorittimiin verrattuna, kun taas sen energiankulutus per merkki on vain kymmenesosa jälkimmäisestä.
Tällä äärimmäisellä suorituskyvyllä Groq houkutteli yli 1,5 miljoonaa kehittäjäkäyttäjää ja sai useita sijoituskierroksia huippulaitoksilta, kuten Cisco, Samsung ja BlackRock, joiden arvo oli kerran 6,9 miljardia dollaria.Se, mikä teki siitä menestyksen, johti kuitenkin myös sen kaatumiseen.Groqin liian häikäisevä päättelysuoritus teki siitä tärkeimmän kohteen Jensen Huangin silmissä.
Pinnalta katsottuna Nvidian Groqin hankinnan tarkoituksena on täydentää sen teknistä ulkoasua päättelypuolella, mutta syvemmin se on puolustava integraatio.Yhdistämällä yhden vahvimmista ulkoisista haastajista ekosysteemiinsä Nvidia vie neuvottelupelit toissijaisilta pilvitoimittajilta ja tekoälyohjelmistoyrityksiltä, joilla ei ole kykyä kehittää omia sirujaan.Ilman Groqia vaihtoehtona niiden mahdollisuudet, jotka eivät halua tulla Nvidian "verottaviksi", ovat yhtäkkiä kaventuneet.
Tämä epätoivoinen tilanne ei kuitenkaan välttämättä kestä kauan.
Itse asiassa jo kauan ennen Groqin nousua suuret pilvijättiläiset olivat jo itsenäisesti suunnitelleet omia laskentatehopolkujaan.Googlella on TPU:t, Amazonilla Trainium ja Microsoftilla Maia – kaikki kolme omaa reittiä ovat nyt saavuttaneet kypsän vaiheen, jossa niitä voidaan myydä ulkoisesti.
Googlen seitsemännen sukupolven TPU, koodinimeltään Ironwood, julkaistiin virallisesti ja lanseerattiin vuoden 2025 lopussa. Edelliseen sukupolveen verrattuna sen yhden sirun suorituskyky on kasvanut yli 4 kertaa, ja yksi klusteri voi yhdistää jopa 9 216 sirua.Google ei salannut sijoitteluaan tämän sukupolven tuotteille: johtopäätösten aikakauden kustannustehokkain kaupallinen moottori.Google joutui kehittämään talon sisällä sisäisten laskentatehon pullonkaulojen vuoksi vuonna 2015 ja avaamaan TPU:n käyttöön asiakkaiden omille datakeskuksille vuonna 2025. Google käytti kymmenen vuotta hätäprojektin hiomiseen strategiseksi aseeksi.Anthropicin ilmoitus, että Claude-sarjan tuleva koulutus ja käyttöönotto käyttävät jopa miljoonaa TPU:ta, on lisännyt markkinoiden arvovaltaista hyväksyntää Ironwoodin kaupalliselle arvolle.
Amazon kulkee eri polulla.AWS on pitkään ollut erittäin riippuvainen tytäryhtiönsä Annapurna Labsin itse kehittämistä siruista.Trainium-sarja on suunnilleen verrattavissa Nvidian GPU:ihin, mutta se keskittyy pilviinfrastruktuurin kustannusten vähentämiseen ja riippuvuuden vähentämiseen ulkoisista toimittajista.AWS:n äskettäin allekirjoittama monivuotinen yhteistyösopimus Cerebrasin kanssa Cerebrasin Wafer-Scale Engine (WSE) -sirujen tuomisesta datakeskuksiin rinnakkaiseen käyttöönotettaviksi itse kehitettyjen Trainium-sirujen kanssa on konkreettinen osoitus tästä logiikasta, jossa priorisoidaan oma kehitys ja täydennetään ulkoisilla hankinnoilla.
AWS:n tavoite on hyvin selvä: käytä Trainiumia hitaan nopeuksien ja edullisten päättelytarpeiden toteuttamiseen ja käytä Cerebras-siruja lukitaksesi huippuluokan asiakkaita, jotka ovat äärimmäisen herkkiä latenssille ja ovat valmiita maksamaan palkkion nopeudesta.
Päätelmäsiruissa, toisin kuin harjoitussiruissa, jotka tavoittelevat lyhytaikaista nopeutta, ne kiinnittävät enemmän huomiota pitkän aikavälin energiatehokkuuteen.Nvidia-grafiikkasuoritin kuluttaa noin 700 wattia, kun taas omistettu päättelysiru, jolla on vastaava laskentateho, voi hallita virrankulutusta 200 watin sisällä.Erittäin suurissa sovelluksissa, jotka vaativat satoja tuhansia päättelysiruja, tämä aukko voi tuoda satojen miljoonien dollarien kustannussäästöjä joka vuosi.Tämä on yksi keskeisistä syistä, miksi pilvijättiläiset, kuten Google, Amazon ja Meta, kilpailevat panostaakseen ASIC-siruista.
Viimeisimpien uutisten mukaan Meta on päässyt Broadcomin kanssa 1Gw:n koulutus- ja päättelysiruyhteistyösopimukseen, joka tuo varmasti uusia katalyyttejä jo ennestään "kaoottisille" päättelysirumarkkinoille.
Jos pilvijättiläisten omat T&K-reitit ovat pitkän aikavälin panoksia riittävin resurssitkuuisina, Intelin ja SambaNovan välinen liitto on toinen realistisempi läpimurtopolku.
Vuonna 2026 SambaNova ilmoitti julkaisevansa Intelin kanssa heterogeenisen laitteistopäätelmäratkaisun, joka käyttää kolmiportaista arkkitehtuuria: GPU esitäyttöön, Intel Xeon 6 -prosessori pääohjaus- ja suoritussuorittimena ja SambaNova RDU dekoodaukseen, joka on suunniteltu erityisesti agenttien tekoälyn työkuormille.Tämä ratkaisu on avoin yrityksille, pilvipalveluntarjoajille ja itsenäisille tekoälyprojekteille vuoden 2026 toisella puoliskolla.
SambaNova huomautti, että puhtaat GPU-järjestelmät ovat hyviä rinnakkaisessa esitäyttölinkissä, mutta tuotantoympäristöjen päättelytehtävissä suorittimien työkalujen ajoitus ja dedikoitujen päättelykiihdyttimien dekoodaustehokkuus ovat keskeisiä muuttujia, jotka määräävät kokonaisnopeuden ja -kustannukset.
Sen testitiedot osoittavat, että Intel Xeon 6 -prosessorien LLVM-kääntämisnopeus on yli 50 % nopeampi kuin Arm-arkkitehtuuriin perustuvien palvelinsuorittimien nopeus, ja vektoritietokannan suorituskyky on jopa 70 % nopeampi.Nämä kaksi indikaattoria osuvat täsmälleen koodiagentin työnkulun ydinsuorituskyvyn pullonkauloihin.
Intelin rooli tässä yhteistyössä on kiehtova.Kun se oli PC-hegemoni, se oli melkein marginalisoitu GPU-aikakauden tärkeimmästä AI-sirun taistelukentältä.Nyt Xeon 6:n suorittimen ohjaus- ja ajoitusetujen ansiosta se on saamassa jalansijaa heterogeenisissä päättelyratkaisuissa.Palvelinkeskuksen ohjelmistoekosysteemi perustuu x86-arkkitehtuuriin, joka on myös tuonut Intelin takaisin tekoälyvaiheen keskipisteeseen.
Cerebras on toinen nimi, josta kannattaa kirjoittaa erikseen.
Tämä kiekkojen mittakaavan AI-siruihin keskittyvä startup jätti IPO-hakemuksen vuonna 2024 ja perui sen, mikä johti laajaan epäilykseen sen näkymistä pääomamarkkinoilla.Mutta myöhemmin OpenAI allekirjoitti yli 10 miljardin dollarin yhteistyösopimuksen Cerebrasin kanssa ChatGPT:n laskentatehon tarjoamiseksi.Tämä uutinen toi Cerebran takaisin julkisuuteen ja sai ne laitokset, jotka olivat odottaneet ja näkineet, tarkastelemaan uudelleen sen teknistä arvoa.Helmikuussa 2026 Cerebras sai päätökseen uuden miljardin dollarin rahoituskierroksen, jonka kokonaisrahoitus oli 2,6 miljardia dollaria ja sijoituksen jälkeinen arvostus noin 23 miljardia dollaria.
Cerebrasin ydinteknologia on Wafer-Scale Engine (WSE), joka käyttää kokonaista kiekkoa yhtenä siruna, rikkoen perinteisten sirujen fyysiset leikkausrajoitukset ja tarjoaa erinomaisen viiveen tietyissä päättelytehtävissä.Cerebrasin mukaan sen sirujen nopeus päättelydekoodauslinkissä voi olla jopa 25 kertaa suurempi kuin Nvidian GPU:illa.
AWS:n äskettäinen ilmoitus monivuotisesta yhteistyösopimuksesta Cerebrasin kanssa WSE-sirujen tuomiseksi palvelinkeskuksiin tekoälyn päättelyä varten merkitsee tämän startup-yrityksen keskeistä identiteettimuutosta – rahoitustarinasta maailman suurimman pilvialustan toimittajaksi.
AWS:n Cerebras-valinta perustuu samaan logiikkaan kuin OpenAI:n: skenaarioissa, jotka ovat erittäin herkkiä vastenopeudelle, kuten ohjelmointiapu ja agenttitehtävät, jokainen millisekunti viiveen pienenemisestä vastaa suoraan käyttäjäkokemusta ja kaupallista arvoa – ja tämä on juuri GPU:iden heikkous.
Aivoille, kun yhä useammat ihmiset käyttävät tekoälyä yhä vaikeampien ongelmien ratkaisemiseen, nopeuden kysyntä vain kasvaa.Jos nopeus itsessään on tuotteen arvo, niin nopeudesta palkkion maksaminen on luonnollista kaupallista toimintaa.Yhä useammat yritykset hyväksyvät tämän logiikan.
Laskentatehotaistelun takana on infrastruktuurin tarjontapuolen uudelleenjärjestely.Tässä mielessä CoreWeaven rooli on tulossa yhä välttämättömämmäksi.
Vuonna 2025 Meta ryhtyi johtamaan toimitussopimuksen allekirjoittamista CoreWeaven kanssa ja sopi ostavansa 14,2 miljardin dollarin arvosta tekoälyn laskentatehoa vuoteen 2031 mennessä;SEC:lle äskettäin toimitetut asiakirjat osoittavat, että Meta on lisännyt sopimukseen ja suostunut ostamaan 21 miljardia dollaria lisää tekoälyn laskentatehoa vuoteen 2032 mennessä. Tämän uuden sopimuksen lisääminen on nostanut CoreWeaven tilauskannan 87,8 miljardiin dollariin, josta Metan osuus yksin on noin 40%.
CoreWeaven nousu on mikrokosmos GPU:n laskentatehon kehityksestä niukat hyödykkeestä infrastruktuuriksi.Puhtaan laskentatehon vuokraajana se ei tarjoa malliominaisuuksia, vaan taustalla olevan tuen, jonka avulla mallit voivat toimia.Kolmen suuren pilvijättiläisen lisäksi tekoälyyritykset tarvitsevat laskentatehovaihtoehdon, joka ei ole sidottu alustaekosysteemiin – ja CoreWeave vain täyttää tämän aukon.
Vuonna 2025 CoreWeaven liikevaihto oli 5,13 miljardia dollaria, mikä on noin 170 % enemmän kuin edellisenä vuonna.Sen palvelinkeskusmittakaava on laajentunut 43:een, ja sen käytössä oleva tehokapasiteetti on 850 megawattia.Yrityksellä on noin 600 000 GPU:ta, pääasiassa Nvidia H100 ja H200, ja Blackwell-sarjan osuus kasvaa jatkuvasti.Sovittu kokonaistehokapasiteetti on noussut 3 500 megawattiin, mikä on yli neljä kertaa nykyinen käytössä oleva kapasiteetti.
CoreWeaven laajennuslogiikka on kuitenkin myös sen suurin rakenteellinen paine.Yritys ilmoitti äskettäin 4,75 miljardin dollarin joukkovelkakirjalainojen kattamiseksi kattaakseen palvelinkeskuksen laajennuskustannukset.Kun käteistä on alle 4 miljardia dollaria, 30–35 miljardin dollarin pääomamenojen suorittaminen vuonna 2026 tarkoittaa, että sen on turvauduttava ulkoiseen rahoitukseen nopean laajentumisen ylläpitämiseksi.CoreWeaven sijoittajat lyövät vetoa ydinarvioinnista, jonka mukaan laskentatehon kysyntä jatkaa nopeaa kasvuaan pitkällä aikavälillä.
Anthropicin sisäisen sirusuunnittelun tutkiminen, Nvidian 20 miljardin dollarin Groqin hankinta, Googlen kymmenen vuoden ponnistelu muuttaa TPU:sta vertailutuotteeksi, Amazonin Cerebrasin käyttöönotto omaan datakeskukseensa luodakseen eriytetyn johtopäätösportfolion ja Intelin liitto SambaNovan kanssa kilpaillakseen osuudesta heterogeenisillä ja monimuotoisemmilla markkinoilla.päätelmä uutena taistelukenttänä.
Yhä useammat ihmiset ymmärtävät, että tekoälyn painopiste on siirtymässä parempien mallien kouluttamisesta siihen, kuinka päätellä enemmän pyyntöjä pienemmillä kustannuksilla ja nopeammalla nopeudella.Tämä muutos on käynnistänyt massiivisen muutoksen aikaisemmassa GPU-keskeisessä laskentatehojärjestelmässä.
Tämä kilpailukierros eroaa prosessorien varhaisesta korvaamisesta GPU:illa.Se oli yksisuuntainen uusien tuotteiden ihastus vanhoihin.Tämän päivän taistelu päätelmäsiruista on enemmän kuin työnjaon uudelleenjärjestely monimutkaisen ekosysteemin sisällä.Mikään yksittäinen arkkitehtuuri ei voi hallita kaikkia skenaarioita, ja heterogeeniset yhdistelmät ovat yleistymässä.Grafiikkasuorittimet käsittelevät erittäin samansuuntaista esitäyttöä, omistetut päättelypiirit vastaavat koodauksen purkamisesta, prosessorit vastaavat ajoituksesta ja koordinoinnista. Pilvi- ja reunapäät keskittyvät eri tavoin, ja jokaisessa linkissä kilpailee useita pelaajia.
Tämä tarkoittaa, että lopputulos on kaukana päätetty.
Anthropicille oman sirusuunnittelun tutkiminen on aktiivista pyrkimystä laskentatehon itsenäisyyteen ja vakuutussopimukseen, jolla estetään tuotantoketjun alkupään toimittajien joutuminen panttivangiksi.Mutta pitkä sykli ja suuret panostukset sirututkimukseen ja tuotekehitykseen tarkoittavat, että tämä tie ei tule olemaan helppo.Nvidian osalta CUDA-ekosysteemin vallihauta on edelleen syvä, mutta yhä ilmeisemmäksi tulevasta suorituskyvyn ja kustannusten erosta päättelypäässä on tulossa yhteinen läpimurtokohde kaikille mahdollisille haastajille.Muille teknisille kilpailijoille, kuten Groqille, teknologinen johtajuus ei välttämättä tarkoita kaupallista menestystä, ja mahdollisuus tulla hankituksi kasvaa jatkuvasti.
Taistelulinjat on vedetty ja osallistujalista kasvaa edelleen.Tämä tekoälyn päättelyn tehon lähitaistelu on juuri saapunut intensiivisimpään lukuonsa.