Taalas haastaa perinteisen sirusuunnittelun upottamalla kokonaisia tekoälymalleja suoraan piihin
Täysin erilainen prosessorirakenne upottaa kokonaisia tekoälymalleja piihin, mikä tarjoaa erittäin suuren nopeuden ja suorituskyvyn seuraavan sukupolven päättelytyökuormille.
Taalan uusi tekoälyprosessoriarkkitehtuuri haastaa perinteisen sirusuunnittelun upottamalla kokonaisia tekoälymalleja suoraan piihin ja lisää dramaattisesti päättelyn suorituskykyä ja tehokkuutta. Tämä lähestymistapa eliminoi perinteisten ohjelmistojen toteutuskerrosten tarpeen, mikä mahdollistaa välittömät vastaukset ja vähentää merkittävästi käyttökustannuksia.
Toisin kuin yleiskäyttöiset GPU:t ja tekoälykiihdyttimet, jotka asettavat etusijalle joustavuuden, tämä arkkitehtuuri on rakennettu yhden mallin erikoistumista varten. Jokainen siru on räätälöity tiettyä tekoälymallia varten ja liittää sen parametrit ja painon itse piihin. Tämä muutos lisää suorituskykyä yhdestä kahteen suuruusluokkaa verrattuna olemassa oleviin ratkaisuihin.
Keskeisiä ominaisuuksia ovat:
Se yhdistää täydellisen AI-mallin (painot + parametrit) suoraan piihin
Se tarjoaa 10-100x paremman päättelysuorituskyvyn kuin GPU:t
Submillisekunnin latenssi yli 14 000 tokenilla sekunnissa
Jopa 100 kertaa pienemmät kustannukset per merkki päätelmien työkuormituksissa
Nopea sirun kehityssykli (~2 kuukautta mallia kohti)**
Prosessori voidaan kehittää kahden kuukauden kuluessa mallin julkaisusta, mikä mahdollistaa optimoidun laitteiston nopean käyttöönoton. Varhaiset esittelyt osoittavat alle millisekunnin viivettä ja yli 14 000 merkkiä sekunnissa läpimenonopeuden kansankielisissä malleissa, joten tulosteet näyttävät lähes välittömästi.
Tämä suoritushyppy merkitsee myös merkittäviä taloudellisia hyötyjä. Päätelmäkustannukset pienenevät yhteen prosenttiin miljoonaa merkkiä kohden – paljon alhaisemmat kuin GPU-pohjaiset järjestelmät – jolloin pilvipalveluntarjoajat voivat mahdollisesti käsitellä useampia pyyntöjä pienemmillä kustannuksilla.
Suunnittelussa on kuitenkin kompromisseja. Keskittymällä yhteen malliin siru uhraa ohjelmoitavuutta, eikä sitä voi käyttää muihin työkuormiin. Vaikka rajallinen joustavuus saattaa rajoittaa laajempaa käyttöönottoa, arkkitehtuuri on tärkeä askel kohti äärimmäistä tekoälylaitteiston erikoistumista.
Tämä kehitys edustaa kasvavaa alan siirtymää kohti verkkoaluekohtaista piitä, jossa suorituskyvyn ja tehokkuuden lisäykset ovat suuremmat kuin yleiskäyttöisen tietojenkäsittelyn tarve. Jos tätä mallipohjaista lähestymistapaa käytetään laajalti, se voisi muuttaa tekoäly-infrastruktuuria, erityisesti suuria määriä johtavia työkuormia varten.