Diese Woche ist unter anderem Google I/O 2022, und wir hatten gehofft, tief in die TPUv4-Matrix-Mathematik-Engines einzutauchen, über die Google auf der letztjährigen I/O-Veranstaltung gesprochen hat. Aber leider gibt es kein solches Glück. Aber der Such- und Werberiese, der auch einer der größten Innovatoren der künstlichen Intelligenz auf dem Planeten ist, weil Riese Die Datenmenge, die Sie verwenden müssen, gab einige zusätzliche Informationen über TPUv4-Prozessoren und die von ihnen verwendeten Systeme.
Google sagte auch, dass es acht TPUv4-Systeme in seinem Rechenzentrum in Mayes County, Oklahoma, installiert, das über 9 Exaflops an Gesamtrechenkapazität verfügt, zur Verwendung durch die Google Cloud-Zweigstelle, damit Forscher und Unternehmen auf die gleiche Art und Rechenleistung wie Google zugreifen können bei der Entwicklung und Produktion künstlicher Intelligenz im eigenen Haus durchzuführen.
Google betreibt seit 2007 Rechenzentren in Mayes County, nordöstlich von Tulsa, und hat seitdem 4,4 Milliarden US-Dollar in Einrichtungen investiert. Es liegt im geografischen Zentrum der Vereinigten Staaten – etwas südlich und westlich – und ist aufgrund der relativ kurzen Reisezeiten in den meisten Teilen des Landes von Vorteil. Und jetzt verfügt Mayes County per Definition über eine der größten Eisenplattformen, um die KI-Arbeitslast auf dem Planeten zu erhöhen. (Wenn alle acht TPUv4-Computer miteinander verbunden wären und das Unternehmen gleichzeitig skalieren könnte, könnten wir wahrscheinlich eindeutig „der Größte“ sagen … Google hat das sicherlich getan, wie Sie im folgenden Zitat sehen werden.)
Während seiner Keynote erwähnte Sundar Pichai, CEO von Google und seiner Muttergesellschaft Alphabet, nebenbei, dass das TPUv4-Portfolio in seiner Cloud vorab vorgestellt wurde.
„All die Fortschritte, die wir heute geteilt haben, sind nur durch kontinuierliche Innovation in unserer Infrastruktur möglich“, sagte Pichai über einige der beeindruckenden Verbesserungen der von ihm gebauten Suchmaschinen für natürliche Sprache und immersive Daten, die alle Arten von Anwendungen füttern. Wir haben kürzlich unsere Absicht bekannt gegeben, 9,5 Milliarden US-Dollar in Rechenzentren und Büros in den Vereinigten Staaten zu investieren. Eines unserer neuesten Rechenzentren befindet sich in Mays County, Oklahoma, und ich freue mich, Ihnen mitteilen zu können, dass wir das weltweit größte öffentlich zugängliche Zentrum für maschinelles Lernen für alle unsere Google-Kunden eröffnen. Wolke. Dieser maschinenseitige Hub verfügt über acht Cloud TPU v4-Pods, die speziell auf derselben Netzwerkinfrastruktur aufgebaut sind, auf der die größten neuronalen Modelle von Google ausgeführt werden. Sie bieten fast 9 Exaflops an Gesamtrechenleistung und geben unseren Kunden beispiellose Möglichkeiten, komplexe Modelle und Workloads auszuführen. Wir hoffen, dass dies Innovationen in allen Bereichen unterstützen wird, von der Medizin über die Logistik bis hin zur Nachhaltigkeit und mehr. »
Pichai fügte hinzu, dass der auf dem TPUv4-Portfolio basierende KI-Hub bereits 90 % seiner Energie aus nachhaltigen, CO2-neutralen Quellen bezieht. (Er erwähnte nicht die Menge an Wind-, Sonnen- oder Wasserkraft.)
Bevor wir uns mit den Geschwindigkeiten und Abläufen von TPUv4-Chips und -Pods befassen, ist es wahrscheinlich erwähnenswert, dass Google nach allem, was wir wissen, bereits TPUv5-Pods in seinen internen Rechenzentren hat und möglicherweise eine viel größere Auswahl an TPUs für seine eigenen Fahrmodelle hat und zur Erweiterung privater Anwendungen mithilfe von KI-Algorithmen und -Verfahren. Dies wird die alte Arbeitsweise von Google sein: Sprechen Sie über Generation nicht von etwas, während er die Generation verkaufte n-1 Es ist bereits an die Generation weitergegeben worden N + 1 für interne Arbeitslasten.
Dies scheint nicht der Fall zu sein. In einem Blogbeitrag von Sachin Gupta, Vice President und General Manager of Infrastructure bei Google Cloud, und Max Saboznikov, Product Manager for Cloud TPUs, gewährte Google Forschern von Cohere, LG AI Research, beim Bau von TPUv4-Systemen im vergangenen Jahr einen frühen Zugang , Meta AI und Salesforce Research fügten außerdem hinzu, dass TPUv4-Systeme verwendet wurden, um das Pathways Language Model (PaLM) zu erstellen, das die Innovationen bei der Verarbeitung natürlicher Sprache und der Spracherkennung unterstützt, die das Herzstück der heutigen Sprache bilden. Insbesondere wurde PaLM auf zwei TPUv4-Pods entwickelt und getestet, die jeweils 4.096 TPUv4 Matrix Sports Engines enthalten.
Wenn Googles brillanteste neue Modelle auf TPUv4s entwickelt würden, hätten sie wahrscheinlich keine Flotte von TPUv5s, die sich irgendwo in einem Rechenzentrum versteckt. Obwohl wir hinzufügen werden, wäre es interessant, die TPUv5s versteckt zu haben, 26,7 Meilen südwestlich von unserem Büro, im Rechenzentrum von Lenoir, hier von unserem Fenster aus zu sehen:
Der graue Balken am Fuße des Berges unter den Birkenblättern repräsentiert das Google-Rechenzentrum. Wenn Sie in die Ferne starren und starren, ist das Rechenzentrum von Maiden Apple nach links und weiter aus der Reihe gerückt.
Genug davon. Lassen Sie uns über einige Strömungen und Geschwindigkeiten sprechen. Hier sind schließlich einige der Funktionen, die TPUv4 mit TPUv3 vergleichen:
Als Pichai letztes Jahr auf TPUv4 hinwies, dachten wir, Google würde für diese Generation von TPUs auf 7-nm-Prozesse umsteigen, aber angesichts des geringeren Stromverbrauchs sieht es so aus, als wäre es höchstwahrscheinlich mit 5-nm-Prozessen graviert worden. (Wir gingen davon aus, dass Google versuchte, die Leistungshüllkurve konstant zu halten, und wollten sie offensichtlich senken.) Wir erwarteten auch, dass sich die Anzahl der Kerne verdoppeln würde, von zwei auf TPUv3 auf vier auf TPUv4, was Google weder bestätigte noch dementierte.
Eine Verdoppelung der Leistung mit doppelt so vielen Kernen würde es TPUv4 ermöglichen, 246 Teraflops pro Chip zu erreichen, und ein Wechsel von 16 nm auf 7 nm würde es ermöglichen, dass sich fast die gleiche Leistungshülle bei ungefähr der gleichen Taktrate verdoppelt. Die Umstellung auf 5 nm ermöglicht es, den Chip kleiner zu machen und etwas schneller zu laufen, während der Stromverbrauch gesenkt wird – und einen kleineren Chip mit höherer Effizienz zu haben, wenn 5-nm-Prozesse ausgereift sind. Dieser durchschnittliche Stromverbrauch verringerte sich um 22,7 %, was durch eine Taktsteigerung von 11,8 % unter Berücksichtigung des zweiten Prozessknotens und des Wechsels von TPUv3 zu TPUv4 ausgeglichen wird.
Es gibt einige sehr interessante Dinge in dieser Tabelle und in den Daten, die Google in diesem Blog veröffentlicht.
Abgesehen von den 2X-Kernen und dem leichten Anstieg der Taktgeschwindigkeit, der durch den Chipherstellungsprozess des TPUv4 verursacht wird, ist es erwähnenswert, dass Google die Speicherkapazität bei 32 GB belassen und nicht auf den HBM3-Speicher erhöht hat, den Nvidia mit seinen „Hopper“ GH100-GPU-Beschleunigern verwendet. Nvidia ist besessen von der Speicherbandbreite auf dem Gerät, also mit NVLink und NVSwitch, der Speicherbandbreite auf Knoten und jetzt auf Knoten mit maximal 256 Geräten in einem einzigen Frame.
Google kümmert sich (soweit wir wissen) nicht um Speicherkerne auf einer proprietären TPU-Verbindung, Gerätespeicherbandbreite oder Gerätespeicherkapazität. TPUv4 hat die gleiche Kapazität von 32 GB wie TPUv3, verwendet den gleichen HBM2-Speicher und hat eine Geschwindigkeitssteigerung von nur 33 % auf knapp 1,2 TB/s. Was Google interessiert, ist die Bandbreite an der Schnittstelle des TPU-Gehäuses, die sich als 3D-Design des Rings entpuppt, der 64 TPUv4-Chips mit „Coil-Ups“ fest miteinander verbindet – was mit der verwendeten 2D-Ringverknüpfung nicht möglich war TPUv3-Fall. Durch die vergrößerte Dimension des Ring-Backbones können mehr TPUs für Gruppenoperationen in ein kompakteres Subnetz gezogen werden. (Was die Frage aufwirft, warum gibt es dann kein 4D-, 5D- oder 6D-Framework?)
Der TPUv4-Pod hat mit 4096 viermal so viele TPU-Chips und doppelt so viele TPU-Kerne, die wir auf 16.384 schätzen; Wir glauben, dass Google die Anzahl der mathematischen Einheiten in der MXU-Matrix auf zwei pro Zentrum belassen hat, aber das ist nur eine Vermutung. Google kann die gleiche Anzahl von TPU-Kernen beibehalten, die MXU verdoppeln und die gleiche Rohleistung erzielen; Der Unterschied wird die Menge an Vorwärts-Skalar/Vektor-Verarbeitung sein, die auf diesen MXUs durchgeführt werden muss. Jedenfalls liefert der TPUv4-Pod im 16-Bit-Gleitkommaformat BrainFloat (BF16), das von Googles Brain Module erstellt wurde, 1,1 Exaflops, verglichen mit nur 126 Petaflops im BF16. Dies ist ein Rohrechenfaktor von 8,7x, der durch eine 3,3-fache Erhöhung der gesamten Reduktionsbandbreite über den Pod und eine 3,75-fache Erhöhung der Bandbreite in zwei Abschnitten durch eine TPUv4-Verbindung über die Kapsel ausgeglichen wird.
Dieser Blogbeitrag hat unser Interesse geweckt: „Jeder der Cloud TPU v4-Chips hat 2,2-mal mehr Spitzen-FLOPs im Vergleich zu Cloud TPU v3, für 1,4-mal mehr Spitzen-FLOPs pro Dollar.“ Wenn Sie diese Aussage nachrechnen, bedeutet das den Preis der TPU-Vermietungen in Google Cloud ist mit TPUv4 um 60 % gestiegen, aber es erfüllt seine Aufgabe 2,2-mal. Diese Preis- und Leistungssprünge stimmen perfekt mit der Art von Preis-Leistungs-Verbesserung überein, die Google von dem ASIC-Switch erwartet, den es für seine Rechenzentren kauft. die in der Regel die doppelte Bandbreite bieten im Vergleich zum 1,3-fachen der Kosten von 1,5.TPUv4 ist etwas teurer, aber es hat ein besseres Netzwerk, um größere Modelle auszuführen, und das hat auch seinen Preis.
TPUv4-Pods können in virtuellen Maschinen in Google Cloud ausgeführt werden, deren Größe von vier Chipsätzen bis zu „Tausenden von Chips“ reicht, und wir gehen davon aus, dass dies auf einem gesamten Gerät bedeutet.