Google kündigt virtuelle Cloud TPU-Maschinen für KI-Arbeitslasten an, die darauf ausgelegt sind, maschinelle Lernmodelle mit KI-Diensten in Google Cloud auszuführen


Anfang letzten Jahres wurden TPU-VMs in Google Cloud eingeführt, um die Verwendung der Tensor Processing Unit (TPU) durch direkten Zugriff auf TPU-Hosts zu erleichtern. Wir freuen uns, heute die allgemeine Verfügbarkeit (GA) von TPU-VMs bekannt zu geben”, sagte Google. Die allgemeine Verfügbarkeit von Cloud-TPU-VMs bedeutet, dass Benutzer nicht mehr remote auf die Cloud-TPU zugreifen müssen.

Maschinelles Lernen hat Durchbrüche in Wirtschaft und Forschung ermöglicht, von der Netzwerksicherheit bis zur medizinischen Diagnostik. Google hat die TPU entwickelt, damit jeder ähnliche Fortschritte erzielen kann. TPU ist ein benutzerdefiniertes ASIC für maschinelles Lernen, das Google-Produkte wie Übersetzer, Bilder, Suche, Assistent und Gmail unterstützt.

Cloud TPU wurde entwickelt, um die neuesten Modelle für maschinelles Lernen mit KI-Diensten in Google Cloud auszuführen. Sein dediziertes Hochgeschwindigkeitsnetzwerk liefert mehr als 100 Leistungspunkte in einem einzigen Raum. Genügend Rechenleistung, um ein Unternehmen zu transformieren oder Ihren nächsten Forschungsdurchbruch zu erzielen.

Der direkte Zugriff auf virtuelle TPU-Maschinen hat die Möglichkeiten, die wir auf TPUs aufbauen können, grundlegend verändert und die Entwicklererfahrung und Modellleistung erheblich verbessert“, sagte Aidan Gomez, Mitbegründer und CEO von Cohere.

Mit TPU-Clouds, die eine VM unterstützen, ist es möglich, interaktiv auf denselben Hosts zu arbeiten, mit denen die physischen TPU-Geräte verbunden sind. Unsere wachsende Community von TPU-Benutzern hat diesen Zugriffsmechanismus begeistert angenommen, da er nicht nur ein besseres Debugging-Erlebnis ermöglicht, sondern auch einige Trainingskonfigurationen, wie z. B. Reinforcement Learning, ermöglicht. Verteilt, was mit der TPU-Knotenarchitektur (Accessed Networking) nicht erreicht werden kann.

Was ist neu in GA

Cloud TPUs sind jetzt für umfangreiche Empfehlungsarbeitslasten optimiert.

  • TPU kann eine schnellere Lerngeschwindigkeit und viel niedrigere Lernkosten bieten als CPUs der empfohlenen Systemmodelle;
  • TensorFlow für Cloud-TPUs bietet eine leistungsstarke API zur Verarbeitung großer eingebetteter Tabellen und schneller Suchen;
  • Auf dem v3-32-TPU-Chip konnte Snap im Vergleich zu einer äquivalenten A100-Konfiguration (~4,65-fache Leistung/TCO) einen etwa 3-mal höheren Durchsatz (-67,3 % Durchsatz auf dem A100) zu 52,1 % niedrigeren Kosten erzielen.

Ranking und Empfehlung

Mit der Veröffentlichung von TPU VMs GA führt Google eine neue TPU Embedding API ein, die die ML-basierte Klassifizierung beschleunigen und Workloads empfehlen kann. Viele Unternehmen sind heute auf Ranking- und Empfehlungsanwendungsfällen aufgebaut, wie z. B. Audio-/Videoempfehlungen, Produktempfehlungen (Apps, E-Commerce) und Anzeigenbewertung. Diese Unternehmen verlassen sich auf Ranking- und Empfehlungsalgorithmen, um ihre Benutzer zu bedienen und ihre Geschäftsziele zu erreichen.

In den letzten Jahren haben sich die Ansätze für diese Algorithmen von einem rein statistischen Ansatz zu einem Ansatz entwickelt, der auf tiefen neuronalen Netzen basiert. Diese modernen Algorithmen, die auf tiefen neuronalen Netzen basieren, bieten eine bessere Skalierbarkeit und Genauigkeit, haben jedoch ihren Preis. Sie verwenden in der Regel große Datenmengen und können mit herkömmlicher Infrastruktur für maschinelles Lernen schwierig und teuer zu trainieren und bereitzustellen sein.

Die Integration von Beschleunigung in Cloud TPU kann dieses Problem zu geringeren Kosten lösen. Integrations-APIs können große Datenmengen, wie z. B. Integrationsmatrizen, effizient verarbeiten, indem sie Daten automatisch auf Hunderte von Cloud TPU-Chips in einer Bucht verteilen, die alle über eine dedizierte Verbindung miteinander verbunden sind. Um Benutzern den Einstieg zu erleichtern, veröffentlicht Google eine TF2-Bewertungs- und Empfehlungs-APIs als Teil der Tensorflow-Empfehlungsbibliothek.

Rahmenunterstützung

Die GA-Version der TPU-VM unterstützt die drei Hauptframeworks (TensorFlow, PyTorch und JAX), die jetzt über drei Umgebungen bereitgestellt werden, die für eine einfache Konfiguration mit dem jeweiligen Framework optimiert sind. GA-Version validiert mit TensorFlow v2-tf-Stable, PyTorch/XLA v1.11 und JAX [0.3.6].

Spezifische Merkmale von TPU-VMs

TPU-VMs bieten viele zusätzliche Funktionen in der TPU-Knotenarchitektur, indem sie die lokale Laufzeit konfigurieren, d. h. TPUs, die mit demselben Host verbunden sind, auf dem Benutzer Trainings-Workloads ausführen.

Lokale Implementierung der Eingabepipeline

Die Eingabedatenpipeline wird direkt auf TPU-Hosts ausgeführt. Diese Funktion stellt wertvolle Rechenressourcen bereit, die zuvor als Instanzsätze für verteiltes PyTorch/JAX-Training verwendet wurden. Im Fall von Tensorflow erfordert das verteilte Trainingssetup nur eine Benutzer-VM und die Datenpipeline wird direkt auf den TPU-Hosts ausgeführt. Die folgende Studie fasst den Kostenvergleich für das Training eines Transformers (FairSeq; PyTorch/XLA) zusammen, der 10 Perioden lang auf einer TPU-VM ausgeführt wird, im Vergleich zu einer TPU-Knotenarchitektur (TPU Retina).

In den letzten zwei Jahren hat Kakao Brain mehrere führende KI-Dienste und -Modelle entwickelt, darunter minDALL-E, KoGPT und zuletzt den RQ-Transformer. Wir verwenden die TPU-VM-Architektur seit ihrer Einführung in Google Cloud und haben eine deutliche Leistungsverbesserung gegenüber der ursprünglichen TPU-Knotenkonfiguration festgestellt. „Wir freuen uns sehr über die neuen Funktionen, die in der öffentlich verfügbaren Version der TPU-VM hinzugefügt wurden, wie z. B. die Embeddings-API“, sagte Kim Il-doo, CEO von Kakao Brain.

Verteiltes Verstärkungslernen mit TPU-VMs

Die lokale Ausführung auf dem Host mit dem Beschleuniger ermöglicht auch Anwendungsfälle wie verteiltes Verstärkungslernen. Klassiker in diesem Bereich wie Seed-RL, IMPALA und Podracer werden mit Cloud-basierten TPUs entwickelt.

… , argumentieren wir, dass die Rechenanforderungen von großen Reinforcement-Learning-Systemen besonders gut für die Verwendung von TPU-Clouds geeignet sind, und genauer gesagt TPU-Pods: spezielle Einstellungen in einem Google-Rechenzentrum, die mehrere TPUs aufweisen, die miteinander verbunden sind Latenzkommunikationskanäle, sagt Podracer von DeepMind.

Unterstützung für benutzerdefinierte TensorFlow-Operationen

Durch die direkte Ausführung auf der TPU-VM können Benutzer jetzt ihre eigenen benutzerdefinierten Operationen als TensorFlow-Text erstellen. Mit dieser Funktion sind Benutzer nicht länger an TensorFlow-Laufzeitversionen gebunden.

Quelle: Google

Und du?

Was denkst du darüber?

Siehe auch:

Google Duplex, das KI-System für Telefonzentralen, ist so realistisch, dass Google erwägt, zu Beginn eines Gesprächs zu erscheinen

Google will trotz Bedenken der Mitarbeiter wieder mit dem Pentagon zusammenarbeiten. Das Unternehmen hat Berichten zufolge angeboten, ein militärischer Cloud-Dienstanbieter zu sein

AI: Google wird Vertrag mit MoD über umstrittenes Maven-Projekt nicht verlängern, Ruf auf dem Spiel

Leave a Comment