1400 RISC - Weifang Stanzmaschine Co., Ltd

Untether AI in Kanada hat ein KI-Gerät mit über 1400 RISC-V-Prozessoren namens Boqueria für „At-Memory“-Computing entwickelt.

Boqueria, das heute auf der HotChips-Konferenz diskutiert wurde, basiert auf dem 7-nm-Prozess von TSMC mit 238 MB SRAM. Das Gerät hat eine Leistung von 2 PetaFlops für FP8-8-Bit-KI-Datentypen mit einer Leistungszahl von 30 TFLOPs/W, die darauf zurückzuführen ist, dass die Verarbeitung mit 729 dualen RISC-V-Speicherbänken näher an den KI-Kernen gehalten wird.

Da die Berechnung im Arbeitsspeicher wesentlich energieeffizienter ist als herkömmliche von Neumann-Architekturen, können mehr TFlops für eine gegebene Leistungshüllkurve ausgeführt werden. Mit der Einführung der runAI-Geräte im Jahr 2020 verzeichnete Untether AI eine Energieeffizienz von 8 TOPs/W für den INT8-Datentyp.

Die in Boqueria verwendete speedAI-Architektur verbessert dies und liefert 30 TFlops/W. Diese Energieeffizienz ist ein Produkt der At-Memory-Computing-Architektur der zweiten Generation, über 1.400 optimierten RISC-V-Prozessoren mit benutzerdefinierten Anweisungen, energieeffizientem Datenfluss und der Einführung eines neuen FP8-Datentyps, was alles dazu beiträgt, die Effizienz im Vergleich zu vervierfachen runAI-Gerät der vorherigen Generation.

Jede Speicherbank der speedAI-Architektur verfügt über 512 Verarbeitungselemente mit direkter Verbindung zum dedizierten SRAM. Diese Verarbeitungselemente unterstützen die Datentypen INT4, FP8, INT8 und BF16 sowie Zero-Detect-Schaltkreise zur Energieeinsparung und Unterstützung für strukturierte Sparsity im Verhältnis 2:1.

Jede Reihe ist in 8 Reihen mit 64 Verarbeitungselementen angeordnet und verfügt über einen eigenen dedizierten Reihencontroller und eine fest verdrahtete Reduzierungsfunktion, um Flexibilität bei der Programmierung und effiziente Berechnung von Transformator-Netzwerkfunktionen wie Softmax und LayerNorm zu ermöglichen. Die Zeilen werden von zwei RISC-V-Prozessoren mit über 20 benutzerdefinierten Anweisungen zur Inferenzbeschleunigung verwaltet. Die Flexibilität der Speicherbank ermöglicht die Anpassung an eine Vielzahl neuronaler Netzwerkarchitekturen, darunter Faltungs-, Transformator- und Empfehlungsnetzwerke sowie lineare Algebramodelle

Das erste Mitglied der Familie, der speedAI240, bietet 2 PetaFlops FP8-Leistung und 1 PetaFlop BF16-Leistung. Dies führt zu einer höheren Leistung, beispielsweise beim Ausführen des BERT-Frameworks mit über 750 Abfragen pro Sekunde und Watt (qps/w), 15-mal mehr als der aktuelle Stand der Technik führender GPUs.

Die Untersuchungen von Untether AI ergaben, dass zwei verschiedene FP8-Formate die beste Mischung aus Präzision, Reichweite und Effizienz bieten. Eine 4-Mantissen-Version (FP8p für „Präzision“) und eine 3-Mantissen-Version (FP8r für „Reichweite“) lieferten die beste Genauigkeit und den besten Durchsatz für die Inferenz über eine Vielzahl unterschiedlicher Netzwerke hinweg. Sowohl bei Faltungsnetzwerken wie ResNet-50 als auch bei Transformatornetzwerken wie BERT-Base führt die Implementierung von FP8 durch Untether AI zu einem Genauigkeitsverlust von weniger als 1/10 von 1 Prozent im Vergleich zur Verwendung von BF16-Datentypen, mit einer Vervierfachung des Durchsatzes und der Energieeffizienz .

Das speedAI240-Gerät ist für die Skalierung auf große Modelle ausgelegt. Die Speicherarchitektur ist mehrstufig: 238 MB SRAM sind für die Verarbeitungselemente reserviert und bieten eine Speicherbandbreite von 1 Petabyte/s, vier 1 MB-Scratchpads und zwei 64 Bit breite LPDDR5-Ports bieten bis zu 32 GB externen DRAM.

Es gibt 16 PCIe Gen5-Lanes für Host-Konnektivität mit 63 GB/s mit drei PCIe Gen5 x8-Ports für Chip-zu-Chip- und Karte-zu-Karte-Konnektivität, die jeweils 31,5 GB/s bieten.

„Die Vorzüge von At-Memory-Computing wurden mit dem runAI-Gerät der ersten Generation bewiesen, und die speedAI-Architektur der zweiten Generation verbessert die Energieeffizienz, den Durchsatz, die Genauigkeit und die Skalierbarkeit unseres Angebots“, sagte Arun Iyengar, CEO von Untether AI. „speedAI-Geräte bieten eine Fähigkeit, die von keinem anderen Inferenzangebot auf dem Markt erreicht wird.“

Untether AI verfügt über ein Software Development Kit (SDK) namens imAIgine, das einen Weg zum Betrieb von Netzwerken mit hoher Leistung bietet, mit Quantisierung, Optimierung, physischer Zuordnung und Multi-Chip-Partitionierung auf Knopfdruck. Das imAIgine SDK bietet außerdem ein umfangreiches Visualisierungs-Toolkit, einen zyklusgenauen Simulator und eine einfach zu integrierende Laufzeit-API und ist ab sofort verfügbar.

speedAI-Geräte werden als eigenständige Chips sowie als verschiedene m.2- und PCI-Express-Formfaktorkarten angeboten. Die Bemusterung von speedAI240-Geräten und -Karten für Early-Access-Kunden wird voraussichtlich im ersten Halbjahr 2023 beginnen.