Bluepeak stellt Lana Frank als Chief Commercial Officer ein
Mar 06, 2023Es wird erwartet, dass der Fibre-to-the-X-Markt (FTTx) bis 2033 ein Volumen von 17,3 Milliarden US-Dollar erreichen wird, was einem jährlichen Wachstum von 5,4 % entspricht
Mar 08, 2023Trends und Prognosen für den Markt für optische CX4-Transceiver. Es wird erwartet, dass der weltweite Markt für optische CX4-Transceiver bis 2028 ein geschätztes Volumen von 0,27 Milliarden US-Dollar erreichen wird, mit einer jährlichen Wachstumsrate von 15,8 % von 2023 bis 2028
Mar 10, 2023Google Fibre beteiligt sich nicht „direkt“ an staatlichen Förderprogrammen
Mar 12, 2023HDPE-Rohre-Markt Maximaler Nutzen und Wachstumspotenzial der Hauptakteure 2030: Der FTTx-Sektor enthält detaillierte Informationen zu den Top-Akteuren der Branche. Dutron Group, Miraj Pipes & Fittings Pvt. Ltd., Gamson India Private Limited, Nagarjuna Polymers, Apollo Pipes, Mangalam Pipes Pvt. GmbH
Mar 14, 2023Meta, MIT und andere testen Roboterarm in optischer KI-Infrastruktur
Von Agam Shah
19. April 2023
Forscher von Meta, MIT und anderen Institutionen verbanden Server mit einem Dutzend Nvidia-GPUs über optische Schalter und einen Roboterarm und entwickelten so eine neue Verbindung, die für maschinelles Lernen genutzt werden könnte. Die Fabric mit dem Namen „TopoOpt“ kann je nach Rechenbedarf im Handumdrehen Netzwerktopologien erstellen. Die Technologie kommt zu einer Zeit, in der Hochleistungscomputer durch die zunehmende Einführung von KI-Technologien wie ChatGPT belastet werden, was die Grenzen des KI-Supercomputings von Microsoft auf die Probe stellt.
Auf dem USENIX Symposium on Networked Systems Design and Implementation, das diese Woche stattfindet, wurde ein Papier zu dieser Technologie vorgestellt.
TopoOpt verwendet Algorithmen, um die schnellsten parallelen Rechentechniken zu finden, basierend auf Informationen wie Verarbeitungsanforderungen, verfügbaren Rechenressourcen, Datenroutingtechniken und Netzwerktopologie. Die Forscher verbesserten außerdem die AllReduce-Funktion von Nvidia, die die Kommunikationszeit zwischen GPUs und anderen Komponenten minimiert.
„TopoOpt erstellt mithilfe rekonfigurierbarer optischer Schalter und Patchpanels dedizierte Partitionen für jeden Trainingsjob und optimiert gemeinsam die Topologie und Parallelisierungsstrategie innerhalb jeder Partition“, schreiben die Forscher.
Die Forscher testeten TopoOpt innerhalb der Meta-Infrastruktur mit einem Dutzend Asus ESC4000A-E10-Servern, die jeweils mit einer A100-GPU, HPE-NICs und einer 100-Gbit/s-Mellanox-ConnectX5-NIC ausgestattet waren. Die NICs verfügten über optische Transceiver mit Breakout-Fasern.
„TopoOpt ist das erste System, das Topologie und Parallelisierungsstrategie für ML-Workloads gemeinsam optimiert und wird derzeit für den Einsatz bei Meta evaluiert“, sagten die Forscher.
Das Setup verwendet auch ein Patchpanel von Telescent, das ein Netzwerk neu konfiguriert, indem es „einen Roboterarm verwendet, der eine Faser auf der Sendeseite greift und sie mit einer Faser auf der Empfangsseite verbindet“, heißt es in dem Papier. Der softwaregesteuerte Roboterarm bewegt sich auf und ab, um die Sendefaser mit einer Empfängerfaser an einer beliebigen Stelle im System zu verbinden. Dies bietet die erforderliche Flexibilität und Elastizität, um ein Netzwerk schnell neu zu konfigurieren. Patchpanels sind in kommerziellen Anwendungen bereits weit verbreitet, werden aber nun auch für den Einsatz in Rechenzentren vorgeschlagen.
Google hat kürzlich ein Papier vorgelegt, in dem detailliert beschrieben wird, wie das Unternehmen mithilfe eines KI-Supercomputers mit optischen Schaltkreisschaltern die Trainingsgeschwindigkeit auf seinen TPU-v4-Chips verbessert und gleichzeitig den Stromverbrauch niedrig hält. Das Optical Circuit Switching (OCS) in Googles Aufbau ist nicht so mobil wie ein Roboterarm, sondern nutzt Spiegel, um zwischen Eingangs- und Ausgangsfasern umzuschalten. Das Google-Setup war auch eine größere Testumgebung mit einer maßstabsgetreuen Bereitstellung auf 4.096 TPUs.
Die Forscher entschieden sich für das Patchpanel, da sie fanden, dass die optischen Schalter im Google-Stil „fünfmal teurer“ seien und sie auch weniger Ports unterstützten. Gleichzeitig sagten die Forscher, dass die OCS-Technologie, wie sie bei Google verwendet wird, für den Einsatz in großem Maßstab gedacht sei. „Der Hauptvorteil von OCSs besteht darin, dass ihre Rekonfigurationslatenz vier Größenordnungen schneller ist als bei Patchpanels“, schreiben die Forscher.
TopoOpt stellt die Rechen- und Netzwerkanforderungen vorab bereit und ist einsatzbereit, sobald die Server bereit sind und die Aufgabe bereitgestellt werden kann. „Wir kennen bereits die Reihenfolge der Jobeingänge und die Anzahl der Server, die für jeden Job erforderlich sind“, schrieben die Forscher und fügten hinzu, dass „dieses Design es jedem Server ermöglicht, an zwei unabhängigen Topologien teilzunehmen.“
Die Forscher kamen zu dem Schluss, dass TopoOpt eine 3,4-mal schnellere Trainingsiterationszeit bietet als eine andere Technik namens „Fat-Tree“, bei der das Netzwerk-Backbone das Herzstück der Infrastruktur ist, die dann Daten an mehrere Schichten statischer Switches weiterleitet, die das Kern-Netzwerk-Backend verbinden Hardware bis hin zu Front-End-Servern. Diese Technik ist heute weit verbreitet.
Der Einsatz optischer Netzwerke in einem Rechenzentrum ist ein neues Konzept, und Forscher führen den Roboterarm und ein neues Kommunikationsprotokoll als kostengünstigere Möglichkeit zum Aufbau einer KI-Netzwerkinfrastruktur ein. Die Machbarkeit der Technologie wird von Meta getestet.