Startseite » Nicht kategorisiert » Microsofts Toolkits zur Umwandlung von CUDA in ROCm: Senkung der Inferenzkosten und Herausforderer für CUDA

Microsofts Toolkits zur Umwandlung von CUDA in ROCm: Senkung der Inferenzkosten und Herausforderer für CUDA

von ytools
0 kommentar 5 ansichten

Microsofts Toolkits zur Umwandlung von CUDA in ROCm: Senkung der Inferenzkosten und Herausforderer für CUDA

Microsofts Toolkits zur Umwandlung von CUDA in ROCm: Senkung der Inferenzkosten und Herausforderer für NVIDIA

CUDA von NVIDIA hat sich über Jahre hinweg als Basis der KI-Welt etabliert. Die Kombination aus leistungsstarken Chips und einer ausgereiften Softwareplattform hat dem Unternehmen nicht nur Marktanteile verschafft, sondern auch einen echten „Lock-in“ für seine Nutzer geschaffen. Die meisten Modelle, Tools und Plattformen in der KI-Branche wurden rund um CUDA aufgebaut, wodurch der Wechsel zu einem anderen Anbieter mit hohen Kosten verbunden ist – in Form von Zeit, Geld und Risiken.

Jetzt jedoch berichten Quellen aus der Branche, dass Microsoft Toolkits entwickelt hat, die es ermöglichen, CUDA-Code in ein Format umzuwandeln, das mit ROCm von AMD kompatibel ist. Das Ziel ist es, Inferenz auf AMD Instinct GPUs (wie dem MI300X) auszuführen, was mehr Kapazität und niedrigere Kosten für die Verarbeitung in der Cloud ermöglicht. In einer Welt, in der Inferenzkosten in der Cloud oft höher sind als die Kosten für das Training von Modellen, können schon kleine Leistungsverbesserungen die Wirtschaftlichkeit eines Unternehmens erheblich beeinflussen.

Von einem geschlossenen Format zu einer offeneren Plattform

Die Übersetzung von CUDA ist keine neue Idee. Es gibt zwei Hauptansätze. Der erste ist Code-Umwandlung – das HIPifizieren von Kernen und das erneute Kompilieren für ROCm. Dieser Ansatz ist sauber, aber zeitaufwendig und teuer, da jeder Code-Basis individuell angepasst werden muss. Der zweite Ansatz ist die Verwendung einer Kompatibilitätsschicht zur Laufzeit, die CUDA-API-Aufrufe abfängt und sie in die ROCm-Äquivalente übersetzt. Projekte wie ZLUDA haben diese Idee öffentlich umgesetzt und CUDA-Aufrufe in Echtzeit auf ROCm übersetzt, ohne den Quellcode komplett neu zu schreiben. Microsoft scheint diesen zweiten Ansatz zu verfolgen und ihn mit einer Cloud-Infrastruktur zu kombinieren, die die Umstellung auf AMD- und NVIDIA-GPUs erleichtert.

Herausforderungen: Leistungseinbußen und Betriebsrisiken

ROCm hat sich zwar schnell weiterentwickelt, ist jedoch keine vollständige Ersatzlösung für CUDA. Es gibt CUDA-APIs, die keine direkten Entsprechungen in ROCm haben, und Kernels, die für einen Anbieter optimiert sind, laufen nicht immer gut auf dem anderen. Das bedeutet, dass die Leistung bei der Übersetzung von CUDA auf ROCm beeinträchtigt werden kann. Besonders bei Inferenzaufgaben, bei denen jede Millisekunde zählt, können diese Probleme zu hohen zusätzlichen Kosten oder sogar Ausfällen führen. Microsoft scheint bei der Anwendung dieser Toolkits vorsichtig vorzugehen und sie nur für Workloads zu nutzen, die sicher und stabil in großen Rechenzentren ausgeführt werden können.

Warum Inferenz der erste Kampfplatz ist

Das Training von Modellen bekommt die meiste Aufmerksamkeit, aber Inferenz ist das, was Geld bringt. Wenn Modelle in realen Anwendungen zum Einsatz kommen – sei es in persönlichen Assistenten, Suchmaschinen oder Unternehmenssoftware – dann zählt jede Millisekunde und jeder Watt Stromverbrauch. Die AMD Instinct MI300X-GPUs bieten attraktive Speichereigenschaften für große Kontexte und sind deutlich günstiger als die High-End-Chips von NVIDIA. Wenn es Microsoft gelingt, CUDA-Modelle auf ROCm ohne signifikante Leistungseinbußen auszuführen, könnte dies neue Möglichkeiten zur Senkung der Inferenzkosten eröffnen.

Rechtliche Fragen: Ist das legal?

Einige fragen sich, ob die Übersetzung von CUDA in ROCm rechtlich problematisch ist. In der Praxis gibt es solche Kompatibilitätsschichten schon lange in der Softwarewelt. Die eigentliche Frage betrifft Lizenzvereinbarungen und die Bedingungen für die Verteilung von Software, nicht den Übersetzungsprozess selbst. Wichtig ist, dass Microsoft sicherstellt, dass ihre Toolkits transparent und im Einklang mit den Lizenzbestimmungen verwendet werden. Es ist zu erwarten, dass Microsoft einen vorsichtigen Ansatz verfolgt, um rechtliche Probleme zu vermeiden.

Strategie der Mehrfachanbieter-Unterstützung

Dieser Schritt muss im größeren Kontext betrachtet werden. Microsoft ist bereits ein großer Kunde von NVIDIA, arbeitet intensiv mit AMD an Instinct zusammen und entwickelt gleichzeitig eigene KI-Chips, bekannt als MAIA. Berichten zufolge wird Intel bei der Fertigung der MAIA-Chips beteiligt sein, was die einfache Wahrheit unterstreicht: Große Cloud-Anbieter möchten Optionen haben. Die Entwicklung von Toolkits zur Übersetzung von CUDA ist nicht darauf ausgelegt, einen Anbieter zu verdrängen, sondern die Flexibilität zu erhöhen und die Vorhersehbarkeit bei steigender Nachfrage und Preisschwankungen in der Chip-Produktion zu verbessern.

Was als Nächstes zu erwarten ist

  • Fortschritte bei ROCm 7.x: Bessere Abdeckung von Kernen, Stabilität bei der Graphenerfassung und Fehlerbehebung für LLM- und Diffusionsinferenzmodelle.
  • Modellparität: Vollständige Unterstützung für populäre Frameworks (PyTorch, ONNX Runtime, vLLM, TensorRT-LLM und andere).
  • Operative Tools: Verbesserte Beobachtbarkeit, automatische Anpassung und Planung, die sowohl AMD- als auch NVIDIA-GPUs in Azure berücksichtigen.
  • Wirtschaftlichkeit: Langfristige Senkung der Kosten pro Token ohne versteckte Zusatzkosten für die Kunden.

Das große Ganze

Wenn Microsofts Toolkits es tatsächlich ermöglichen, CUDA-Modelle zuverlässig auf AMD-GPUs auszuführen, dann erhält die Branche einen realen Weg, sich von der Abhängigkeit von einem einzigen Anbieter zu befreien. Das wird CUDA nicht sofort besiegen, aber es wird den Wettbewerb erheblich fördern. Kurzfristig wird das wahrscheinlich zu gesünderer Konkurrenz führen: NVIDIA wird seine Inferenzplattform weiter verbessern, AMD wird die Entwicklung von ROCm beschleunigen, und Cloud-Anbieter werden auf alle drei Optionen setzen – NVIDIA, AMD und eigene Chips. Für Unternehmen bedeutet das: Portabilität wird endlich zur Standardfunktion und nicht mehr zum Projekt.

Das könnte Ihnen auch gefallen

Einen Kommentar hinterlassen