World-Action- versus Vision-Language-Action-Model KI: Welches Sprachmodell setzt sich für das automatisierte Fahren durch?

Von Henrik Bork 4 min Lesedauer

Anbieter zum Thema

In Chinas Automobilbranche wird derzeit über den richtigen technologischen Pfad zum automatisierten Fahren gestritten. Auf Fachkonferenzen, in Branchenmedien und sozialen Netzwerken prallen zwei KI-Modelle aufeinander: das World-Action-Model und das Vision-Language-Action-Model.

VLA oder WA – das ist hier die Frage. In Chinas Automobilbranche wird derzeit über den richtigen technologischen Pfad zum automatisierten Fahren gestritten.(Bild: ©  Choi_ Nikolai - stock.adobe.com)
VLA oder WA – das ist hier die Frage. In Chinas Automobilbranche wird derzeit über den richtigen technologischen Pfad zum automatisierten Fahren gestritten.
(Bild: © Choi_ Nikolai - stock.adobe.com)

Top-Manager führender chinesischer Unternehmen beziehen öffentlich Stellung und scheuen sich dabei nicht, auch mal scharfe Töne anzuschlagen. So zweifelte He Xiaopeng, Gründer und CEO des Elektroautobauers Xpeng, kürzlich unverhohlen an der Konkurrenz. Er wisse nicht, welcher chinesische Hersteller überhaupt ein echtes Vision-Language-Action-Model (VLA) entwickelt habe „statt nur einer deformierten Version“. Xpeng sei nach seinem Kenntnisstand das einzige Unternehmen in China, dem das gelungen sei, so der stets sehr selbstbewusst auftretende Firmengründer. Obwohl He keine Namen nannte, war klar, dass er vor allem den Rivalen Li Auto ansprach, der zuvor die Serienreife eines eigenen VLA-Systems angekündigt hatte.

Ende August meldete sich dann in dieser Debatte auch Huawei zu Wort. Der Technologiekonzern, der sich in den letzten Jahren zum einflussreichen Zulieferer für Fahrassistenz- und autonome Systeme entwickelte, hält unbeirrt am World-Action-Model (WA) fest. Jin Yuzhi, Chef der Huawei-Sparte für Intelligente Automobile, machte klar, dass sein Unternehmen dem VLA-Trend nicht folgen werde. „Huawei wird nicht den VLA-Weg einschlagen. Huawei legt mehr Wert auf das WA, also die World Action, bei der der Sprachschritt übersprungen wird“, unterstrich Jin in einem Interview. VLA versuche zwar, Videodaten mittels ausgereifter Sprachmodell-Technik in „sprachliche Token“ umzuwandeln und daraus Fahrzeugsteuerungs-Befehle abzuleiten. Dieser Ansatz erscheine geschickt und habe einigen Autobauern zu schnellen Fortschritten bei Assistenzfunktionen verholfen. Doch er sei nicht der Schlüssel zur echten Autonomie, so Jins Ausführungen.

Huawei setze stattdessen auf ein direktes Ende-zu-Ende-Modell, bei dem Sensordaten – egal ob visuelle Eindrücke, Geräusche oder andere Signale – ohne den Umweg über eine Sprachverarbeitung direkt in Fahraktionen umgesetzt werden. Dieser Weg erscheine zwar derzeit auf den ersten Blick als besonders anspruchsvoll, könne aber als einziger das vollautonome Fahren ermöglichen, ist sich Jin Yuzhi sicher.

Vorteile der Sprachmodelle

Technisch steht hinter VLA die Idee, ein großes Sprachmodell (LLM) für die Fahrautomatisierung zu nutzen. Kamerabilder und andere Sensordaten werden dabei in beschreibende Sprache übersetzt, die ein KI-System logisch auswertet, um danach entsprechende Fahrentscheidungen zu treffen. Mehrere chinesische Autohersteller, allen voran XPeng und Li Auto, haben in den vergangenen Monaten damit erhebliche Fortschritte erzielt.

Li Auto integrierte eine erste „MindVLA“-Funktion in seine Serienfahrzeuge, und Xpeng kündigte an, seinem neuen Modell P7 noch im Herbst per Software-Update ein VLA-basiertes System zu geben. Beobachter sprechen von einem möglichen „Abkürzungsweg“ zu hoch entwickelten Fahrerassistenz-Systemen. Durch die Nutzung vorhandener Large-Language-Modelle und riesiger Datensätze konnten diese Firmen ihre autonomen Fahrfunktionen in kurzer Zeit deutlich verbessern, hieß es.

Xpeng entwickelte beispielsweise ein eigenes Basis-Modell mit 72 Milliarden Parametern, das durch Destillation vereinfacht in seinen Fahrzeugen zum Laufen gebracht wird. Li Auto verfolgt dagegen einen Hybridansatz. Ein kleiner VLA-Modellanteil arbeitet im Fahrzeug, während eine große „Weltmodell-KI“ im Rechenzentrum Szenarien durchsimuliert und das System fortlaufend verbessert.

Kritiker wie He Xiaopeng merken aber an, Li Auto habe VLA nur „zusammengeflickt“ und werbe mit dem Schlagwort, ohne ein vollwertiges Modell an Bord zu haben. Huawei hingegen verfolgt strategisch unbeirrt den klassischen, Sensor-basierenden Weg. Das unternehmenseigene Autonomous-Driving-Solution-System (ADS) ist bereits in über einer Million Fahrzeuge integriert, die zusammen mehr als vier Milliarden Kilometer Assistenzfahrt absolviert haben.

Auf Basis des WA-Prinzips hat Huawei diesen Ansatz noch weiter verfeinert und die Architektur World Engine, World Action (WEWA) entwickelt. Diese kommt in der neuen Plattform ADS 4.0 zum Einsatz und soll hochpräzises autonomes Fahren mit direkter sensorischer Weltmodellierung ermöglichen. Huawei betont, dass WA ohne den Zwischenschritt Sprache insbesondere Vorteile bei der räumlichen Wahrnehmung habe. Und das sei genau der Bereich, in dem VLA wegen des abstrakten „Language-Layers“ Schwächen zeige. Zudem setzt Huawei stark auf umfangreiche Sensorik – etwa mehrere Lidar pro Fahrzeug – und rechenstarke Hardware, um dem WA-Modell möglichst vollständige Umweltinformationen in Echtzeit zu liefern.

Neue Geschäftsmodelle

Die kurzfristig höheren Kosten nimmt man bei Huawei Kauf: Sicherheitsreserven und eine robuste Leistungsfähigkeit über den gesamten Fahrzeug-Lebenszyklus stünden im Vordergrund, so Jin Yuzhi. Dass manche Konkurrenten ihre Fahrerassistenz zunächst kostenlos anbieten, sieht er kritisch. Es gebe „nichts umsonst auf der Welt“. Entweder seien solche Angebote zeitlich begrenzt, im Fahrzeugpreis quersubventioniert oder schlicht unausgereift und nutzten die Fahrer als Testpiloten, so das harte Urteil.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Huawei verfolgt ein anderes Geschäftsmodell. Über stetige OTA-Updates und Verbesserungen während der Nutzungsdauer sollen die Systeme kontinuierlich dazulernen – ein Service, für den der Kunde zahlt, der ihm aber langfristig mehr Sicherheit und Nutzen biete, so der Sprecher des Unternehmens.

Noch keine absoluten Wahrheiten

Diese bisweilen recht hitzige Kontroverse um „VLA versus WA“ hat auch eine kulturelle Dimension. Befürworter des neuen VLA-Ansatzes feiern ihn als technologischen Durchbruch. Zhou Guang, Chef des Startups Yuanrong Qixing, verkündete selbstbewusst, die Leistungs-Untergrenze des VLA-Modells habe inzwischen die Obergrenze klassischer End-to-End-Systeme übertroffen, unter anderem dank Fähigkeiten wie eingebauter Schlussfolgerungsketten und komplexer Sprachverständnis-Module, die VLA auszeichnen.

Branchenveteranen sehen die Aufregung allerdings recht gelassen. Ein leitender Ingenieur von Horizon Robotics kommentierte, im Kern seien alle aktuellen Lösungen, ob nun VLM-Erweiterung, VLA oder Huaweis Weltmodell, lediglich verschiedene Variationen des End-to-End-Lernansatzes.

Man solle die neuen Schlagworte nicht überbewerten. Tatsächlich befindet sich die gesamte Industrie in einer frühen „Trial-and-Error“-Phase, in der unterschiedliche Konzepte ausprobiert werden. Absolute Wahrheiten gibt es noch nicht.

Welche Auswirkungen hat ein Wettstreit der Ansätze?

Manche Experten halten sogar hybride Modelle für denkbar, die Elemente beider Welten miteinander vereinen. Fest steht, dass Chinas Automobilhersteller hier an einem Scheideweg stehen. Während Firmen wie Xpeng und Li Auto mit VLA-gestützter KI aggressiv vorangehen, vertraut Huawei auf sein datengetriebenes WA-Konzept und langjährige Investitionen in Hardware.

Der Wettstreit der Ansätze könnte die Entwicklung des automatisierten und autonomen Fahrens technisch, wirtschaftlich und strategisch prägen. Ob sich einer der beiden Pfade als klar überlegen herauskristallisiert oder am Ende eine Kombination als die beste Lösung gelten wird, wird erst die Zukunft zeigen. (se)

(ID:50563044)