In Chinas Automobilbranche wird derzeit über den richtigen technologischen Pfad zum automatisierten Fahren gestritten. Auf Fachkonferenzen, in Branchenmedien und sozialen Netzwerken prallen zwei KI-Modelle aufeinander: das World-Action-Model und das Vision-Language-Action-Model.
VLA oder WA – das ist hier die Frage. In Chinas Automobilbranche wird derzeit über den richtigen technologischen Pfad zum automatisierten Fahren gestritten.
Top-Manager führender chinesischer Unternehmen beziehen öffentlich Stellung und scheuen sich dabei nicht, auch mal scharfe Töne anzuschlagen. So zweifelte He Xiaopeng, Gründer und CEO des Elektroautobauers Xpeng, kürzlich unverhohlen an der Konkurrenz. Er wisse nicht, welcher chinesische Hersteller überhaupt ein echtes Vision-Language-Action-Model (VLA) entwickelt habe „statt nur einer deformierten Version“. Xpeng sei nach seinem Kenntnisstand das einzige Unternehmen in China, dem das gelungen sei, so der stets sehr selbstbewusst auftretende Firmengründer. Obwohl He keine Namen nannte, war klar, dass er vor allem den Rivalen Li Auto ansprach, der zuvor die Serienreife eines eigenen VLA-Systems angekündigt hatte.
Ende August meldete sich dann in dieser Debatte auch Huawei zu Wort. Der Technologiekonzern, der sich in den letzten Jahren zum einflussreichen Zulieferer für Fahrassistenz- und autonome Systeme entwickelte, hält unbeirrt am World-Action-Model (WA) fest. Jin Yuzhi, Chef der Huawei-Sparte für Intelligente Automobile, machte klar, dass sein Unternehmen dem VLA-Trend nicht folgen werde. „Huawei wird nicht den VLA-Weg einschlagen. Huawei legt mehr Wert auf das WA, also die World Action, bei der der Sprachschritt übersprungen wird“, unterstrich Jin in einem Interview. VLA versuche zwar, Videodaten mittels ausgereifter Sprachmodell-Technik in „sprachliche Token“ umzuwandeln und daraus Fahrzeugsteuerungs-Befehle abzuleiten. Dieser Ansatz erscheine geschickt und habe einigen Autobauern zu schnellen Fortschritten bei Assistenzfunktionen verholfen. Doch er sei nicht der Schlüssel zur echten Autonomie, so Jins Ausführungen.
Huawei setze stattdessen auf ein direktes Ende-zu-Ende-Modell, bei dem Sensordaten – egal ob visuelle Eindrücke, Geräusche oder andere Signale – ohne den Umweg über eine Sprachverarbeitung direkt in Fahraktionen umgesetzt werden. Dieser Weg erscheine zwar derzeit auf den ersten Blick als besonders anspruchsvoll, könne aber als einziger das vollautonome Fahren ermöglichen, ist sich Jin Yuzhi sicher.
Vorteile der Sprachmodelle
Technisch steht hinter VLA die Idee, ein großes Sprachmodell (LLM) für die Fahrautomatisierung zu nutzen. Kamerabilder und andere Sensordaten werden dabei in beschreibende Sprache übersetzt, die ein KI-System logisch auswertet, um danach entsprechende Fahrentscheidungen zu treffen. Mehrere chinesische Autohersteller, allen voran XPeng und Li Auto, haben in den vergangenen Monaten damit erhebliche Fortschritte erzielt.
Li Auto integrierte eine erste „MindVLA“-Funktion in seine Serienfahrzeuge, und Xpeng kündigte an, seinem neuen Modell P7 noch im Herbst per Software-Update ein VLA-basiertes System zu geben. Beobachter sprechen von einem möglichen „Abkürzungsweg“ zu hoch entwickelten Fahrerassistenz-Systemen. Durch die Nutzung vorhandener Large-Language-Modelle und riesiger Datensätze konnten diese Firmen ihre autonomen Fahrfunktionen in kurzer Zeit deutlich verbessern, hieß es.
Xpeng entwickelte beispielsweise ein eigenes Basis-Modell mit 72 Milliarden Parametern, das durch Destillation vereinfacht in seinen Fahrzeugen zum Laufen gebracht wird. Li Auto verfolgt dagegen einen Hybridansatz. Ein kleiner VLA-Modellanteil arbeitet im Fahrzeug, während eine große „Weltmodell-KI“ im Rechenzentrum Szenarien durchsimuliert und das System fortlaufend verbessert.
Kritiker wie He Xiaopeng merken aber an, Li Auto habe VLA nur „zusammengeflickt“ und werbe mit dem Schlagwort, ohne ein vollwertiges Modell an Bord zu haben. Huawei hingegen verfolgt strategisch unbeirrt den klassischen, Sensor-basierenden Weg. Das unternehmenseigene Autonomous-Driving-Solution-System (ADS) ist bereits in über einer Million Fahrzeuge integriert, die zusammen mehr als vier Milliarden Kilometer Assistenzfahrt absolviert haben.
Auf Basis des WA-Prinzips hat Huawei diesen Ansatz noch weiter verfeinert und die Architektur World Engine, World Action (WEWA) entwickelt. Diese kommt in der neuen Plattform ADS 4.0 zum Einsatz und soll hochpräzises autonomes Fahren mit direkter sensorischer Weltmodellierung ermöglichen. Huawei betont, dass WA ohne den Zwischenschritt Sprache insbesondere Vorteile bei der räumlichen Wahrnehmung habe. Und das sei genau der Bereich, in dem VLA wegen des abstrakten „Language-Layers“ Schwächen zeige. Zudem setzt Huawei stark auf umfangreiche Sensorik – etwa mehrere Lidar pro Fahrzeug – und rechenstarke Hardware, um dem WA-Modell möglichst vollständige Umweltinformationen in Echtzeit zu liefern.
Neue Geschäftsmodelle
Die kurzfristig höheren Kosten nimmt man bei Huawei Kauf: Sicherheitsreserven und eine robuste Leistungsfähigkeit über den gesamten Fahrzeug-Lebenszyklus stünden im Vordergrund, so Jin Yuzhi. Dass manche Konkurrenten ihre Fahrerassistenz zunächst kostenlos anbieten, sieht er kritisch. Es gebe „nichts umsonst auf der Welt“. Entweder seien solche Angebote zeitlich begrenzt, im Fahrzeugpreis quersubventioniert oder schlicht unausgereift und nutzten die Fahrer als Testpiloten, so das harte Urteil.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel Communications Group GmbH & Co. KG, Max-Planckstr. 7-9, 97082 Würzburg einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.
Huawei verfolgt ein anderes Geschäftsmodell. Über stetige OTA-Updates und Verbesserungen während der Nutzungsdauer sollen die Systeme kontinuierlich dazulernen – ein Service, für den der Kunde zahlt, der ihm aber langfristig mehr Sicherheit und Nutzen biete, so der Sprecher des Unternehmens.
Noch keine absoluten Wahrheiten
Diese bisweilen recht hitzige Kontroverse um „VLA versus WA“ hat auch eine kulturelle Dimension. Befürworter des neuen VLA-Ansatzes feiern ihn als technologischen Durchbruch. Zhou Guang, Chef des Startups Yuanrong Qixing, verkündete selbstbewusst, die Leistungs-Untergrenze des VLA-Modells habe inzwischen die Obergrenze klassischer End-to-End-Systeme übertroffen, unter anderem dank Fähigkeiten wie eingebauter Schlussfolgerungsketten und komplexer Sprachverständnis-Module, die VLA auszeichnen.
Branchenveteranen sehen die Aufregung allerdings recht gelassen. Ein leitender Ingenieur von Horizon Robotics kommentierte, im Kern seien alle aktuellen Lösungen, ob nun VLM-Erweiterung, VLA oder Huaweis Weltmodell, lediglich verschiedene Variationen des End-to-End-Lernansatzes.
Man solle die neuen Schlagworte nicht überbewerten. Tatsächlich befindet sich die gesamte Industrie in einer frühen „Trial-and-Error“-Phase, in der unterschiedliche Konzepte ausprobiert werden. Absolute Wahrheiten gibt es noch nicht.
Welche Auswirkungen hat ein Wettstreit der Ansätze?
Manche Experten halten sogar hybride Modelle für denkbar, die Elemente beider Welten miteinander vereinen. Fest steht, dass Chinas Automobilhersteller hier an einem Scheideweg stehen. Während Firmen wie Xpeng und Li Auto mit VLA-gestützter KI aggressiv vorangehen, vertraut Huawei auf sein datengetriebenes WA-Konzept und langjährige Investitionen in Hardware.
Der Wettstreit der Ansätze könnte die Entwicklung des automatisierten und autonomen Fahrens technisch, wirtschaftlich und strategisch prägen. Ob sich einer der beiden Pfade als klar überlegen herauskristallisiert oder am Ende eine Kombination als die beste Lösung gelten wird, wird erst die Zukunft zeigen. (se)