Li Auto StreamingClaw: <100 ms Latenz vs. HIMAs 500-TOPS-Ökosystem

Die Auto China 2025 in Peking wurde endgültig zur KI-Bühne: Statt nur über autonomes Fahren zu sprechen, rückt nun das intelligente Cockpit in den Fokus. Zwei Lager liefern sich ein Duell um die Frage, wer das Auto zu einem aktiven Assistenten (Agent) macht. Auf der einen Seite steht die HIMA (Harmony Intelligent Mobility Alliance), das Ökosystem von Huawei, mit Milliarden vernetzter Geräte. Auf der anderen Seite das chinesische EV-Startup Li Auto (理想), das hohe Summen in die KI-Entwicklung investiert hat. Beide präsentieren grundverschiedene technische Ansätze.

MoLA 2.0 von HIMA: Cloud-basierter Kommandoturm

HIMA setzt auf die MoLA-2.0-Architektur (modulare Aufgaben-Verteiler-Architektur). Ein Cloud-basierter „Großhirn"-Agent fungiert als Kommandoturm, der komplexe Aufgaben in Subaufgaben zerlegt und an spezialisierte „Kleinhirn"-Module delegiert – etwa Navigation oder Fahrzeugsteuerung.

Technische Daten:

Architektur: Cloud-basiertes „Großhirn + Kleinhirn"-Modell
Rechenleistung: bis zu 500 TOPS (Ökosystem integriert)
Spracherkennung: Natural Language Understanding über Cloud-API
Offenheit: Integration von Drittanbieter-Diensten möglich (Service-Plattform)
Latenz: abhängig von Cloud-Anbindung, ca. 200–500 ms (Schätzung)

Vorteil: Die Architektur ist leicht erweiterbar und skaliert über das gesamte HIMA-Ökosystem mit über 10 Milliarden verbundenen Geräten. HIMA spricht von einem „Service-Verteiler", der aus vielen Komponenten bestehen kann.

StreamingClaw von Li Auto: Echtzeit-End-to-End-Agent

Li Auto verfolgt mit „StreamingClaw" einen gegensätzlichen Ansatz: ein geschlossenes End-to-End-System, das Sensorströme (Video, Audio) in Echtzeit verarbeitet und direkt in Aktionen übersetzt. Der Haupt-Agent ist nicht nur ein Aufgabenverteiler, sondern kopfüber in die Wahrnehmung und Entscheidungsfindung eingebunden – das gesamte Fahrzeug wird als einheitlicher, handelnder Agent verstanden.

Technische Daten:

Architektur: End-to-End-Streaming (Wahrnehmung → Entscheidung → Ausführung)
Latenz: < 100 Millisekunden (Echtzeitverarbeitung)
Modell: VLA (Visual-Language-Action) – vereint Bild, Sprache und Handlung in einem Rahmen
Zielsetzung: „Verkörperter KI-Agent" (Embodied Agent) für physische Interaktion
Geplante Erweiterung: 2026 unter einem einheitlichen Basis-KI-Modell für physische Welten

Li Auto bezeichnet dies als „körperlichen KI-Agenten": Der Wagen nimmt über Kameras und Mikrofone die Umgebung wahr, plant und handelt eigenständig.

Zwei grundverschiedene Designphilosophien

Die Unterschiede reichen tief in die Entwicklungsgeschichte hinein. Li Auto überträgt seine Erfahrungen aus dem autonomen Fahren (End-to-End und VLA-Ansatz) direkt auf das Cockpit. Ziel ist ein „physischer Universal-Agent", der Raum, Sprache und Aktion in einem Modell vereint. HIMA hingegen folgt dem „World-Model"-Ansatz: Eine Cloud-Simulation berechnet zunächst die Sicherheitsstrategie, bevor sie an das Fahrzeug übergeben wird – ein „Erzeugen-Optimieren-Vorhersagen"-Zyklus.

Wettlauf mit der Zeit

Die Einsätze sind unterschiedlich: HIMAs Ökosystem ist breit abgesichert – selbst wenn der KI-Agent im Auto nicht ankommt, trägt der Rest des Geräteparks das Risiko. Li Auto hingegen setzt alles auf eine Karte: Der KI-Agent soll zur Kernmarke werden. Gelingt es nicht, den Nutzern einen messbaren Mehrwert zu bieten, drohen die Milliardeninvestitionen zu versanden. CEO Li Xiang hat mehrfach die Vision eines „automatisch ladenden und waschenden Roboters" beschworen – sein Flaggschiff L9 Livis wird zum Prüfstein.

Die entscheidende Frage ist der Zeitfaktor. Li Auto muss schnell eine unverwechselbare „Agent-Erfahrung" aufbauen, bevor HIMA seinen Ökosystemvorteil in Tiefe übersetzt. Gelingt das, könnte Li Auto in Nischen (z. B. extreme physische Interaktion) eine dauerhafte Nische besetzen. Scheitert der Zeitplan, nivelliert HIMAs Skaleneffekt den Vorsprung.

Li Auto prüft derzeit den Markteintritt in Europa, konkrete Pläne für das KI-System liegen noch nicht vor. HIMA ist bereits mit einigen Modellen (z. B. AITO) in ausgewählten EU-Ländern vertreten, plant aber keine schnelle Ausweitung der intelligenten Cockpit-Funktionen. Ein europäischer Launch beider Architekturen wird frühestens für 2026/2027 erwartet.

Li Auto StreamingClaw: <100 ms Latenz vs. HIMAs 500-TOPS-Ökosystem