Leaders of AI – Loop 2025 in München

Zusammenfassung (Marco Casalaina)

Am 21. November 2025 hielt Marco Casalaina einen 30-minütigen Vortrag bei Leaders of AI über kurzfristige KI-Schnittstellen und Multi-Agenten-Systeme. Er präsentierte Microsofts Echtzeitübersetzung in Teams (veröffentlicht im Mai), demonstrierte einen Videoübersetzer mit Stimmerhaltung und Lippensynchronisation für viele Sprachen und stellte Omni-Modelle wie GPT-Realtime vor, die direkte Audio-In/Audio-Out-Verbindungen ohne Text-Zwischenschritte ermöglichen. Er präsentierte Hera.space, eine interaktive KI-Raumschiff-Schnittstelle, die mit der Hera-Mission der ESA nach dem DART-Einschlag der NASA auf dem Dimorphos-Asteroiden verbunden ist, und veranschaulichte reichhaltige, multimodale Mensch-KI-Interaktionen mit Gedächtnis und sprachlicher Anpassungsfähigkeit. Anschließend erläuterte er praktische Multi-Agenten-Workflows für Analystenbeziehungen und KI-gestützte Softwareentwicklung, einschließlich Maker-Checker-Muster, Link-Validierung, strukturierter Vibe-Codierung, SpecKit-gesteuerter Spezifikationsverfeinerung, GitHub Copilot Multi-Agenten-Codierung über Aufgaben-Zuweisung und Pull-Requests sowie wichtige operative Überlegungen: Aufgaben-Zuweisung, menschliche Überprüfung und Konfliktlösung.

🔖 Wissenspunkte

1. Echtzeit- und Videoübersetzung in der KI

  • Videoübersetzer (Microsoft)
    • Übersetzt die Stimme eines Sprechers in zahlreiche Sprachen (Beispiele: Deutsch, Amharisch, Arabisch, Baskisch, Finnisch), wobei die Stimmfarbe des Sprechers erhalten bleibt und Lippensynchronisation zur übersetzten Sprache hinzugefügt wird.
    • Das Originalvideo war auf Englisch; die Demo-Ausgabe war auf Österreichisch-Deutsch (mit leichtem Akzent). Verarbeitet mehrere Sprecher, Musik und Hintergrundgeräusche durch Segmentierung der Stimmen.
    • Seit über einem Jahr verfügbar; „flog unter dem Radar“ trotz breiter Funktionalität.
  • Echtzeitübersetzung in Microsoft Teams
    • Integrierte Dolmetscher-API in Teams, die auch eigenständig verwendet werden kann und in Contact Centern eingesetzt wird. Ahmt die Stimme jedes Teilnehmers bei der Übersetzung nach (z.B. Vanya und Helena).
    • Benutzer stellen ihre bevorzugte Sprache ein; das System führt eine automatische Spracherkennung (Auto-Language ID) für andere ohne Vorkonfiguration durch. Die aktuelle automatische Spracherkennung unterstützt etwa 76 Sprachen, mit Demos in Swahili, Slowenisch, Rumänisch, Urdu und mehr.
    • Die durchschnittliche Verzögerung beträgt 3,95 Sekunden, was der von erfahrenen menschlichen Simultandolmetschern entspricht; die Verzögerung entsteht durch Sprachstrukturen (z.B. Verben am Satzende in Sprachen wie Deutsch, Niederländisch, Hindi), die den Abschluss des Satzes vor einer genauen Übersetzung erfordern.
    • Die Genauigkeit liegt zwischen 80–85 %, variierend je nach Sprachpaar; germanische Sprachen und Englisch funktionieren aufgrund gemeinsamer Wurzeln gut.
    • Im Mai veröffentlicht; viele Benutzer wissen möglicherweise nicht, dass es verfügbar ist. Hilfreich für internationale Geschäftsbeziehungen (Japan, Korea).

2. Omni-Modelle und Sprachmodus-Schnittstellen

  • Omni-Modell-Architektur (z.B. GPT-Realtime)
    • Direkte Audio-Eingabe/-Ausgabe an das Modell ohne „Sandwich“ aus Spracherkennung und Text-to-Speech. Dies reduziert Transkriptionsfehler und führt zu einer natürlicheren Sprachausgabe im Vergleich zu typischen TTS-Systemen.
    • Im Vergleich zu traditionellen Assistenten (z.B. Siri in iOS-Versionen 18 und 26) vermeiden Omni-Modelle die roboterhafte Sprache, die durch reine Textverarbeitung und TTS-Rendering verursacht wird.
    • Dasselbe Modell treibt den Sprachmodus in M365 Copilot an und ähnelt den Sprachmodi in ChatGPT+. Aktuelle Sprachmodi fungieren oft als Voice-Bots; zukünftige Systeme werden sich über reinen Chat hinaus zu reichhaltigeren, interaktiven Erlebnissen entwickeln.

3. Reichhaltige, interaktive KI-Schnittstellen: Hera.space und Weltraummissionskontext

  • ESA Hera Mission und NASA DART Hintergrund
    • Die NASA startete DART im Jahr 2021 und erfüllte ihre Mission im Jahr 2023, indem sie in den Dimorphos-Asteroiden einschlug, um die Ablenkung zu testen.
    • Das Hera-Raumschiff der ESA ist auf dem Weg zum Dimorphos-Didymos-System, um zu messen, wie weit Dimorphos durch den DART-Einschlag verschoben wurde.
    • Motivation: Ein Asteroid wird voraussichtlich 2029 auf die Erde zusteuern, mit einer geschätzten 1%igen Einschlagswahrscheinlichkeit, und ein weiterer steuert 2032 auf den Mond zu, mit einer 4%igen Wahrscheinlichkeit eines Mondaufpralls. Ziel ist es, die erforderliche Aufprallkraft zu bestimmen, um solche Asteroiden abzulenken.
  • Hera.space Interaktive KI-Schnittstelle
    • Demonstriert einen vollständig interaktiven KI-Agenten, der dasselbe GPT-Modell verwendet, nicht nur einen Chatbot oder Voice-Bot. Reagiert mit multimodalen Ausgaben (Orbitalvisualisierungen, Grafiken, Videos, Bilder) auf Fragen (z.B. aktuelle Position ~488 Millionen Kilometer von der Erde; Raumschifftemperatur; Startvideo).
    • Die Echtzeit-Sprachschnittstelle befindet sich im Pilotbetrieb; die Textinteraktion ist öffentlich zugänglich. Das Gedächtnis ermöglicht Personalisierung: Es merkt sich Sprachpräferenzen (z.B. Deutsch) und Benutzerattribute (z.B. ein Kind, das sagt „Ich bin sechs“ und Deutsch spricht) und passt Ton und Komplexität entsprechend in nachfolgenden Sitzungen an.
    • Veranschaulicht zukünftige „Meeting-ähnliche“ Schnittstellen, bei denen die Interaktion einer Teams-/Zoom-Sitzung mit einem KI-Agenten ähnelt, mit super-unterbrechbarem Verhalten und mehrsprachiger Unterstützung. Aktuelle Einschränkungen umfassen Latenz und Ladezeiten des Bildschirms.

4. M365 Copilot und Agenten als KI-Frontends

  • M365 Copilot Integration
    • Copilot kennt Benutzerpläne und E-Mails; kann Fragen zu aktuellen Verpflichtungen beantworten (z.B. Dauer der Leaders of AI Keynote: 30 Minuten, während der Sitzung geklärt).
    • Neues Paradigma: Agenten „an der Seite“ werden zum Frontend der KI, einschließlich integrierter, Drittanbieter- und selbst entwickelter Agenten. Der Vortrag kürzte die tiefere Abdeckung von Copilot-Agenten aus Zeitgründen ab.

5. Multi-Agenten-Systeme: Entwurfsmuster und praktische Anwendung

  • Maker–Checker–Link Checker Muster
    • Ursprüngliches System für Analystenbeziehungen: Ein Fragebeantworter entwirft Antworten; ein Antwortprüfer validiert und kann Ablehnungen/Neuschreibungen erzwingen; ein Linkprüfer überprüft Referenzen. Prüfer können sich hin und her streiten, bis sie zufrieden sind.
  • Skalierung auf Teams von Teams über Tabellenkalkulationen hinweg
    • Die dritte Version akzeptiert eine ganze Tabelle, startet drei separate Agenten-Teams, die Zelle für Zelle arbeiten. Jedes Team durchläuft Schritte (Antwortprüfung, Linkprüfung) und fährt mit der nächsten Zelle fort, bis die Aufgabe abgeschlossen ist.
    • Die Live-Excel-Visualisierung zeigt das Echtzeit-Ausfüllen von Zellen und den Fortschritt des Status.
  • Strukturierte Vibe-Codierung und SpecKit
    • Der Codierungs-Workflow beginnt mit gut strukturierten Spezifikationen. SpecKit (kostenlos, Open Source; über 50.000 GitHub-Sterne) integriert sich mit GitHub Copilot, Cloud Code, Cursor usw., um Spezifikationen zu verfeinern, indem es Klärungsfragen und Randfälle stellt (z.B. Umgang mit übermäßig langem Feedback, das Grenzen überschreitet, mit Multiple-Choice-Optionen).
    • SpecKit erstellt eine Spezifikation mit einem Klärungsabschnitt, der aus Fragen und Antworten abgeleitete Entscheidungen enthält, und bietet Dokumentation und Vollständigkeit für die nachfolgende Codierung durch KI-Agenten.
  • GitHub Copilot Multi-Agenten-Codierung über Issues und Pull Requests
    • Weist mehrere GitHub-Issues (mit Copilot-Symbolen) direkt Copilot zu; es startet separate Codierungs-Agenten pro Issue, die jeweils in einem eigenen Branch arbeiten und Pull-Requests (PRs) öffnen.
    • Beispiel: UI-Änderung von Tabellenkalkulations-Tabs von oben nach unten und linksbündig. Copilot iterierte nach Feedback (Tabs waren ursprünglich falsch zentriert) und erstellte korrigierte PRs. Mehrere Issues können parallel bearbeitet werden; die menschliche Überprüfung akzeptiert oder fordert Änderungen an.
  • Operative Überlegungen zur Multi-Agenten-Orchestrierung
    • Aufgaben-Zuweisung: Definieren Sie orthogonale Arbeitseinheiten (z.B. einzelne Tabellenkalkulationszellen; separate Codierungs-Issues), um sie über Agenten/Teams zu parallelisieren.
    • Menschliche Überprüfung: Etablieren Sie Überprüfungsmechanismen, die für den Bereich geeignet sind (PRs für Code; Antwortspalten für Tabellenkalkulationen; angepasste Workflows für SAP, ServiceNow, Salesforce usw.).
    • Konfliktlösung: Antizipieren Sie Agentenkonflikte (z.B. PRs, die dieselben Codezeilen bearbeiten und Merge-Konflikte verursachen). Wählen Sie Designs, die Konflikte minimieren (orthogonale Zellen) oder implementieren Sie eine vom Manager vermittelte Lösung für Code und andere Bereiche.

6. Geschäfts- und praktische Hinweise

  • Akzeptanz und Bekanntheit
    • Einige Microsoft-Funktionen (Teams-Echtzeitübersetzung, Videoübersetzer) waren verfügbar, wurden aber aufgrund begrenzter Sichtbarkeit zu wenig genutzt.
    • Die Echtzeitübersetzung ist besonders vorteilhaft für internationale Geschäftsinteraktionen (Japan, Korea).
  • Persönliche und kulturelle Anekdoten
    • Marcos Vorliebe für Currywurst in Karlsruhe und sein Interesse, goldumwickelte Currywurst in Berlin zu probieren.
    • Geteilte Leidenschaft für deutsches Soulfood mit dem Gastgeber; humorvolle Sprachinteraktion mit dem KI-Agenten, einschließlich bayerischem Dialekt und Witzen, über die er selbst lacht.