MCP-Aggregator: 3-4x mehr Concurrent Users auf gleicher KI-Hardware
Wenn ein lokales KI-Modell auf dutzende Unternehmenssysteme zugreifen soll, geht die Hardware oft schon bei wenigen gleichzeitigen Nutzern in die Knie. Das Problem ist nicht das Modell selbst, sondern die Art, wie wir ihm Werkzeuge bereitstellen.
Das Token-Problem bei Systemanbindungen
Ich habe festgestellt, dass bei klassischen Tool-Use-Setups bei jedem Aufruf die komplette Anleitung für alle angebundenen Werkzeuge an das Sprachmodell geschickt wird. Bei 50 Funktionen – vom CRM bis zum internen Dokumentenarchiv – sind das schnell 10.000 Tokens Overhead pro Anfrage. Während das in der Cloud "nur" Geld kostet, verbraucht es bei lokalen KI-Modellen massiv Arbeitsspeicher. Rund 5 GB VRAM gehen pro aktiver Sitzung allein für diese Werkzeugbeschreibungen im KV-Cache verloren. Die teure Hardware ist blockiert, bevor die eigentliche Frage des Nutzers überhaupt verarbeitet wird.
Die Lösung: Ein Meta-Werkzeug-Layer
Die Lösung liegt in einem Architekturmuster, das ich über einen eigenen Aggregator-Layer (in Node.js) implementiert habe. Statt dem Modell alle 50 Werkzeuge im Detail zu erklären, bekommt es standardmäßig nur drei Meta-Werkzeuge in die Hand: „Zeige alle verfügbaren Werkzeuge“, „Lade die Spezifikation für Werkzeug X“ und „Führe Werkzeug X aus“. Das Modell lädt die umfangreiche Anleitung also erst nach, wenn es entscheidet, dass es ein spezifisches System für die aktuelle Aufgabe wirklich braucht.
Der Overhead sinkt dadurch von 10.000 auf rund 600 Tokens. Das Ergebnis ist strukturell: Auf exakt derselben Hardware können plötzlich drei- bis viermal so viele Nutzer parallel arbeiten. Die Zeit bis zum ersten generierten Wort sinkt von 800 auf 150 Millisekunden. Als Bonus speichert der Layer jeden Werkzeug-Aufruf in einer lokalen Datenbank – ideal für ein sauberes Audit-Protokoll und Nutzungsanalysen.
Zum Mitnehmen für das eigene Setup: * Dynamisches Nachladen: Übergebe KI-Modellen nicht alle API-Spezifikationen auf einmal. Nutze Meta-Werkzeuge, um den Kontext-Window schlank zu halten. * VRAM-Optimierung: Hardware-Engpässe bei lokalen Modellen lassen sich oft durch effizienteres Kontext-Management lösen, bevor neue GPUs nötig werden. * Zentrale Kontrolle: Ein vorgeschalteter Aggregator-Layer macht nicht nur Tokens berechenbar, sondern bündelt auch Logging, Caching und Rechte-Management für alle angebundenen Systeme.