F5. Wird "Harness Engineer" eine echte Berufsbezeichnung?

Anzeichen sind bereits da. Anthropic, OpenAI, Cursor und andere Agent-Bauer haben begonnen, Rollen wie "Agent Engineer," "Tool Designer" und "Context Engineer" auszuschreiben. Bis 2027 oder 2028 dürfte sich das als eigene, klar abgegrenzte Berufskategorie etablieren.

Was ist Harness Engineering? Die neue Disziplin der KI-Agenten-Ära

Q: F1. Brauchen wir Prompt Engineering also gar nicht mehr?

Falsch. Es bleibt essenziell — als eine Komponente innerhalb des Harness. Tool-Beschreibungen, System-Prompts, Fehlermeldungen — all das sind Flächen für Prompt-Design. Veraltet ist die Haltung &quot;Das fixe ich mit einem besseren Prompt.&quot;

Q: F2. Was ist der erste Schritt, um Harness Engineering zu lernen?

Nimm Claude Code oder Cursor und nutze es nicht nur — verändere sein Verhalten, indem du seine Konfiguration tweakst. Schreib eine CLAUDE.md / .cursor/rules. Probier Hooks aus. Bau einen Slash Command. Das ist Hands-on-Erfahrung damit, was ein Harness wirklich ist.

Q: F3. Sind Harnesses dasselbe wie Frameworks à la LangChain?

Nahe dran, aber nicht dasselbe. Ein Framework ist ein Implementierungs-Toolkit; ein Harness ist eine Design-Disziplin und Denkweise. LangChain, LlamaIndex, das Claude Agent SDK und Ähnliches sind Werkzeuge zum Bauen von Harnesses.

Q: F4. Eigenes Harness bauen oder ein bestehendes nutzen?

In den meisten Fällen reicht ein bestehendes Harness (Claude Code, Cursor usw.) plus Customizing. Eines von Grund auf zu bauen, ergibt nur Sinn bei Enterprise-Anforderungen, Nischendomänen oder extremer Kostenoptimierung.

Was ist Harness Engineering? Die Schicht um das LLM in der KI-Agenten-Ära gestalten

Inhaltsverzeichnis

1. Was ist Harness Engineering?
2. Harness Engineering vs. Prompt Engineering
3. Die 6 Komponenten eines Harness
4. Warum Harness Engineering, warum jetzt?
5. Eine praktische Harness-Design-Checkliste
6. Vergleich der wichtigsten Harnesses
7. Anti-Patterns
Zusammenfassung
FAQ

"Prompt Engineering ist tot" — dieser Refrain ging ab 2025 die Runde. An seine Stelle trat das Konzept des "Harness Engineering." Geprägt von Anthropic-Forschern und den Ingenieuren hinter Agenten wie Claude Code und Cursor, hat es sich rasch zu einer der zentralen Engineering-Disziplinen der KI-Agenten-Ära entwickelt.

Dieser Artikel erklärt, was Harness Engineering wirklich ist, wie es sich von Prompt Engineering unterscheidet, welche sechs Komponenten ein Harness ausmachen, eine praktische Design-Checkliste und konkrete Beispiele aus den führenden Tools von heute — die Grundlage, die du brauchst, wenn du es ernst meinst mit dem Einsatz oder Bau von KI-Agenten.

KONZEPTKARTE

Ein Harness = die 4 Schichten um das LLM

— wie ein Pferdegeschirr, das Geschirr, das ein starkes Tier auf dein Ziel ausrichtet

CORE — LLM

Die eigentliche Reasoning-Engine (Claude / GPT / Gemini). Prompts steuern ihr Verhalten.

HARNESS-SCHICHT

Tool-Definitionen, Kontextmanagement, Memory, Agent-Loop. Das Kern-Design, das entscheidet, was das LLM tatsächlich tut.

SAFETY-SCHICHT

Hooks, Sandbox, Berechtigungs-Limits, Approval-Modus. Blockiert physisch entgleitendes Verhalten und Schäden.

UX-SCHICHT

Markdown-Rendering, Quellenangaben, Streaming, sichtbares Reasoning. Ausgaben, denen Nutzer trauen und die sie verifizieren können.

Mit demselben LLM kann allein das Harness-Design Qualität und Sicherheit dramatisch verschieben.
Das ist das Schlachtfeld des "Harness Engineering" — eine brandneue Design-Disziplin.

1. Was ist Harness Engineering?

"Harness" bezeichnet ursprünglich das Geschirr und die Ausrüstung eines Pferdes — die Vorrichtung, die die Kraft des Tieres in die gewünschte Richtung lenkt. Der Begriff in der KI funktioniert genau als dieselbe Metapher: die gesamte Ausrüstung, die ein mächtiges, aber unbändiges LLM zu produktiver Arbeit bringt.

Konkret umfasst das:

Tools: Dateioperationen, Web-Suche, Code-Ausführung — die Mittel, mit denen das LLM handeln kann.
Kontextmanagement: die Strategie dafür, was in den Prompt kommt und was komprimiert oder verworfen wird.
Memory-Systeme: dauerhaftes Wissen und Nutzerpräferenzen, die Sessions überdauern.
Agent-Loop: der Zyklus aus Wahrnehmen → Denken → Handeln → Beobachten.
Guardrails: Berechtigungen, Sandbox, Hooks, Approval-Flows.
Output-Format: Markdown, JSON, Quellenangaben, Streaming.

All das gemeinsam zu entwerfen, nennen wir Harness Engineering. Statt das LLM selbst zu trainieren oder zu verbessern, ist es das Handwerk, den realen Nutzwert zu steigern, indem alles um das LLM herum gestaltet wird. Claude Code, Cursor, Devin, Codex CLI — sie alle laufen auf etwa denselben Modellen, doch ihr Verhalten und ihre Performance gehen scharf auseinander, weil sich ihre Harnesses unterscheiden.

2. Harness Engineering vs. Prompt Engineering

Prompt Engineering ist nicht verschwunden — aber der Geltungsbereich ist grundlegend anders.

Dimension	Prompt Engineering	Harness Engineering
Ziel	Eingabetext für eine einzelne Runde	Das gesamte System (Tools, Memory, Loop)
Hauptarbeit	Prompt-Wortlaut optimieren, Few-Shot-Beispiele auswählen	Tool-Design, Kontextstrategie, Loop-Design
Liefergegenstand	Text-Templates	Code, Konfiguration, Systemarchitektur
Erforderliche Fähigkeiten	Sprachgefühl, Intuition für LLM-Verhalten	Allgemeines Software Engineering
Wirkungsbereich	Qualität einer einzelnen Antwort	Erfolgsrate, Kosten und Sicherheit langer Aufgaben
Beispiel	"Denke Schritt für Schritt"	Ein Calculator-Tool definieren und das LLM aufrufen lassen

Wenn Prompt Engineering das Handwerk ist, "was man dem LLM sagt," dann ist Harness Engineering das Handwerk, "was man dem LLM gibt und wie man es betreibt." Die beiden konkurrieren nicht — sie sind geschichtet. Der Prompt ist nur eine Komponente innerhalb des Harness.

3. Die 6 Komponenten eines Harness

1. Tool Use

Die Mittel des LLM, auf die Welt einzuwirken: Dateien lesen und schreiben, Code ausführen, das Web durchsuchen, APIs aufrufen. Stimmt die Tool-Schnittstelle nicht — Namen, Argumente, Rückgabewerte —, kann das LLM sie nicht korrekt nutzen. Konkret:

Verb-basierte, eindeutige Namen (z. B. read_file).
Pflicht- vs. optionale Argumente klar trennen, mit Defaults.
Strukturierte Fehlermeldungen bei Fehlschlägen (sag dem Modell, was als Nächstes zu tun ist).
Explizite Warnungen bei Operationen mit Seiteneffekten (destruktiven Operationen).

2. Kontextmanagement

Die Aufmerksamkeit des LLM ist endlich — was du ihm zeigst, bestimmt, was es sagt. Konkret:

Relevanzfilterung: nur die für die Aufgabe relevanten Teile einspielen, nicht ganze Dateien.
Verdichtung: lange Konversationen zusammenfassen, um sie zu erhalten.
RAG-Integration: Bedarfsgerecht via Vektorsuche abrufen.
Caching: Kosten bei wiederholten System-Prompts mit Tools wie Anthropics Prompt-Cache senken.

Verwandt: Was ist RAG?

3. Memory-System

Wissen über Sessions hinweg vorhalten. Claude Codes CLAUDE.md, Cursors .cursor/rules und Codex' AGENTS.md sind alles Beispiele für Projekt-Memory. Darüber hinaus:

Kurzzeit-Memory: jüngste Konversationsverlauf.
Langzeit-Memory: Nutzerprofil, vergangene Entscheidungen.
Faktenwissen: domänenspezifische Wissensbasen.

4. Agent-Loop

Der Kern, der einen "KI-Agenten" tatsächlich funktionieren lässt. Die Grundform ist der Zyklus Wahrnehmen → Denken → Handeln → Beobachten:

Das Ziel des Nutzers entgegennehmen.
Den aktuellen Zustand analysieren (bei Bedarf Informationen mit Tools sammeln).
Die nächste Aktion planen.
Per Tool handeln.
Das Ergebnis beobachten; prüfen, ob das Ziel erreicht ist.
Wenn nicht, schleifen; wenn ja, beenden.

Wie schlau dein Agent wird, hängt davon ab, ob du Replanning, Selbstkritik und Subziel-Zerlegung einbaust.

5. Guardrails

Die Mechanismen, die entgleitendes Verhalten verhindern. Wie Warum KI deine .md-Regeln ignoriert erklärt, ist es weit zuverlässiger, Verhalten über die Umgebung zu erzwingen, als in Prosa höflich zu bitten:

Approval-Modus: gefährliche Operationen erfordern menschliche Bestätigung (z. B. Plan Mode in Claude Code).
Sandbox: Dateisystem- und Netzwerkzugriff einschränken.
Hooks: beliebige Prüfungen vor und nach Tool-Aufrufen.
Rate Limiting: Schaden minimieren, falls etwas aus dem Ruder läuft.

6. Output-UX

Ergebnisse in einer Form präsentieren, die der Nutzer verstehen und verifizieren kann. Markdown-Rendering, Quellenangaben, syntax-hervorgehobene Code-Blöcke, Streaming-Output, sichtbares Reasoning (Thinking), strukturierter Output (JSON) und so weiter. Die "richtige Antwort" zu produzieren reicht nicht — es ist die Aufgabe des Harness, sie in einer Form zu liefern, der der Nutzer trauen und die er prüfen kann.

4. Warum Harness Engineering, warum jetzt?

Drei Kräfte treiben den schubhaften Anstieg des Interesses an Harness-Arbeit.

1. Die Decke der reinen LLM-Fähigkeit ist in Sicht. Mit Modellen der GPT-5-Klasse, Claude Opus 4.7 und Gemini 3.1 Pro im Markt haben Benchmark-Zugewinne begonnen, sich zu verflachen. Die reale Performance eines fixen Modells kann je nach Harness um den Faktor 2 oder mehr schwanken — wir sind also in eine Ära eingetreten, in der der Harness-Wechsel mehr bringt als der Modell-Wechsel.

2. Probleme, die Prompts allein nicht lösen, häufen sich. "Zu viele Tools, das Modell wählt das falsche." "Der Kontext ist so vollgestopft, dass das wichtige Signal untergeht." "Bei langlaufenden Aufgaben verliert der Agent auf halber Strecke den Faden." Das sind keine Probleme, die du mit cleveren Formulierungen in einer einzigen Runde löst — es sind Design-Probleme.

3. Der Engpass für produktive KI-Agenten hat sich auf den Harness verlagert. 2024 war das Rennen, LLMs schlauer zu machen. 2025 bis 2026 ist das Rennen, Harnesses schlauer zu machen. Jedes große Produkt — Anthropics Claude Code, OpenAIs Codex, Cursor, Devin — konkurriert auf der Ebene des Harness Engineering.

5. Eine praktische Harness-Design-Checkliste

7 Checkpoints für ein gutes Harness

1. TOOL-DESIGN

Verben als Tool-Namen, explizite Argumente

Fehler kommen als strukturierte Meldungen zurück, die "tu als Nächstes dies" sagen.

2. KONTEXT

Nur Relevantes injizieren, dynamisch

Prompt-Cache plus RAG: genug zum Lesen, nie genug zum Ersticken.

3. MEMORY

Eine Single Source of Truth für persistentes Memory

CLAUDE.md / AGENTS.md kurz halten, Details in SPEC.md auslagern.

4. LOOP

Abbruchbedingungen explizit machen

Immer Max-Iterationen, Max-Tokens und ein Timeout setzen.

5. SAFETY

Destruktive Operationen mit Vorab-Approval

Hooks blockieren automatisch; die Sandbox begrenzt den Wirkungsradius.

6. OBSERVABILITY

Jeden Tool-Aufruf protokollieren

Nachvollziehbarkeit, damit du im Nachhinein rekonstruieren kannst, was passiert ist.

7. KOSTEN

Token-Ökonomie ins Design einplanen

Caching, Batch-APIs, Sub-Agents — halten die Monatskosten im Rahmen.

6. Vergleich der wichtigsten Harnesses

Design-Tendenzen der wichtigsten KI-Agenten-Harnesses

Claude Code

Anthropic

Stärken

Reichhaltige Hooks / Sub-Agents / Plan Mode / Slash Commands.

Memory

CLAUDE.md auf User- und Projektebene.

Sweet Spot

Komplexes Coding, langlaufende Aufgaben

Cursor

Anysphere

Stärken

IDE-Integration, Kontextauswahl per @-Mention.

Memory

.cursor/rules/*.mdc, angewandt über Glob-Patterns.

Sweet Spot

Interaktive Code-Edits, sofortiges Feedback

Codex CLI

OpenAI

Stärken

Umschaltbarer Approval-Modus, erzwungene Sandbox.

Memory

AGENTS.md (Modelle der GPT-5-Klasse vertragen längere Dateien).

Sweet Spot

CLI-Workflows, Code-Pipeline-Integration

Devin

Cognition

Stärken

Vollautonomer Agent mit Browser-, IDE- und Shell-Integration.

Memory

Proprietäres persistentes Memory plus ein Knowledge-Feature.

Sweet Spot

"Übergeben und gut" — End-to-End-Lieferung

Jeder dieser Harnesses läuft auf mehr oder weniger denselben LLMs (Claude / GPT / Gemini), dennoch divergieren ihre Stärken stark wegen unterschiedlicher Harness-Design-Philosophien. "Welcher Harness?" zählt mehr als "Welches LLM?" — das ist das eigentliche Schlachtfeld der Agenten-Ära.

7. Anti-Patterns

1. Zu viele Tools hinzufügen

Sobald du etwa 20 Tools überschreitest, schießt die Wahrscheinlichkeit, dass das LLM das falsche wählt, in die Höhe. Sei rigoros darin, nur die Tools zu behalten, die du wirklich brauchst, und ähnliche zusammenzufassen.

2. Alles in den Kontext stopfen

"Zeig ihm sicherheitshalber einfach alles" ist kontraproduktiv. Lass alles durch einen Relevanzfilter laufen und nimm nur Notwendiges auf. Kontext ist ein Werkzeug, das wichtige Signale hervorhebt — kein Lagerraum.

3. Sicherheit allein über Prompts umsetzen

"Bitte führe keine gefährlichen Operationen aus" wird je nach Situation früher oder später ignoriert. Die richtige Antwort ist, es auf Umgebungsebene physisch unmöglich zu machen — Sandbox, Hooks, Berechtigungs-Limits.

Zusammenfassung

Harness Engineering ist das Handwerk, die Schicht "außerhalb" des LLM zu gestalten. Prompt Engineering ist nur eine Komponente innerhalb des Harness. Die sechs Elemente bewusst zu behandeln — Tool-Definition, Kontextmanagement, Memory, Loop, Guardrails, Output-UX — kann die reale Performance desselben zugrundeliegenden LLM transformieren.

Stand 2026 hat sich das Hauptschlachtfeld für produktive KI-Agenten klar zum Harness verlagert. "Schlaue Harnesses" zu bauen — nicht nur "schlaue Prompts" zu schreiben — wird der Differenzierer für die nächste Generation von Engineers sein.

FAQ

F1. Brauchen wir Prompt Engineering also gar nicht mehr?

Falsch. Es bleibt essenziell — als eine Komponente innerhalb des Harness. Tool-Beschreibungen, System-Prompts, Fehlermeldungen — all das sind Flächen für Prompt-Design. Veraltet ist die Haltung "Das fixe ich mit einem besseren Prompt."

F2. Was ist der erste Schritt, um Harness Engineering zu lernen?

Nimm Claude Code oder Cursor und nutze es nicht nur — verändere sein Verhalten, indem du seine Konfiguration tweakst. Schreib eine CLAUDE.md / .cursor/rules. Probier Hooks aus. Bau einen Slash Command. Das ist Hands-on-Erfahrung damit, was ein Harness wirklich ist.

F3. Sind Harnesses dasselbe wie Frameworks à la LangChain?

Nahe dran, aber nicht dasselbe. Ein Framework ist ein Implementierungs-Toolkit; ein Harness ist eine Design-Disziplin und Denkweise. LangChain, LlamaIndex, das Claude Agent SDK und Ähnliches sind Werkzeuge zum Bauen von Harnesses.

F4. Eigenes Harness bauen oder ein bestehendes nutzen?

In den meisten Fällen reicht ein bestehendes Harness (Claude Code, Cursor usw.) plus Customizing. Eines von Grund auf zu bauen, ergibt nur Sinn bei Enterprise-Anforderungen, Nischendomänen oder extremer Kostenoptimierung.

F5. Wird "Harness Engineer" eine echte Berufsbezeichnung?

Anzeichen sind bereits da. Anthropic, OpenAI, Cursor und andere Agent-Bauer haben begonnen, Rollen wie "Agent Engineer," "Tool Designer" und "Context Engineer" auszuschreiben. Bis 2027 oder 2028 dürfte sich das als eigene, klar abgegrenzte Berufskategorie etablieren.

Was ist Harness Engineering? Die Schicht um das LLM in der KI-Agenten-Ära gestalten

Ein Harness = die 4 Schichten um das LLM

1. Was ist Harness Engineering?

2. Harness Engineering vs. Prompt Engineering

3. Die 6 Komponenten eines Harness

1. Tool Use

2. Kontextmanagement

3. Memory-System

4. Agent-Loop

5. Guardrails

6. Output-UX

4. Warum Harness Engineering, warum jetzt?

5. Eine praktische Harness-Design-Checkliste

7 Checkpoints für ein gutes Harness

6. Vergleich der wichtigsten Harnesses

Design-Tendenzen der wichtigsten KI-Agenten-Harnesses

7. Anti-Patterns

1. Zu viele Tools hinzufügen

2. Alles in den Kontext stopfen

3. Sicherheit allein über Prompts umsetzen

Zusammenfassung

FAQ

F1. Brauchen wir Prompt Engineering also gar nicht mehr?

F2. Was ist der erste Schritt, um Harness Engineering zu lernen?

F3. Sind Harnesses dasselbe wie Frameworks à la LangChain?

F4. Eigenes Harness bauen oder ein bestehendes nutzen?

F5. Wird "Harness Engineer" eine echte Berufsbezeichnung?

Ähnliche Artikel

Die 3 Modi von Claude: Chat, Cowork und Code — Vollständiger Vergleich und Nutzungstipps

Was ist das Claude Agent SDK? Komplettanleitung zur KI-Agenten-Entwicklung

Wissensstichtage generativer KI im Vergleich [2026] ChatGPT, Claude, Gemini & mehr

Claude vs ChatGPT Preisvergleich 2026 - Kostenlose und kostenpflichtige Pläne bis hin zu API-Preisen

Kommentare

Kommentar hinterlassen