(g+) KI-Programmierung: Claude Code, Codex und Cursor im Realitätscheck
Drei Coding-Agenten lösen dieselben Aufgaben in einem echten Repository. Der Test zeigt, warum grüne Checks noch keinen fertigen Pull Request ergeben. Ein Praxistest von Bastian Gruber ( Softwareentwicklung , KI )
Chatfenster waren der erste Berührungspunkt vieler Entwickler mit großen Sprachmodellen. Man kopierte eine Fehlermeldung hinein, bekam eine Erklärung zurück, ließ sich eine Funktion skizzieren und übernahm die brauchbaren Teile per Hand. Für ernsthafte Entwicklungsarbeit ist dieser Modus inzwischen umständlich. Code entsteht im Repository: mit Dateien, Tests, Builds, Linter-Regeln und alten Entscheidungen, die in keinem Prompt vollständig stehen. Darum rücken Large Language Models, kurz LLMs, näher an die Entwicklungsumgebung. Claude Code, Codex und Cursor gehören zu einer neuen Klasse von Werkzeugen, die nicht nur Antworten geben, sondern Änderungen im Projekt vornehmen können.
Entwickler beschreiben dann keine einzelne Funktion mehr, sondern eine Aufgabe im Kontext des Repositories: Reproduziere den Fehler, schreibe einen Test, ändere den Code und prüfe das Ergebnis. Für die tägliche Arbeit ist daher weniger interessant, welches Modell auf einer Rangliste vorne liegt. Wichtiger ist, was in einer echten Codebasis passiert. Liefert der Agent einen brauchbaren Pull Request? Erkennt er bestehende Architekturgrenzen? Bleibt der Patch überprüfbar? Und wie viel menschliches Review ist nötig, bevor aus dem Ergebnis produktionsnaher Code wird? Um das zu prüfen, habe ich drei Werkzeuge auf dieselben Aufgaben in Workledger(öffnet im neuen Fenster) angesetzt, einem meiner Open-Source-Projekte.
📌 Kaynak
Bu özet Golem kaynağından otomatik derlenmiştir. Tamamı için orijinal habere gidin.
Orijinal haberi oku →