Zum Inhalt springen
Themen

Einsteiger

Neu bei KI? Starten Sie hier. Einsteigerfreundliche Anleitungen zu KI-Konzepten und ersten Schritten.

115 Artikel

Sortieren Sie Artikel, um das Gewünschte zu finden

Was ist AGI (Artificial General Intelligence)? Ein einsteigerfreundlicher Leitfaden

Was ist AGI (Artificial General Intelligence)? Ein einsteigerfreundlicher Leitfaden

In Davos im Januar 2026 prallten die führenden Köpfe des Fachs über „AGI steht unmittelbar bevor" vs. „der Kern ist noch weit entfernt" aufeinander — und die Lunte war AGI (Artificial General Intelligence). Dieser einsteigerfreundliche Artikel beginnt damit, was AGI ist — „eine Allzweck-KI, die wie ein Mensch sogar völlig neue Dinge eigenständig über jedes Feld hinweg erlernen und lösen kann" (wenngleich Stand 2026 ein noch nicht verwirklichtes Ziel) — und behandelt dann den entscheidenden Unterschied zur heutigen KI im ChatGPT-Stil (kann sie Wissen auf ein anderes Feld „transferieren"; Generalisierung und autonomer Fähigkeitserwerb), die Drei-Stufen-Gliederung Narrow AI → AGI → ASI (Superintelligenz), die weite Streuung der Experten-Zeithorizonte (Anthropics Amodei optimistisch mit innerhalb weniger Jahre/um 2027, DeepMinds Hassabis vorsichtig mit ~50 % bis 2030, ein Forscher-Umfrage-Median von 2047, Skeptiker wie Marcus, die sagen, es sei fern oder komme nicht — die Streuung entspringt unterschiedlichen Definitionen), wie nah die heutige KI ist (unter der menschlichen Grundlinie bei ARC-AGI, aber via Multimodal und Agenten an der Schwelle), die Hoffnungen (Beschleunigung von Krankheit und Wissenschaft) und Risiken (Jobs, Missbrauch, das Alignment-Problem — von Anthropic und UK AISI als kritischer Entscheidungspunkt verortet) sowie gängige Mythen wie „ChatGPT ist bereits AGI" und „AGI = hat Bewusstsein". Weder übermäßig ängstlich noch übermäßig träumend, meistern Sie die Narrow AI in der Hand, während Sie ruhig beobachten, was als Nächstes kommt.

Spitzen-KI-Ingenieur werden (AI-native Developer): Fähigkeiten & Roadmap

Spitzen-KI-Ingenieur werden (AI-native Developer): Fähigkeiten & Roadmap

Stehst du auf der Seite, der die KI den Job wegnimmt, oder auf der Seite, die die KI nutzt, um die Arbeit von zehn Leuten zu erledigen? 2026 ist das die Weggabelung für Entwickler. Dieser Artikel rahmt das Werden eines „AI-native Developers" (Apps mit LLMs, Agenten, RAG bauen — zu unterscheiden vom Erforschen der Modelle) als baubaren Fähigkeits-Stapel, nicht als Doktortitel, in drei Ebenen: ① das unveränderliche Fundament (Python als Hauptsprache der KI-Entwicklung, Git, Kommandozeile, HTTP/REST/JSON — Grundlagen braucht man auch im Zeitalter KI-geschriebenen Codes); ② die 5 zentralen AI-native Fähigkeiten (Prompt-/Kontext-Design, RAG als Rückgrat von Enterprise-Agenten, Agenten bauen, MCP als De-facto-Standard der Tool-Anbindung und Eval-Design — plus Kostenoptimierung, Guardrails, Beobachtbarkeit); ③ der Vorsprung, den die meisten übersehen — Eval-Design und Context Engineering (Evals schreiben zu können ist das stärkste Signal für „wirklich mit LLMs gebaut", und eine AGENTS.md/CLAUDE.md plus ein kleines Eval-Set ist der Sprung von „unterstützt" zu „native"). Hinzu kommen eine 8–12-Monats-Roadmap (Fundament → LLM-API/Prompting → RAG ohne Frameworks bauen → Agenten + MCP → Evals + Deployment + Veröffentlichung), eine Portfolio-Strategie, bei der deployte Arbeit ein Diplom schlägt, Fallstricke (Tutorial-Sumpf, Tool-Sammelwut, vernachlässigte Grundlagen) und Markt-/Nachfragezahlen (US-basiert, große regionale Variation). Die Grenze ist, ob du die KI als System nutzt.

Wie KI Marketing und Werbung verändert: Was sich ändert, was nicht

Wie KI Marketing und Werbung verändert: Was sich ändert, was nicht

Als Coca-Colas Weihnachtsspot mit generativer KI Ende 2024 als „seelenlos“ verrissen wurde, symbolisierte das KIs Tauziehen im Marketing: „Effizienz und Wirkung“ gegen „Vertrauen und Emotion“. Dieser Artikel beleuchtet das Thema und misst zunächst den Status quo in Zahlen (rund 87 % der Marketer nutzen generative KI, gegenüber 51 % im Jahr 2024; über 71 % der Werbeausgaben algorithmisch gesteuert; Google erstellte allein in Q4 2025 rund 70 Millionen Creative-Assets mit Gemini; die Ausgaben für Marketing-KI-Tools haben sich in 18 Monaten in etwa verdreifacht). Er behandelt die fünf Bereiche, die KI verändert (① Content-Erstellung ② Werbe-Creatives ③ Targeting & Auslieferung / Programmatic ④ Personalisierung / DCO ⑤ Analyse & Messung) und berichtete Effekte (DCO mit ~32 % höherer CTR und ~56 % niedrigerer CPC, KI-Copy mit 3,2× ROI, First-Party-/kontextbezogenes Targeting bis zu 2× ROAS — alle veröffentlicht, bedingungsabhängig); den Kern, der sich nicht ändert (Strategie, Marke, Vertrauen, bahnbrechende Kreativität bleiben beim Menschen — KI ist ein Verstärker, ist die Basis null, ist es auch die Antwort); den seismischen SEO/AEO/LLMO-Umbruch (mit internen Links); Risiken (die Wahrnehmungslücke von 82 % Verantwortlichen vs. 45 % Verbrauchern bei KI-Anzeigen, plausible Erfindung, Brand Safety, Rechte/Regulierung, außer Kontrolle geratener unbeaufsichtigter Betrieb); wie sich der Job der Marketer verschiebt (Aufgaben übernommen, Urteilen schwerer; vom Produzenten zum Chefredakteur und Strategen); und einen Fünf-Schritte-Praxisplan für heute. KIs größter Einfluss ist, menschliche Zeit vom Tun zum Entscheiden zu befreien.

Präsentationsfolien mit KI erstellen: Tools, Workflow und Prompts

Präsentationsfolien mit KI erstellen: Tools, Workflow und Prompts

Deine Präsentation steht gleich morgen früh an und deine Folien sind immer noch leer — doch tippe eine Zeile Thema ein und wenige Minuten später sind 20 Entwurfsfolien aufgereiht. Das sind KI-Folien 2026. Dieser Leitfaden teilt die Folienerstellung in drei Phasen (Struktur, Skript, Design) und stellt zwei Ansätze vor: Generierung aus einer Hand (Thema werfen, alles bekommen) vs. Arbeitsteilung (Struktur und Skript in ChatGPT/Claude/Gemini festzurren, dann ein spezialisiertes Tool gestalten lassen). Er vergleicht die wichtigsten Tools (schnell generierendes Gamma, natives .pptx-und-kein-Bruch-Copilot in PowerPoint, kollaborationsstarkes Gemini für Google Slides, am besten aussehendes Beautiful.ai, vorlagenreiches Canva, das im Mai 2026 gestartete ChatGPT-PowerPoint-Add-in — kein absoluter Champion; wähle nach dem Ausgang), den am besten wiederholbaren 5-Schritte-Workflow (Struktur → Skript → in ein Design-Tool gießen → Zahlen und Quellen prüfen → Export nach .pptx/Slides), drei Prompts zum Kopieren und Einfügen (Gliederung, Folie ausarbeiten mit Sprechernotizen, für ein Design-Tool umformatieren), sechs Tipps für Folien, die ankommen (eine Botschaft pro Folie, Text halbieren und mehr), und Fallstricke — .pptx-Layout-Bruch, ein überladener erster Entwurf, plausibel erfundene Daten, das Senden von Vertraulichem und Tool-Einstellungen (Tomes Folien-Aus im April 2025 als Lektion). KI ist der Partner, der in einem Augenblick einen Entwurf liefert; das Kürzen und Prüfen ist die Aufgabe des Menschen.

Text aus Bildern mit KI extrahieren (OCR): Der komplette Leitfaden

Text aus Bildern mit KI extrahieren (OCR): Der komplette Leitfaden

Eine handschriftliche Notiz, ein Papierbeleg, englischer Text in einem Screenshot, ein Schild auf einem Foto — das Abtippen, das Sie immer von Hand erledigt haben, ist 2026 dank KI fast völlig unnötig. Dieser Leitfaden beginnt damit, wie sich KI-OCR von herkömmlicher OCR unterscheidet (Zeichen für Zeichen lesen vs. die ganze Seite nach Bedeutung verstehen), und sortiert dann drei Optionen (allgemeine Chat-KI / spezialisierte Tools wie Google Lens / APIs und OSS wie Mistral OCR und PaddleOCR-VL) nach Anwendungsfall. Er vergleicht ChatGPT (GPT-5.5), Gemini 3.1 Pro und Claude (Opus 4.8) nach Stärke (Handschrift → GPT-Familie, Tabellenstrukturierung → Claude-Familie, viele Seiten → Geminis langer Kontext, reine OCR → spezialisierte Modelle; es gibt keinen absoluten Champion), gibt drei Copy-paste-Prompts (transkribieren ohne Bruch, Tabelle zu Markdown, Beleg zu JSON, alle mit einer "nicht erfinden"-Regel), die beste Wahl je Fall (Handschrift, Belege, PDFs, komplexe Tabellen, vertikaler/alter Text, Formeln und Code), sechs Genauigkeitstipps mit der Bildqualität als 80 % des Ergebnisses und die eine größte Schwäche der KI-OCR — plausibel zu erfinden, was sie nicht lesen kann (Beträge, Daten und Namen immer mit dem Original abgleichen) — sowie Datenschutzhinweise zum vertraulichen Versand, Urheberrecht und zur Trainingsnutzung. Was Sie der KI überlassen dürfen, ist nur das "Lesen"; die Bestätigung obliegt dem Menschen, der das Original gesehen hat.

Vektor-DB / RAG-Implementierungsleitfaden — von naivem RAG zum Produktivbetrieb

Vektor-DB / RAG-Implementierungsleitfaden — von naivem RAG zum Produktivbetrieb

Sie wissen, „was RAG ist", doch beim Bauen kommt die Antwort schief heraus — weil es noch naives RAG ist: achtlos zerstückeln und eine einfache Vektorsuche durchführen. Als Implementierungs-Fortsetzung zu Artikel 030 erklärt dieser Beitrag die praxistaugliche RAG-Pipeline von 2026 (intelligentes Chunking, Embedding, Vektor-DB, hybride Suche, Reranking) Stufe für Stufe: Chunking-Strategien (recursive 512 als Standard, semantic/structural/parent-child, Contextual Retrieval senkt Retrieval-Fehler Berichten zufolge um bis zu 67%), Auswahl eines Embedding-Modells (text-embedding-3-large usw.), ein Vergleich von sechs Vektor-DBs (Chroma fürs Prototyping, pgvector mit Postgres, niedrig-latentes Qdrant, vollständig verwaltetes Pinecone, Hybrid-Champion Weaviate, großskaliges Milvus), hybride Suche, die BM25 + dichte Vektoren mit RRF verschmilzt, retrieve-then-rerank mit bi-encoder und dann cross-encoder (Cohere/Voyage/BGE/Jina), die Aufteilung LlamaIndex (Retrieval) vs. LangChain/LangGraph (Steuerung), warum ein 1M-Token-Fenster RAG nicht ersetzt (lost in the middle, Ablenkung) und Hinweise für den Produktivbetrieb wie zuerst eine Evaluations-Menge aufzubauen.

Wie man einen KI-Agenten baut — ein Anfänger-Guide (No-Code und Code)

Wie man einen KI-Agenten baut — ein Anfänger-Guide (No-Code und Code)

Du weißt, „was ein KI-Agent ist“ — aber wie baust du selbst einen? 2026 lässt dich No-Code per Drag-and-drop an einem Nachmittag einen funktionierenden Agenten zum Laufen bringen, und moderne SDKs lassen dich einen praktischen in unter 100 Zeilen zusammenbauen. Als praktische Ergänzung zu „was ein KI-Agent ist“ behandelt dieser Artikel die Anatomie (Gehirn-LLM + Anweisungen + Tools + Gedächtnis + autonome Schleife), die zwei Wege (No-Code vs. Code), das universelle 5-Schritte-Bau-Framework (Problem eingrenzen, Basis wählen, Anweisungen schreiben, Tools anbinden, klein testen), einen No-Code-Tool-Vergleich (Dify als komplette Plattform, n8n für Geschäftsintegration, Flowise fürs Prototyping und die einfachsten Custom GPT/Gemini Gems/Claude Projects), einen Code-Framework-Vergleich (solides Claude Agent SDK/OpenAI Agents SDK, komplex steuerndes LangGraph, rollenkoordinierendes CrewAI), ein konkretes durchgerechnetes Beispiel (Support-E-Mail zusammenfassen und dann in Slack benachrichtigen), Kosten (~$10-$50/Monat Plattform plus Modellnutzung) und Zeitrahmen sowie Stolpersteine (den Umfang nicht überdehnen, Berechtigungen und Kontrolle über Ausreißer, Vorsicht vor „nur PoC“). Für die meisten Menschen ist es der richtige Schritt, zuerst einen mit No-Code zu bauen.

ChatGPT vs Claude vs Gemini — welches nach Anwendungsfall wählen

ChatGPT vs Claude vs Gemini — welches nach Anwendungsfall wählen

„ChatGPT, Claude oder Gemini — welches soll ich abonnieren?“ Im Jahr 2026 kosten alle drei rund $20/Monat und sind alle erstklassig, es gibt also kein einzelnes „dieses gewinnt“. Die richtige Frage lautet „welches ist das beste für Ihren Anwendungsfall“. Auf Basis des quellenübergreifenden Konsenses behandelt dieser Artikel die Grundlagen (Anbieter, Hauptmodellfamilie, kostenlose/Standard-/Premium-Preise), die Unterschiede im Charakter (Claude = Handwerker fürs Schreiben/Analyse/Code, ChatGPT = vielseitiger Allrounder mit Ökosystem und Bild/Sprache, Gemini = multimodal, langer Kontext, Google-Integration), eine detaillierte Tabelle nach Anwendungsfall (Schreiben, Code, allgemein, Bildgenerierung, Sprache, Verständnis von Bild/PDF/Video, sehr lange Texte, Google-Integration, Recherche, Japanisch), wie man einen Tarif nach Nutzungsvolumen wählt, und die clevere Zwei-Tool-Kombination, wenn man sich nicht entscheiden kann (ein Kern + eines, um die Lücken zu füllen). Rankings wechseln alle paar Monate, statt einem festen „besten“ nachzujagen, nutzen Sie also jedes nach seiner Stärke und messen Sie an Ihren eigenen Aufgaben mit dem kostenlosen Tarif.

Häufige Claude-Code-Fehler und ihre Lösungen — Die vollständige Referenz

Häufige Claude-Code-Fehler und ihre Lösungen — Die vollständige Referenz

Claude Code bricht plötzlich ab mit „melde dich neu an", „Rate-Limit", „Prompt ist zu lang", „MCP verbindet sich nicht" — und jeden Fehler einzeln zu googeln wird mühsam. Dies ist eine praxisnahe Referenz, die die häufigen Fehler katalogisiert, jeweils mit Ursache und dem auszuführenden Befehl. Sie beginnt mit den drei Diagnosebefehlen, die man zuerst ausführt (claude doctor für die Volldiagnose, /status für die aktive Authentifizierung, /context für die Kontext-Aufschlüsselung), und konzentriert sich dann auf die vier häufigen Familien (Nutzung/Rate-Limits, Kontext-Überlauf, abgelaufene Authentifizierung, MCP-Verbindungsfehler) mit Symptom→Ursache→Lösungsbefehl-Tabellen zu Authentifizierung und Login, Nutzung/Rate-Limits (Claude Code verbraucht das 10- bis 100-Fache der Tokens eines Chats), Kontext und Tokens (Prompt zu lang, Compaction-Thrashing), Server und Modell (500/529/Timeout/model not found), Installation/PATH/Update, Netzwerk und Proxy (ECONNREFUSED, TLS), MCP, Berechtigungen (Deny schlägt Bypass) und Sonstiges (thinking blocks 400, Bild/PDF, IDE). Sie endet mit einem Spickzettel Fehler→Lösung und einer FAQ. Basierend auf der offiziellen Claude-Code-Doku (Stand 2026): bei Problemen die drei Diagnosebefehle ausführen, und wenn es nicht behoben ist, claude update ausführen.

Meeting-Protokolle und Transkription mit KI automatisieren

Meeting-Protokolle und Transkription mit KI automatisieren

Verbringen Sie immer noch ein bis zwei Stunden pro Woche damit, Protokolle von Hand aus einer Aufnahme zu tippen? Im Jahr 2026 lässt sich das meiste davon automatisieren. Dieser Leitfaden gliedert Protokolle in vier Phasen (aufnehmen → transkribieren → zusammenfassen → Entscheidungen/To-dos extrahieren), vergleicht zwei Ansätze (eine All-in-One-Protokoll-KI, die am Call teilnimmt, vs. einen Eigenbau aus aufnehmen → Transkriptions-KI → LLM), vergleicht die wichtigsten Tools (Otter, Notta, Fireflies, tl;dv, Fathom, Granola — mit als Herstellerangabe gekennzeichneter Genauigkeit), behandelt die integrierte KI in Zoom/Teams/Meet, geht den Eigenbau-Weg mit Whisper plus ChatGPT/Claude/Gemini und einem "Lücken nicht mit Vermutungen füllen"-Prompt-Beispiel durch, gibt fünf Tipps für mehr Genauigkeit (Audioqualität, Eigennamen-Wörterbuch, Sprecherdiarisierung, Sprachpassung, Vorlagen-Prompt) und legt die Vorsichtsmaßnahmen zu Datenschutz/Einwilligung und Übervertrauen dar. Die letzte Verteidigungslinie ist der Mensch: prüfen Sie die Entscheidungen und To-dos stets mit eigenen Augen.

Claude Code „Could Not Check the Pull Request Status" — Ursachen und Lösungen

Claude Code „Could Not Check the Pull Request Status" — Ursachen und Lösungen

Sie stellen ein Feature in Claude Code fertig und wollen auf „Create PR" drücken, als ein rotes Banner erscheint: „Could not check the pull request status. This information may be out of date." Das ist kein Code-Defekt — Claude Code hat einfach bei GitHub nachgefragt, um den aktuellen PR-Zustand abzurufen, und dieser eine Versuch ist fehlgeschlagen; meist ist es eine harmlose Synchronisationsverzögerung. Dieser Artikel behandelt die genaue Bedeutung des Fehlers, wie Claude Code Ihren PR sieht (eine Abfrage über die gh-CLI, mit dem Hinweis, dass die interne Implementierung undokumentiert ist), die 5 Grundursachen (abgelaufene Auth, noch kein Push/PR, Netzwerk/Proxy, unzureichende Scopes, vorübergehend), eine 4-Schritt-Diagnose ab gh auth status, einen Befehls-Spickzettel (gh auth login/refresh/pr status und mehr), wann „may be out of date" ignoriert werden darf und wann zu handeln ist, den gh pr create-Workaround, eine Checkliste zur Vermeidung von Wiederholungen und eine FAQ. Die Regel: Verdächtige die GitHub-Verbindung, bevor du den Code verdächtigst.

Claude Code Fehler 400 "thinking blocks cannot be modified" — Ursachen und Lösungen

Claude Code Fehler 400 "thinking blocks cannot be modified" — Ursachen und Lösungen

Sie arbeiten in Claude Code, als plötzlich ein 400-Fehler auftaucht und jede weitere Eingabe ihn wiederholt: "thinking or redacted_thinking blocks in the latest assistant message cannot be modified." Es ist ein bekannter Bug mit mehreren offenen Issues im offiziellen Repository von Anthropic, und in den meisten Fällen ist es nicht die Schuld des Nutzers. Dieser Artikel erklärt, was der Fehler bedeutet, wie die Thinking-Blöcke des Extended Thinking und ihre kryptografischen Signaturen funktionieren, die 5 Grundursachen für eine nicht passende Signatur (Bug bei der Sitzungswiederaufnahme, Verschachtelung beim Streaming, Amok laufende Reparaturlogik, Drittanbieter-Proxys, Verlaufsänderung in der eigenen App), 3 Wiederherstellungslösungen für Claude-Code-Nutzer (Esc x2/rewind, neue Sitzung /clear, JSONL-Reparatur-Tool), die wichtigste dauerhafte Behebung (Update auf die neueste Version), 3 Vorbeugungsprinzipien für API/SDK-Entwickler (unverändert hin- und herwandern, vollständiges Entfernen, defensiver Schutzmechanismus), die Abgrenzung von 3 ähnlichen Fehlern und eine Checkliste zur Vorbeugung von Wiederholungen.