Aller au contenu
Thèmes

Développement IA

Développez mieux avec l'IA. Guides de génération de code, création d'apps, débogage et automatisation.

63 articles

Triez les articles pour trouver ce que vous cherchez

Claude Code : « usage limit reached » — comprendre les limites Pro / Max

Claude Code : « usage limit reached » — comprendre les limites Pro / Max

Le message « Claude usage limit reached » de Claude Code n'est ni une erreur ni un bug : c'est ainsi que fonctionnent les limites d'usage de l'abonnement Pro / Max. Cet article détaille la structure à deux niveaux (5 heures + hebdomadaire + plafond Opus sur Max), ce qui épuise le quota, quoi faire au moment où vous atteignez le plafond, comment voir ce qu'il reste, et la porte de sortie par l'API à l'usage.

Claude Code : « Prompt is too long » — corriger l'erreur de fenêtre de contexte

Claude Code : « Prompt is too long » — corriger l'erreur de fenêtre de contexte

L'erreur « Prompt is too long » de Claude Code et de l'API ne signifie pas que votre quota est épuisé : votre entrée (historique, fichiers, définitions d'outils) dépasse simplement la fenêtre de contexte du modèle. Cet article explique ce qui remplit la fenêtre, les tailles 200K et 1M, les correctifs rapides (/compact, /clear, déléguer les grosses lectures à un subagent) et comment distinguer cette erreur de l'usage limit et du plafond max_tokens.

Claude Code : « court » et les balises invoke qui fuient — quand l'appel d'outil ne s'exécute pas

Claude Code : « court » et les balises invoke qui fuient — quand l'appel d'outil ne s'exécute pas

Lors de longues sessions dans Claude Code, un mot « court » suivi de balises <invoke>/<parameter> brutes peut fuir à l'écran sans que l'outil ne s'exécute. Ce n'est ni votre environnement ni votre commande : c'est un dysfonctionnement côté modèle (Opus 4.8 / 4.7). Cet article détaille le mécanisme, les deux causes racines, les idées reçues, et les correctifs côté utilisateur et côté API/SDK.

Qu'est-ce que LoRA ? Personnaliser l'IA avec un tout petit entraînement supplémentaire

Qu'est-ce que LoRA ? Personnaliser l'IA avec un tout petit entraînement supplémentaire

Réentraîner une IA géante de zéro coûte trop cher, mais vous voulez l'adapter rien que pour vous ; LoRA (Low-Rank Adaptation) exauce ce vœu en gelant le modèle d'origine et en n'entraînant qu'une minuscule pièce ajoutée (un adaptateur), réduisant les paramètres entraînables d'environ 90 %. LoRA rend le fine-tuning bien moins cher et plus rapide, et il est très populaire dans la génération d'images comme Stable Diffusion. Cet article l'explique avec une analogie de la pièce rapportée. LoRA est le fer de lance du fine-tuning efficace en paramètres (PEFT) : laisser les énormes poids d'origine gelés, insérer une petite matrice ajoutée dans chaque couche, et n'entraîner que celle-ci (W = W0 + BA). Avantages : environ 90 % de paramètres en moins, moins de mémoire GPU, entraînement plus rapide et moins cher, aucune latence d'inférence une fois l'adaptateur fusionné, et moins de surapprentissage. Son plus grand atout : des adaptateurs interchangeables. QLoRA combine la quantification, entraînant LoRA sur une base 4-bit. Comparé au fine-tuning complet, LoRA suffit pour la plupart des travaux.

Qu'est-ce que la quantification ? Réduire les modèles d'IA pour les exécuter sur votre propre machine

Qu'est-ce que la quantification ? Réduire les modèles d'IA pour les exécuter sur votre propre machine

Faire tourner un énorme modèle 70B sur un seul PC de gaming au lieu d'un rack de GPU de data center est rendu possible par la quantification, qui abaisse la précision numérique des poids d'un modèle pour réduire drastiquement sa taille et sa mémoire. Alors que la distillation transfère le savoir vers un modèle distinct plus petit, la quantification allège le même modèle. Cet article l'explique avec une analogie de compression de photo. La quantification remplace les poids stockés en décimaux FP16/FP32 par des entiers INT8 (8 bits) ou INT4 (4 bits), réduisant les octets par poids (FP32=4, INT8=1, INT4=0,5) ; comme compresser une photo RAW en JPEG, on sacrifie un peu de précision pour un gros gain, et la surprise est le peu qu'on y perd. Côté mémoire, le 4-bit utilise environ un quart du FP16 : un modèle 70B passe de ~140GB à ~35GB, et un 8B en 4-bit fait ~4.5-5GB, tenant dans un GPU de milieu de gamme à 8GB de VRAM pour un usage local (la démocratisation des LLM). Côté précision, INT8 est quasiment sans perte et INT4 se dégrade sous 4% sur les tâches générales, mais la perte est plus marquée pour les maths, le code et le raisonnement difficile (cela se voit par une légère hausse de la perplexité), donc choisissez le nombre de bits selon la tâche. Principales méthodes : GPTQ (pionnier du 4-bit précis), AWQ (protège le ~1% de poids les plus importants, souvent 1-2% plus précis et plus rapide), GGUF (format llama.cpp/Ollama, Q2_K-Q8_0, hybride CPU+GPU, pour le local) et QLoRA (base 4-bit plus LoRA pour le fine-tuning sur GPU grand public). Cela diffère de la distillation et du fine-tuning, et les trois se combinent généralement. Pour démarrer, exécutez un modèle GGUF avec Ollama en une commande, choisissez Q4/Q8 selon la VRAM et évitez l'INT4 pour le code ou les maths exactes. La plupart des grands modèles sont livrés déjà quantifiés, il suffit de les télécharger. Garder l'intelligence, ne perdre que le poids.

Qu'est-ce que la distillation de modèles ? Transférer le savoir d'une grande IA vers une petite

Qu'est-ce que la distillation de modèles ? Transférer le savoir d'une grande IA vers une petite

Une IA énorme et très performante est intelligente mais lourde et coûteuse ; la distillation de modèles (distillation des connaissances) résout cela en transférant le savoir d'un grand modèle enseignant vers un petit modèle élève, conservant plus de 95 % des performances de l'enseignant pour un dixième de la taille et de la vitesse. Cet article l'explique avec une analogie enseignant-élève. La clé, ce sont les soft labels : l'entraînement ordinaire n'enseigne que « la réponse est chat » (hard label), tandis que la distillation transmet toute la distribution de probabilités de l'enseignant comme « 90 % chat, 8 % chien, 2 % renard », dont le degré d'hésitation porte une information riche ; un paramètre temperature adoucit les probabilités pour révéler des relations subtiles (exemple réel : GPT-4o mini distillé de GPT-4o). Avantages : rapide et bon marché, ~10x plus compact tout en gardant plus de 95 % des performances, fonctionne sur l'edge, idéal pour la spécialisation. Deux approches : white-box (accès complet aux poids et représentations internes, transfert plus profond ; pour vos propres modèles ou OSS) et black-box (seules les sorties/réponses d'API sont visibles ; utiliser l'API d'une autre entreprise comme enseignant peut enfreindre les conditions). Elle diffère de la quantization (compresser la précision des poids du même modèle) et du fine-tuning (poursuivre l'entraînement d'un modèle existant pour une tâche) — la distillation transfère le savoir dans un petit modèle distinct, et les trois sont combinables. La réalité juridique/ToS a été un grand sujet en 2026 : la technique est légitime, mais OpenAI, Anthropic, Mistral et xAI incluent des clauses de distillation anti-concurrentielle interdisant d'utiliser les sorties pour construire des modèles concurrents. Le litige OpenAI contre DeepSeek montre que l'évaluation dépend des conditions d'API applicables, et Claude Fable 5/Mythos 5 restreindraient les réponses sur les travaux signalés. Conseils : utilisez vos propres modèles ou des OSS sous licence comme enseignant, vérifiez les clauses anti-distillation et jugez si l'usage revient à développer un concurrent. Les chiffres sont cités de documents publics, à titre indicatif.

Qu'est-ce que l'observabilité de l'IA ? Monitoring et tracing des LLM et des agents, pour débutants

Qu'est-ce que l'observabilité de l'IA ? Monitoring et tracing des LLM et des agents, pour débutants

L'observabilité de l'IA rend visible ce que font réellement les LLM et les agents en production : quels outils, quelles recherches, ce qui est renvoyé, en combien de temps et à quel coût. Contrairement au monitoring classique, l'IA peut renvoyer 200 OK en 50ms et halluciner avec aplomb : la plupart des défaillances sont des problèmes de qualité, pas d'infrastructure. Trois piliers : traces, metrics, logs. On distingue observabilité (ce qui s'est passé) et évaluation (la réponse est-elle bonne), à utiliser en duo. Outils : LangSmith, Langfuse, Arize Phoenix, MLflow, AgentOps et le standard OpenTelemetry.

Comment construire un système multi-agents : guide pratique du pattern supervisor

Comment construire un système multi-agents : guide pratique du pattern supervisor

Après avoir saisi le concept dans « Qu'est-ce qu'un système multi-agents ? », voici la suite pratique. En s'appuyant sur le standard de fait de 2026, le pattern supervisor, l'article guide les débutants à travers une construction en 5 étapes. Le principe clé : construire d'abord en mono-agent et n'ajouter des agents que de façon minimale, une fois une limite atteinte (~80% des cas d'usage se contentent d'un seul ; utiliser le multi pour un travail simple et linéaire gonfle le coût de 3-10x et, selon la recherche de Google, fait baisser la précision de -39-70% sur les tâches séquentielles). Trois signes pour passer au multi : séparation des spécialités, parallélisme, séparation des décisions. Le pattern supervisor (le supervisor reçoit la tâche globale, la décompose, la délègue à des workers spécialisés et agrège les résultats) est le point de convergence des sous-agents de Claude Code, de LangGraph Supervisor et des handoffs de l'OpenAI Agents SDK, car il offre le support framework le plus large, un mode de défaillance connu (sur-délégation, bornée par un plafond d'itérations) et est facile à auditer. Les 5 étapes : 1) décomposer clairement la tâche en amont ; 2) définir les workers avec un rôle + outils + format de sortie (3-5 max) ; 3) concevoir le supervisor en énumérant explicitement les noms de workers appelables (plafond strict) et en y consacrant le plus de temps ; 4) décider du handoff et du partage de contexte, ne transmettre que le nécessaire (le standard est A2A) ; 5) instrumenter chaque handoff avant d'ajouter des agents, plafonner itérations/tokens/coût, et mettre en place evals et garde-fous. Un pseudo-code indépendant de tout framework montre les définitions de workers, un supervisor plafonné et une boucle bornée par les itérations. Pièges et solutions : sur-délégation, explosion des tokens, instabilité, baisse de précision et point d'échec inconnu. La leçon : les prompts, la conception des outils et le harnais d'evals décident du succès plus que le framework. Construire petit, mesurer, n'ajouter que lorsque ça rapporte.

Qu'est-ce qu'un système multi-agents ? Coordonner plusieurs agents IA, expliqué aux débutants

Qu'est-ce qu'un système multi-agents ? Coordonner plusieurs agents IA, expliqué aux débutants

« Répartir entre plusieurs agents une tâche complexe qu'un seul agent IA ne peut pas gérer » : voilà l'idée des systèmes multi-agents. Ce guide pour débutants expose le fonctionnement, les principaux modèles et les grands frameworks, et surtout la véritable règle de décision pour savoir quand utiliser plusieurs agents et quand un seul suffit, sans battage. Un système multi-agents fait travailler ensemble plusieurs IA spécialisées par rôle sur une grande tâche ; face à un agent unique qui fait tout (suffisant pour ~80 % des cas, peu coûteux et facile à déboguer), il divise le travail par spécialité pour le parallélisme et la vérification croisée, au prix d'un coût de coordination et d'une consommation de tokens plus élevés. Les quatre modèles d'orchestration dominants : orchestrator-worker (un chef décompose, répartit en parallèle et synthétise ; le plus utilisé, avec une piste d'audit), passation séquentielle, conversation de groupe (débat avec sélecteur) et machine à états en graphe. En 2026, les frameworks se sont consolidés autour de LangGraph, CrewAI, AutoGen/AG2 et OpenAI Swarm. Mais ce n'est pas une panacée : jusqu'à +23 % sur le complexe, mais −39 à 70 % sur le séquentiel simple selon une recherche de Google, ~15x de tokens et 7 déploiements sur 10 sans ROI. La voie recommandée : un seul d'abord, identifier un plafond concret, puis ajouter une équipe minimale de 2-3 agents en modèle à chef, et mesurer. A2A et MCP sont les technologies fondamentales qui soutiennent le multi-agents. Un seul pour 80 %, le multi uniquement pour les parties difficiles.

Qu'est-ce que l'A2A (Agent2Agent) ? Différences avec MCP, Agent Cards et fonctionnement

Qu'est-ce que l'A2A (Agent2Agent) ? Différences avec MCP, Agent Cards et fonctionnement

Maintenant que les agents IA sont courants, le prochain défi est de faire collaborer les agents entre eux. Si MCP relie un agent à ses outils, A2A (Agent2Agent) relie un agent à un autre agent — une norme ouverte permettant à des IA construites sur des éditeurs et des frameworks différents de se découvrir, de communiquer et de coopérer grâce à une convention commune. Google l'a publiée en avril 2025, l'a confiée à la Linux Foundation en juin de la même année, et elle a atteint la v1.0 en 2026. Ce guide pour débutants explique ce qu'est A2A (l'analogie de l'étiquette d'un partenariat commercial), pourquoi c'est nécessaire (des agents spécialisés se relaient le travail — un agent de planification vers un agent de réservation d'hôtel vers un agent de paiement), en quoi cela diffère de MCP (MCP est vertical, agent ↔ outils ; A2A est horizontal, agent ↔ agent ; empiler les deux est la configuration standard à deux couches), comment ça marche (une Agent Card — un JSON « carte de visite » à /.well-known/agent-card.json — sert à découvrir les capacités, puis une Task porte la demande à travers des états comme working, input-required et completed, et un Artifact renvoie le résultat, le tout via HTTP, Server-Sent Events et JSON-RPC 2.0, les agents gardant leurs rouages internes cachés), ainsi que son état actuel et sa mise en œuvre (à la date d'avril 2026, 150+ organisations en production, 22 000+ étoiles sur GitHub, des SDK dans cinq langages — Python, JavaScript, Java, Go, .NET — avec Microsoft, Salesforce, SAP et ServiceNow impliqués). Le moyen mnémotechnique : se connecter aux outils = MCP, se connecter aux pairs = A2A.

Qu'est-ce que le reranking ? La récupération en deux étapes qui booste la précision du RAG — guide pour débutants

Qu'est-ce que le reranking ? La récupération en deux étapes qui booste la précision du RAG — guide pour débutants

Vous avez construit un RAG, mais la qualité de la recherche est médiocre — c'est exactement là que le reranking aide. Le reranking re-score, selon leur pertinence par rapport à la requête, les candidats grossièrement rassemblés par la recherche par embedding (vectorielle) et les réordonne en ne gardant que les meilleurs ; cette seule étape peut transformer radicalement la qualité des réponses d'un système RAG. Ce guide pour débutants explique ce qu'est le reranking (avec l'analogie de la présélection et de l'entretien final), pourquoi il est nécessaire (la recherche par embedding vectorise la requête et les documents séparément, donc elle ne juge la pertinence que grossièrement, et un mauvais ordre fait directement baisser la qualité des réponses — la recherche rapporte un gain de précision RAG d'environ 40 % grâce au reranking, et le superposer à la recherche hybride est le standard 2026), comment fonctionne la récupération en deux étapes (« rassembler large » avec une recherche par embedding rapide pour le rappel, puis « affiner intelligemment » avec le reranker pour la précision, avant de transmettre le haut du panier au LLM), pourquoi un reranker est plus précis (un bi-encoder vectorise la requête et le document individuellement, rapide mais approximatif ; un cross-encoder les fournit ensemble et produit un score de pertinence 0–1, précis mais lourd — on rassemble donc avec le bi-encoder rapide et on affine avec le cross-encoder précis), ainsi que les modèles et l'implémentation (type API comme Cohere Rerank, Voyage et Jina ; open source comme BGE reranker, mixedbread et FlashRank ; et scoring par LLM comme RankLLM — il suffit de récupérer 50–100 et d'affiner au top 5). Le principe : rassembler large, affiner intelligemment, et ajuster les nombres avec des évaluations d'IA.