Un glossaire complet des termes IA pour les équipes business et produit : LLMs, agents IA, RAG, embeddings, voicebots, STT, TTS et plus encore. Le vocabulaire essentiel pour comprendre et déployer l'IA.
Un guide de référence complet pour les équipes business et produit qui naviguent dans le monde de l'intelligence artificielle. Des concepts fondamentaux aux architectures agentiques, en passant par la voice AI et les métriques business — tous les termes essentiels pour comprendre et déployer l'IA dans votre organisation.
1. Concepts fondamentaux
Intelligence Artificielle Générale (AGI) L'AGI désigne des systèmes d'IA hypothétiques capables d'effectuer un large éventail de tâches cognitives au moins aussi bien qu'un humain moyen, dans de nombreux domaines, et pas seulement dans un seul. Elle implique généralement un raisonnement large, une capacité d'adaptation et une autonomie, plutôt qu'être limité à un cas d'usage unique comme la traduction ou la reconnaissance d'images.
Intelligence Artificielle (IA) L'IA est le vaste domaine qui consiste à construire des systèmes informatiques capables d'effectuer des tâches nécessitant normalement l'intelligence humaine : comprendre le langage, reconnaître des motifs, faire des prédictions ou prendre des décisions. En entreprise, l'IA désigne généralement des modèles de machine learning appliqués et intégrés dans des produits, des workflows ou des services.
Machine Learning (ML) Le machine learning est une branche de l'IA où les modèles apprennent des patterns à partir de données plutôt qu'en suivant des règles codées manuellement. Au lieu d'une logique if/then, les systèmes ML ajustent leurs paramètres internes pour améliorer leurs performances sur des tâches comme la classification, la prédiction ou la recommandation.
Deep Learning Le deep learning est une branche du machine learning qui utilise des réseaux de neurones multicouches pour apprendre des patterns complexes à partir de grands volumes de données. Ces modèles découvrent automatiquement des caractéristiques utiles (formes dans les images, patterns audio, structures textuelles) sans règles définies manuellement. Le deep learning alimente la plupart des systèmes modernes de reconnaissance vocale, de génération d'images et de grands modèles de langage.
Réseau de neurones Un réseau de neurones est une structure mathématique en couches librement inspirée du cerveau, composée de "neurones" interconnectés qui transforment les données d'entrée étape par étape. Chaque connexion possède un poids qui détermine l'influence d'une unité sur une autre ; l'entraînement ajuste ces poids pour que le réseau produise de meilleurs résultats.
2. Grands modèles, tokens et entraînement
Grand Modèle de Langage (LLM) Un grand modèle de langage est un réseau de neurones profond entraîné sur d'immenses volumes de texte pour prédire le prochain token dans une séquence. En pratique, les LLMs peuvent discuter, résumer, traduire, écrire du code et servir de moteur de raisonnement pour de nombreux produits IA. "GPT", "Claude", "Gemini", "Llama" ou "Mistral" sont des familles de LLMs ; "ChatGPT", "Copilot" ou "Le Chat" sont des produits assistants construits par-dessus.
Tokens Les tokens sont les unités de base du texte qu'un modèle traite : mots, sous-mots ou caractères. La facturation, les limites de contexte et les métriques d'usage sont généralement exprimées en tokens (pas en caractères). En pratique, 100 à 150 tokens correspondent à environ 75 à 100 mots en français.
Poids (Weights) Les poids sont les paramètres numériques à l'intérieur d'un modèle qui définissent l'importance accordée aux différentes caractéristiques de l'entrée. Pendant l'entraînement, l'algorithme d'apprentissage ajuste itérativement ces poids pour réduire l'écart entre la prédiction du modèle et la sortie souhaitée.
Entraînement (Training) L'entraînement est le processus consistant à apprendre à un modèle à effectuer une tâche en l'exposant à des données et en ajustant ses poids pour réduire les erreurs. C'est une opération gourmande en calcul, nécessitant généralement de très grands datasets, réalisée une fois ou quelques fois à grande échelle avant le déploiement.
Inférence (Inference) L'inférence est le processus d'exécution d'un modèle entraîné pour générer des sorties (prédictions, texte, audio, décisions) à partir de nouvelles entrées. Du point de vue business, l'entraînement est un coût fixe et capitalistique, tandis que l'inférence est le coût récurrent qui croît avec l'usage.
Calcul (Compute) Le "compute" désigne la puissance de calcul nécessaire pour entraîner et exécuter des modèles IA, généralement fournie par des GPU, TPU ou accélérateurs spécialisés. Pour les LLMs modernes, la capacité de calcul est souvent le principal goulot d'étranglement qui détermine les coûts, la latence et la scalabilité.
Cache mémoire / KV caching Le caching réutilise des calculs intermédiaires pour éviter au modèle de tout recalculer à chaque étape. Dans les modèles de type transformer, le KV caching stocke les représentations des tokens précédents pour accélérer la génération des tokens suivants. C'est une optimisation clé pour les applications temps réel et à fort trafic.
Fenêtre de contexte (Context window) La fenêtre de contexte est la quantité maximale de texte (en tokens) que le modèle peut prendre en compte dans une seule requête, incluant le prompt, les instructions système et les messages précédents. Une fenêtre de contexte plus grande permet au modèle de maintenir des conversations plus longues, de traiter des documents plus longs ou de gérer des tâches multi-étapes plus complexes.
Coût par token Le coût par token est le prix unitaire utilisé par les fournisseurs IA pour facturer l'usage du modèle. Il diffère souvent pour les tokens d'entrée et de sortie, et peut aussi varier pour les "reasoning tokens" dans les modèles avancés. Optimiser les prompts, les réponses et les stratégies de caching peut réduire significativement le coût total par token.
3. Techniques d'apprentissage et optimisation
Fine-tuning Le fine-tuning consiste à poursuivre l'entraînement d'un modèle existant sur un dataset plus spécifique pour l'adapter à un domaine ou une tâche (ex : support client pour vétérinaires, connaissance interne d'une entreprise). Il améliore généralement la précision et le ton dans cette niche tout en réutilisant toutes les capacités générales apprises auparavant.
Transfer learning Le transfer learning utilise un modèle entraîné sur une tâche comme point de départ pour une autre tâche liée, en réutilisant les représentations apprises plutôt qu'en repartant de zéro. Le fine-tuning est une forme courante de transfer learning appliquée aux grands modèles de fondation.
Distillation La distillation est une technique "enseignant-élève" dans laquelle un modèle plus petit apprend à imiter un modèle plus grand en s'entraînant sur les sorties de ce dernier. L'objectif est de conserver la majeure partie de la qualité tout en réduisant la taille, la latence et le coût, ce qui est crucial pour les appareils embarqués ou l'inférence à fort volume.
4. IA générative, diffusion et GANs
IA générative (GenAI) L'IA générative désigne les modèles capables de créer de nouveaux contenus : texte, images, audio, vidéo, code ou assets 3D. Ces modèles ne se contentent pas de classer des entrées ; ils produisent des sorties originales qui suivent les patterns appris lors de l'entraînement.
Modèle de diffusion Un modèle de diffusion ajoute progressivement du bruit aux données d'entraînement, puis apprend à inverser ce processus en débruitant du bruit aléatoire pour reconstruire des images, de l'audio ou d'autres médias cohérents. Cette "diffusion inverse" est à la base de nombreux systèmes de génération d'images et de vidéos de pointe.
GAN (Réseau Antagoniste Génératif) Un GAN utilise deux réseaux de neurones : un générateur qui produit des données synthétiques et un discriminateur qui tente de distinguer le réel du faux. En se faisant concurrence, les deux réseaux s'améliorent, produisant des images, vidéos ou sons très réalistes. Les GANs sont largement utilisés pour les deepfakes et la synthèse de médias réalistes.
Hallucination Une hallucination se produit quand un modèle produit des informations confiantes mais incorrectes ou fabriquées. Les hallucinations sont inhérentes aux LLMs actuels, notamment sur des sujets mal couverts lors de l'entraînement ou quand les prompts sont ambigus. Les équipes produit les atténuent via la récupération (RAG), les contraintes et une meilleure évaluation.
5. Embeddings, RAG et bases de données vectorielles
Embedding Un embedding est une représentation vectorielle numérique de texte, d'audio, d'images ou d'autres données qui capture le sens sémantique. Les contenus similaires se retrouvent avec des vecteurs similaires. Les embeddings sont la colonne vertébrale de la recherche sémantique, de la recommandation, du clustering et de la génération augmentée par récupération. En savoir plus sur notre approche SEO & GEO →
Embedding (voir ci-dessus)
RAG (Génération Augmentée par Récupération) La génération augmentée par récupération combine un modèle génératif avec une base de connaissances externe. Avant de répondre, le système récupère les documents pertinents (via des embeddings et une base vectorielle) et les fournit au modèle pour qu'il ancre sa réponse dans des données à jour ou privées. Le RAG est essentiel pour les cas d'usage en entreprise où la précision et la fraîcheur des informations sont primordiales.
Base de données vectorielle Une base de données vectorielle est optimisée pour stocker et rechercher des embeddings efficacement en utilisant des métriques de similarité (ex : similarité cosinus). Elle permet des requêtes rapides de type "trouver les documents les plus similaires", essentielles pour les systèmes RAG, les moteurs de recommandation et la personnalisation.
6. Agents, outils et automatisation
Agent IA Un agent IA est un système qui ne se contente pas de générer du texte mais peut planifier, décider et prendre des actions pour atteindre un objectif, souvent sur plusieurs étapes et outils. Contrairement à un simple chatbot, un agent peut appeler des APIs, interagir avec des bases de données, mettre à jour des CRM, planifier des réunions ou lancer des workflows de manière autonome, dans des limites définies par l'entreprise.
IA agentique L'IA agentique désigne des architectures qui donnent aux modèles une autonomie structurée : la capacité de définir des sous-objectifs, choisir des outils, surveiller les progrès et adapter les plans en temps réel. En pratique, cela signifie des systèmes IA qui se comportent davantage comme des collaborateurs numériques que comme de simples interfaces de chat, opérant dans des limites de sécurité et de conformité définies.
Utilisation d'outils / Function calling L'utilisation d'outils est la capacité d'un modèle à appeler des fonctions externes (APIs, services internes, bases de données) depuis une conversation. Le modèle décide quand et comment appeler un outil (ex : "créer_lead", "réserver_réunion", "vérifier_stock"), reçoit le résultat, puis continue l'interaction avec des informations à jour ou des actions réalisées.
Système multi-agents Un système multi-agents orchestre plusieurs agents IA spécialisés qui collaborent pour accomplir un processus. Par exemple, un agent qualifie un lead, un autre négocie un créneau de réunion, et un troisième gère le suivi post-appel et les mises à jour CRM. Cela reflète le fonctionnement des équipes humaines et est puissant pour les workflows complexes.
Automatisation des workflows (IA) L'automatisation des workflows par l'IA utilise des modèles et des agents pour exécuter des processus métier de bout en bout : de la capture de leads entrants à la qualification, la prise de rendez-vous, le routage vers la bonne équipe et l'enrichissement CRM. Au lieu de simplement répondre à des questions, le système fait réellement avancer le processus métier jusqu'à son terme.
Benchmark (modèles IA) Benchmarker des modèles IA consiste à les comparer systématiquement sur des tâches standard (raisonnement, code, multilinguisme, latence, coût) pour choisir le meilleur pour un produit donné. En pratique, les équipes benchmarkent des modèles d'OpenAI, Anthropic, Google, Mistral et d'autres sur leurs vrais cas d'usage business, et pas seulement sur les classements publics.
7. IA conversationnelle et voice AI
IA conversationnelle L'IA conversationnelle couvre les systèmes capables de comprendre et de générer du langage naturel de manière interactive sur plusieurs canaux (chat web, WhatsApp, voix, email). L'IA conversationnelle moderne va au-delà des chatbots scriptés en utilisant des LLMs, de la mémoire et des outils pour offrir des expériences plus fluides et contextuelles.
Chatbot (moderne) Un chatbot est une interface conversationnelle qui interagit avec les utilisateurs via du texte ou des applications de messagerie. Les chatbots modernes peuvent s'appuyer sur des LLMs, du RAG et des outils pour répondre aux questions, guider les utilisateurs et déclencher des actions. Comparé à un agent IA, un chatbot est souvent plus limité aux Q&R et aux flux guidés, avec moins d'autonomie sur les systèmes externes.
Voicebot Un voicebot est un agent IA qui communique avec les utilisateurs par téléphone ou d'autres canaux vocaux en temps réel. Il gère la reconnaissance vocale, la compréhension du langage, le raisonnement et la synthèse vocale sous des contraintes de latence strictes, permettant des cas d'usage comme le routage des appels entrants, la prise de rendez-vous ou le tri du support sans opérateur humain.
Speech-to-Text (STT) Le speech-to-text convertit l'audio parlé en texte écrit. C'est la première étape de la plupart des systèmes voice AI et doit être précis, rapide et robuste au bruit, aux accents et au vocabulaire spécifique au domaine.
Text-to-Speech (TTS) Le text-to-speech convertit du texte écrit en audio naturel. Les TTS modernes peuvent générer des voix expressives à faible latence qui se rapprochent de la parole humaine, ce qui est essentiel pour l'expérience client dans les voicebots et les agents virtuels.
Latence La latence est le temps qu'il faut à un système pour répondre à une action utilisateur. En voice AI, la latence doit être très faible (souvent moins de quelques centaines de millisecondes) pour maintenir des conversations naturelles et éviter que les utilisateurs ne parlent par-dessus le bot ou n'abandonnent l'appel.
8. Produit, business et sécurité
Prompt engineering Le prompt engineering est la pratique de concevoir et structurer les entrées d'un modèle pour obtenir des sorties meilleures et plus fiables. Il inclut les instructions, les exemples, les contraintes, les rôles et le formatage, et constitue un levier clé pour améliorer la qualité sans modifier le modèle sous-jacent.
Qualification de leads (IA) La qualification de leads par l'IA utilise des modèles et des agents pour évaluer la valeur d'un prospect entrant en fonction de ses réponses, de son comportement et de son contexte. Elle peut scorer les leads, poser des questions de suivi et décider de les router vers les ventes, de proposer une réunion ou de les gérer en self-service.
Planification IA (AI scheduling) La planification IA désigne des agents qui trouvent et réservent automatiquement des créneaux de réunion en tenant compte des calendriers, fuseaux horaires et contraintes. Combinée à l'IA conversationnelle, elle permet aux leads ou aux clients de confirmer des rendez-vous directement en chat ou par téléphone sans intervention humaine.
IA omnicanale (Omnichannel AI) L'IA omnicanale délivre des expériences cohérentes et connectées sur plusieurs canaux (téléphone, chat, email, messagerie sociale). Le même agent ou la même base de connaissances peut suivre l'utilisateur d'un canal à l'autre en préservant le contexte et l'historique.
Sécurité de l'IA (AI safety) La sécurité de l'IA se concentre sur la prévention des dommages causés par les systèmes IA, intentionnellement ou non. Elle couvre des sujets comme la prévention des abus, la robustesse contre les attaques, la réduction des biais et s'assurer que les systèmes se comportent dans des normes acceptables, surtout quand ils sont autonomes ou à fort impact.
Alignement (Alignment) L'alignement désigne le fait de faire correspondre le comportement des systèmes IA aux valeurs, objectifs et contraintes humains. En pratique, cela signifie entraîner et gouverner les modèles pour qu'ils respectent les politiques et réglementations, et agissent d'une manière qui serve les utilisateurs et les organisations, plutôt que d'optimiser uniquement un objectif technique.
RAMageddon "RAMageddon" est un terme informel décrivant la pénurie mondiale de puces mémoire, en partie causée par le boom de l'IA. L'entraînement et l'inférence à grande échelle nécessitent d'immenses quantités de RAM, ce qui affecte également la disponibilité et les prix dans les secteurs du gaming, de l'électronique grand public et de l'informatique d'entreprise.