Système RAG
Kaiply utilise le Retrieval-Augmented Generation (RAG) pour que votre chatbot réponde avec précision en utilisant votre propre contenu — et uniquement votre contenu. Pas d'hallucination, pas de réponses inventées.
Pourquoi le RAG plutôt qu'un LLM seul ?
LLM seul (sans RAG)
- • Invente des informations (hallucination)
- • Ne connaît pas votre catalogue
- • Réponses génériques
- • Données figées à la date d'entraînement
LLM + RAG (Kaiply)
- • Réponses basées sur votre contenu uniquement
- • Connaît vos produits, prix, politiques
- • Précision vérifiable
- • Mise à jour en temps réel via les Sources
Le pipeline RAG de Kaiply
Étape 1 — Traitement de la requête
Quand un visiteur envoie un message, le texte est nettoyé et l'intention est classifiée (question produit, demande de support, recherche, etc.). Cette classification oriente la recherche.
Étape 2 — Embedding de la requête
La question est convertie en vecteur de 1536 dimensions via OpenAI text-embedding-3-small. Ce vecteur capture le sens sémantique de la question, pas seulement les mots-clés.
Étape 3 — Recherche vectorielle (pgvector)
Le vecteur est comparé à tous les fragments de votre base de connaissances via l'index HNSW de pgvector. Les fragments les plus proches par similarité cosinus sont récupérés.
Étape 4 — Assemblage du contexte
Les fragments récupérés (généralement 3 à 5) sont assemblés en un bloc de contexte structuré, avec attribution des sources pour la traçabilité.
Étape 5 — Génération de la réponse
Le LLM (GPT-4o ou Claude 3.5 Sonnet) reçoit le contexte + la question + le prompt système. Il génère une réponse en streaming, en utilisant UNIQUEMENT les informations du contexte fourni.
Score de confiance
Chaque réponse est accompagnée d'un score de confiance calculé selon le nombre de fragments pertinents trouvés. Ce score détermine si l'IA répond normalement ou active le flux de repli.
| Score | Interprétation | Comportement |
|---|---|---|
| 0 | Aucun contexte pertinent | Message de repli + proposition ticket |
| 0.25 | 1 fragment trouvé | Réponse avec avertissement de prudence |
| 0.5–0.75 | 2–3 fragments trouvés | Réponse normale — bonne confiance |
| 1.0 | 4+ fragments trouvés | Réponse normale — haute confiance |