Système RAG

Kaiply utilise le Retrieval-Augmented Generation (RAG) pour que votre chatbot réponde avec précision en utilisant votre propre contenu — et uniquement votre contenu. Pas d'hallucination, pas de réponses inventées.

Pourquoi le RAG plutôt qu'un LLM seul ?

LLM seul (sans RAG)

• Invente des informations (hallucination)
• Ne connaît pas votre catalogue
• Réponses génériques
• Données figées à la date d'entraînement

LLM + RAG (Kaiply)

• Réponses basées sur votre contenu uniquement
• Connaît vos produits, prix, politiques
• Précision vérifiable
• Mise à jour en temps réel via les Sources

Le pipeline RAG de Kaiply

Étape 1 — Traitement de la requête

Quand un visiteur envoie un message, le texte est nettoyé et l'intention est classifiée (question produit, demande de support, recherche, etc.). Cette classification oriente la recherche.

Étape 2 — Embedding de la requête

La question est convertie en vecteur de 1536 dimensions via OpenAI text-embedding-3-small. Ce vecteur capture le sens sémantique de la question, pas seulement les mots-clés.

Étape 3 — Recherche vectorielle (pgvector)

Le vecteur est comparé à tous les fragments de votre base de connaissances via l'index HNSW de pgvector. Les fragments les plus proches par similarité cosinus sont récupérés.

Étape 4 — Assemblage du contexte

Les fragments récupérés (généralement 3 à 5) sont assemblés en un bloc de contexte structuré, avec attribution des sources pour la traçabilité.

Étape 5 — Génération de la réponse

Le LLM (Mistral AI 🇫🇷) reçoit le contexte + la question + le prompt système. Il génère une réponse en streaming, en utilisant UNIQUEMENT les informations du contexte fourni.

Score de confiance

Chaque réponse est accompagnée d'un score de confiance calculé selon le nombre de fragments pertinents trouvés. Ce score détermine si l'IA répond normalement ou active le flux de repli.

Score	Interprétation	Comportement
0	Aucun contexte pertinent	Message de repli + proposition ticket
0.25	1 fragment trouvé	Réponse avec avertissement de prudence
0.5–0.75	2–3 fragments trouvés	Réponse normale — bonne confiance
1.0	4+ fragments trouvés	Réponse normale — haute confiance

Flux de repli : Quand le score est faible (0 ou 0.25), le chatbot ne génère pas de réponse incertaine. Il informe honnêtement le visiteur et peut proposer de créer un ticket ou d'être transféré à un agent humain.

Stack technique

EmbeddingsOpenAI text-embedding-3-small (1536D)

Vector DBpgvector sur PostgreSQL (Supabase)

IndexHNSW (Hierarchical Navigable Small World)

SimilaritéCosinus

LLM utiliséMistral AI (Small & Large)

StreamingSSE (Server-Sent Events) temps réel

Pour aller plus loin : Consultez le guide Optimiser les réponses IA pour apprendre à structurer votre base de connaissances afin de maximiser les scores de confiance.

Pourquoi le RAG plutôt qu'un LLM seul ?

LLM seul (sans RAG)

• Invente des informations (hallucination)
• Ne connaît pas votre catalogue
• Réponses génériques
• Données figées à la date d'entraînement

LLM + RAG (Kaiply)

• Réponses basées sur votre contenu uniquement
• Connaît vos produits, prix, politiques
• Précision vérifiable
• Mise à jour en temps réel via les Sources

Le pipeline RAG de Kaiply

Étape 1 — Traitement de la requête

Quand un visiteur envoie un message, le texte est nettoyé et l'intention est classifiée (question produit, demande de support, recherche, etc.). Cette classification oriente la recherche.

Étape 2 — Embedding de la requête

La question est convertie en vecteur de 1536 dimensions via OpenAI text-embedding-3-small. Ce vecteur capture le sens sémantique de la question, pas seulement les mots-clés.

Étape 3 — Recherche vectorielle (pgvector)

Le vecteur est comparé à tous les fragments de votre base de connaissances via l'index HNSW de pgvector. Les fragments les plus proches par similarité cosinus sont récupérés.

Étape 4 — Assemblage du contexte

Les fragments récupérés (généralement 3 à 5) sont assemblés en un bloc de contexte structuré, avec attribution des sources pour la traçabilité.

Étape 5 — Génération de la réponse

Le LLM (Mistral AI 🇫🇷) reçoit le contexte + la question + le prompt système. Il génère une réponse en streaming, en utilisant UNIQUEMENT les informations du contexte fourni.

Score de confiance

Chaque réponse est accompagnée d'un score de confiance calculé selon le nombre de fragments pertinents trouvés. Ce score détermine si l'IA répond normalement ou active le flux de repli.

Score

Interprétation

Comportement

Aucun contexte pertinent

Message de repli + proposition ticket

0.25

1 fragment trouvé

Réponse avec avertissement de prudence

0.5–0.75

2–3 fragments trouvés

Réponse normale — bonne confiance

1.0

4+ fragments trouvés

Réponse normale — haute confiance