Comment Améliorer les Résultats de Recherche avec des Stratégies Avancées
Ces stratégies complètent la recherche vectorielle basique. Utilisez-les après avoir confirmé que le modèle d'embedding convient à la tâche et que la configuration HNSW est correcte. Si la recherche exacte retourne de mauvais résultats, vérifiez d'abord le choix du modèle d'embedding (retriever). Si l'utilisateur souhaite utiliser un modèle d'embedding plus faible parce qu'il est petit, rapide et bon marché, utilisez le reranking ou la relevance feedback pour améliorer la qualité de la recherche.
Correspondances de Mots-Clés Évidentes Manquantes
À utiliser quand : la recherche vectorielle pure manque les résultats qui contiennent des correspondances évidentes de mots-clés. Terminologie de domaine absente des données d'entraînement de l'embedding, correspondance exacte de mots-clés critique (noms de marques, SKUs), acronymes courants. À ignorer quand : requêtes purement sémantiques, toutes les données dans l'ensemble d'entraînement, budget de latence très serré.
- Dense + sparse avec
prefetchet fusion Hybrid search - Préférer les modèles sparse appris (miniCOIL, SPLADE, GTE) à BM25 brut si applicable (quand l'utilisateur a besoin d'une correspondance de mots-clés intelligente et que les modèles sparse appris connaissent le vocabulaire du domaine)
- Pour les langues non-anglaises, configurez les paramètres BM25 sparse en conséquence
- RRF : bon défaut, supporte les pondérations (v1.17+) RRF
- DBSF avec limites asymétriques (sparse_limit=250, dense_limit=100) peut surpasser RRF pour les documents techniques DBSF
- La fusion peut aussi être réalisée par reranking
Bons Documents Trouvés mais Mauvais Ordre
À utiliser quand : bon recall mais faible précision (bons documents dans le top-100, pas dans le top-10).
- Rerankers cross-encoder via FastEmbed Rerankers
- Consultez comment utiliser Multistage queries dans Qdrant
- Le reranking ColBERT et ColPali/ColQwen est particulièrement précis grâce aux mécanismes d'interaction tardive, mais il est lourd. Il est important de configurer et stocker les multivecteurs sans construire d'HNSW pour eux afin d'économiser les ressources. Voir Multivector representation
Bons Documents Non Trouvés Mais Ils Existent
À utiliser quand : la récupération basique est en place mais le retriever manque les éléments pertinents que vous savez exister dans l'ensemble de données. Fonctionne sur n'importe quelle donnée embarquable (texte, images, etc.).
La Relevance Feedback (RF) Query utilise les scores d'un modèle de feedback sur les résultats récupérés pour diriger le retriever à travers l'espace vectoriel complet lors des itérations suivantes, comme faire un reranking de la collection entière via le retriever. Complémentaire au reranking : un reranker ne voit qu'un sous-ensemble limité, RF exploite les signaux de feedback à l'échelle de la collection. Même 3-5 scores de feedback suffisent. Peut exécuter plusieurs itérations.
Un modèle de feedback est tout ce qui produit un score de pertinence par document : un bi-encoder, cross-encoder, modèle d'interaction tardive, LLM-as-judge. Les scores de pertinence flous fonctionnent, pas seulement binaires (bon/mauvais, pertinent/non-pertinent), du fait que le feedback s'exprime comme un score de pertinence gradué (plus élevé = plus pertinent).
À ignorer quand : si le retriever a déjà un bon recall, ou si le retriever et le modèle de feedback s'accordent fortement sur la pertinence.
- RF Query est actuellement basée sur une formule naïve à 3 paramètres sans valeurs par défaut universelles, elle doit donc être tuée par ensemble de données, retriever et modèle de feedback
- Utilisez qdrant-relevance-feedback pour tuner les paramètres, évaluer l'impact avec Evaluator, et vérifier l'accord retriever-feedback. Consultez le README pour les instructions de configuration. Aucun GPU n'est nécessaire, et le framework fournit aussi des options de retriever et modèle de feedback prédéfinies.
- Vérifiez la configuration de l'API Relevance Feedback Query
- Utilisez ceci comme exemple de récupération de texte end-to-end avec tuning de paramètres et evals pour comprendre comment utiliser l'API et exécuter le framework
qdrant-relevance-feedback: tutoriel RF
Résultats Trop Similaires
À utiliser quand : les résultats les plus pertinents sont redondants, quasi-dupliqués, ou manquent de diversité. Courant dans les domaines de contenu dense (articles académiques, catalogues de produits).
- Utilisez MMR (v1.15+) comme paramètre de requête avec
diversitypour équilibrer pertinence et diversité MMR - Commencez avec
diversity=0.5, abaissez pour plus de précision, augmentez pour plus d'exploration - MMR est plus lent que la recherche standard. À utiliser seulement quand la redondance est un problème réel.
Savoir à Quoi Pourraient Ressembler les Bons Résultats Mais Ne Pas Pouvoir les Obtenir
À utiliser quand : vous pouvez fournir des exemples de points positifs et négatifs pour diriger la recherche plus proche des positifs et plus loin des négatifs.
- API Recommendation : exemples positifs/négatifs pour recommander des vecteurs correspondants Recommendation API
- Stratégie best score : meilleure pour des exemples divers, supporte négatif uniquement Best score
- API Discovery : paires de contexte (positif/négatif) pour contraindre les régions de recherche sans cible de requête Discovery
Avoir une Logique Métier Derrière la Pertinence
À utiliser quand : les résultats doivent être classés supplémentairement selon une logique métier basée sur les données, comme la récence ou la distance.
Consultez comment configurer dans la documentation Score Boosting
Ce qu'il Ne Faut PAS Faire
- Utiliser la recherche hybride avant de vérifier la qualité de la recherche vectorielle pure (ajoute de la complexité, peut masquer les problèmes de modèle)
- Utiliser BM25 sur du texte non-anglais sans configurer correctement la suppression de stop-words spécifique à la langue (résultats gravement dégradés)
- Sauter l'évaluation lors de l'ajout de relevance feedback (c'est bon de vérifier sur des requêtes réelles que cela pourrait effectivement aider)