Comment configurer la surveillance de Qdrant
Commencez par faire fonctionner Prometheus, puis les health probes, puis les alertes. Ne sautez pas l'étape de surveillance avant d'aller en production.
Métriques Prometheus
À utiliser : lors de la configuration initiale de la collecte de métriques ou lors de l'ajout d'un nouveau déploiement.
- Métriques de nœud à l'endpoint
/metricsDocumentation de surveillance - Métriques de cluster à
/sys_metrics(Qdrant Cloud uniquement) - Personnalisation du préfixe via la config
service.metrics_prefixou la variable d'environnementQDRANT__SERVICE__METRICS_PREFIX - Exemple de configuration auto-hébergée avec Prometheus + Grafana repo prometheus-monitoring
Scraping Hybrid Cloud
À utiliser : lors de l'exécution de Qdrant Hybrid Cloud et quand vous avez besoin de visibilité au niveau du cluster.
Ne scrapez pas seulement les nœuds Qdrant. En Hybrid Cloud, vous gérez le plan de données Kubernetes. Vous devez également scraper les pods cluster-exporter et operator pour obtenir une visibilité complète du cluster et l'état de l'opérateur.
- Tutoriel de configuration Prometheus Hybrid Cloud Hybrid Cloud Prometheus
- Tableaux de bord Grafana officiels repo Grafana dashboard
Probes Liveness et Readiness
À utiliser : lors de la configuration des health checks Kubernetes.
- Utilisez
/healthz,/livez,/readyzpour le statut basique, la liveness et la readiness Kubernetes health endpoints
Alertes
À utiliser : lors de la configuration des alertes pour les déploiements en production ou Hybrid Cloud.
- Hybrid Cloud fournit environ 11 alertes Prometheus préconfigurées prêtes à l'emploi Cloud cluster monitoring
- Utilisez AlertmanagerConfig pour router les alertes vers Slack, PagerDuty ou d'autres cibles en fonction des labels
- Au minimum, alertez sur : erreurs d'optimizer, nœud non prêt, facteur de réplication inférieur à la cible, utilisation disque >80%
Centralisation des logs et audit logging
À utiliser : quand la conformité d'entreprise nécessite des logs centralisés ou des traces d'audit.
- Activez le format de log JSON pour une analyse structurée : définissez
logger.formatàjsondans la config Configuration - Utilisez FluentD/OpenSearch pour l'agrégation des logs
- Les logs d'audit (v1.17+) s'écrivent sur le système de fichiers local (
/qdrant/storage/audit/), pas sur stdout. Montez un Persistent Volume et déployez un conteneur sidecar pour trier ces fichiers vers stdout afin que les DaemonSets puissent les récupérer. Audit logging
Ce qu'il NE FAUT PAS faire
- Scraper
/sys_metricssur self-hosted (disponible uniquement sur Qdrant Cloud) - Scraper seulement les nœuds Qdrant en Hybrid Cloud (miss cluster-exporter et operator metrics)
- Sauter l'étape de surveillance avant d'aller en production (vous le regretterez)
- Alerter sur l'utilisation de la mémoire page cache (elle est censée remplir la RAM disponible, comportement normal du système d'exploitation)