Comment configurer la surveillance de Qdrant

Commencez par faire fonctionner Prometheus, puis les health probes, puis les alertes. Ne sautez pas l'étape de surveillance avant d'aller en production.

Métriques Prometheus

À utiliser : lors de la configuration initiale de la collecte de métriques ou lors de l'ajout d'un nouveau déploiement.

Métriques de nœud à l'endpoint /metrics Documentation de surveillance
Métriques de cluster à /sys_metrics (Qdrant Cloud uniquement)
Personnalisation du préfixe via la config service.metrics_prefix ou la variable d'environnement QDRANT__SERVICE__METRICS_PREFIX
Exemple de configuration auto-hébergée avec Prometheus + Grafana repo prometheus-monitoring

Scraping Hybrid Cloud

À utiliser : lors de l'exécution de Qdrant Hybrid Cloud et quand vous avez besoin de visibilité au niveau du cluster.

Ne scrapez pas seulement les nœuds Qdrant. En Hybrid Cloud, vous gérez le plan de données Kubernetes. Vous devez également scraper les pods cluster-exporter et operator pour obtenir une visibilité complète du cluster et l'état de l'opérateur.

Tutoriel de configuration Prometheus Hybrid Cloud Hybrid Cloud Prometheus
Tableaux de bord Grafana officiels repo Grafana dashboard

Probes Liveness et Readiness

À utiliser : lors de la configuration des health checks Kubernetes.

Utilisez /healthz, /livez, /readyz pour le statut basique, la liveness et la readiness Kubernetes health endpoints

Alertes

À utiliser : lors de la configuration des alertes pour les déploiements en production ou Hybrid Cloud.

Hybrid Cloud fournit environ 11 alertes Prometheus préconfigurées prêtes à l'emploi Cloud cluster monitoring
Utilisez AlertmanagerConfig pour router les alertes vers Slack, PagerDuty ou d'autres cibles en fonction des labels
Au minimum, alertez sur : erreurs d'optimizer, nœud non prêt, facteur de réplication inférieur à la cible, utilisation disque >80%

Centralisation des logs et audit logging

À utiliser : quand la conformité d'entreprise nécessite des logs centralisés ou des traces d'audit.

Activez le format de log JSON pour une analyse structurée : définissez logger.format à json dans la config Configuration
Utilisez FluentD/OpenSearch pour l'agrégation des logs
Les logs d'audit (v1.17+) s'écrivent sur le système de fichiers local (/qdrant/storage/audit/), pas sur stdout. Montez un Persistent Volume et déployez un conteneur sidecar pour trier ces fichiers vers stdout afin que les DaemonSets puissent les récupérer. Audit logging

Ce qu'il NE FAUT PAS faire

Scraper /sys_metrics sur self-hosted (disponible uniquement sur Qdrant Cloud)
Scraper seulement les nœuds Qdrant en Hybrid Cloud (miss cluster-exporter et operator metrics)
Sauter l'étape de surveillance avant d'aller en production (vous le regretterez)
Alerter sur l'utilisation de la mémoire page cache (elle est censée remplir la RAM disponible, comportement normal du système d'exploitation)

qdrant-monitoring-setup