Diagnostics Azure
GUIDANCE FAISANT AUTORITÉ — CONFORMITÉ OBLIGATOIRE
Ce document est la source officielle pour déboguer et dépanner les problèmes de production Azure. Suivez ces instructions pour diagnostiquer et résoudre systématiquement les problèmes courants des services Azure.
Déclencheurs
Activez cette compétence quand l'utilisateur veut :
- Déboguer ou dépanner des problèmes de production
- Diagnostiquer des erreurs dans les services Azure
- Analyser les journaux d'application ou les métriques
- Corriger les problèmes de tirage d'image, de démarrage à froid ou de sonde de santé
- Enquêter sur les raisons pour lesquelles les ressources Azure échouent
- Trouver la cause première des erreurs d'application
- Dépanner les problèmes d'App Service (CPU élevé, échecs de déploiement, plantages, réponses lentes, TLS/domaines personnalisés)
- Répondre à des invites comme « dépanner app service », « app service CPU élevé » ou « échec de déploiement app service »
- Dépanner les Azure Function Apps (échecs d'invocation, délais d'expiration, erreurs de binding)
- Trouver l'espace de travail App Insights ou Log Analytics lié à une Function App
- Dépanner les clusters AKS, nœuds, pods, ingress ou les problèmes de réseau Kubernetes
- Dépanner les problèmes de SDK Azure Messaging (Event Hubs, échecs de connexion Service Bus, erreurs AMQP, problèmes de verrouillage de message)
Règles
- Commencer par un flux de diagnostic systématique
- Utiliser AppLens (MCP) pour les diagnostics alimentés par IA quand disponible
- Vérifier l'intégrité des ressources avant d'approfondir les journaux
- Sélectionner le guide de dépannage approprié en fonction du type de service
- Documenter les résultats et les étapes de correction tentées
- Router les incidents AKS vers le document de dépannage AKS dédié
Flux de Diagnostic Rapide
- Identifier les symptômes - Qu'est-ce qui échoue ?
- Vérifier l'intégrité des ressources - Azure est-il sain ?
- Examiner les journaux - Que montrent les journaux ?
- Analyser les métriques - Modèles de performance ?
- Enquêter sur les changements récents - Qu'a changé ?
Guides de Dépannage par Service
| Service | Problèmes courants | Référence |
|---|---|---|
| Container Apps | Échecs de tirage d'image, démarrages à froid, sondes de santé, incompatibilités de port | container-apps/ |
| App Service | CPU élevé, échecs de déploiement, plantages, réponses lentes, TLS/domaines personnalisés | app-service/ |
| Function Apps | Détails d'application, échecs d'invocation, délais d'expiration, erreurs de binding, démarrages à froid, paramètres d'application manquants | functions/ |
| AKS | Accès au cluster, nœuds, kube-system, planification, crash loops, ingress, DNS, mises à niveau |
Dépannage AKS |
| Messaging | Erreurs SDK Event Hubs & Service Bus, défaillances AMQP, verrou de message, connectivité | Dépannage Messaging |
Routage
- Garder les diagnostics de Container Apps et Function Apps dans cette compétence parent.
- Router les incidents AKS actifs, l'intake spécifique à AKS, la collecte de preuves et les conseils de correction vers Dépannage AKS.
- Router le dépannage SDK Azure Messaging (Event Hubs, Service Bus) vers Dépannage Messaging.
Référence Rapide
Commandes de Diagnostic Courantes
# Vérifier l'intégrité des ressources
az resource show --ids RESOURCE_ID
# Afficher le journal d'activité
az monitor activity-log list -g RG --max-events 20
# Journaux Container Apps
az containerapp logs show --name APP -g RG --follow
# Journaux Function App (interroger les traces App Insights)
az monitor app-insights query --apps APP-INSIGHTS -g RG \
--analytics-query "traces | where timestamp > ago(1h) | order by timestamp desc | take 50"
AppLens (Outils MCP)
Pour les diagnostics alimentés par IA, utilisez :
mcp_azure_mcp_applens
intent: "diagnose issues with <resource-name>"
command: "diagnose"
parameters:
resourceId: "<resource-id>"
Fournit :
- Détection automatique des problèmes
- Analyse de la cause première
- Recommandations de correction
Azure Monitor (Outils MCP)
Pour interroger les journaux et les métriques :
mcp_azure_mcp_monitor
intent: "query logs for <resource-name>"
command: "logs_query"
parameters:
workspaceId: "<workspace-id>"
query: "<KQL-query>"
Voir kql-queries.md pour les requêtes de diagnostic courantes.
Vérifier l'Intégrité des Ressources Azure
Utiliser MCP
mcp_azure_mcp_resourcehealth
intent: "check health status of <resource-name>"
command: "get"
parameters:
resourceId: "<resource-id>"
Utiliser CLI
# Vérifier l'intégrité d'une ressource spécifique
az resource show --ids RESOURCE_ID
# Vérifier l'activité récente
az monitor activity-log list -g RG --max-events 20