azure-diagnostics

Par microsoft · azure-skills

Déboguez les problèmes de production Azure à l'aide d'AppLens, Azure Monitor, resource health et d'un triage sécurisé. QUAND : déboguer des problèmes de production, dépanner App Service, CPU élevé sur App Service, échec de déploiement App Service, dépanner Container Apps, dépanner Functions, dépanner AKS, kubectl ne peut pas se connecter, défaillances kube-system/CoreDNS, pod en attente, crashloop, nœud non prêt, échecs de mise à niveau, analyser des logs, KQL, insights, échecs de récupération d'image, problèmes de cold start, échecs de health probe, resource health, cause racine des erreurs, dépanner Event Hubs, dépanner Service Bus, erreur de SDK de messagerie, échec de connexion AMQP, perte de verrou de message, dead letter Service Bus.

npx skills add https://github.com/microsoft/azure-skills --skill azure-diagnostics

Diagnostics Azure

GUIDANCE FAISANT AUTORITÉ — CONFORMITÉ OBLIGATOIRE

Ce document est la source officielle pour déboguer et dépanner les problèmes de production Azure. Suivez ces instructions pour diagnostiquer et résoudre systématiquement les problèmes courants des services Azure.

Déclencheurs

Activez cette compétence quand l'utilisateur veut :

  • Déboguer ou dépanner des problèmes de production
  • Diagnostiquer des erreurs dans les services Azure
  • Analyser les journaux d'application ou les métriques
  • Corriger les problèmes de tirage d'image, de démarrage à froid ou de sonde de santé
  • Enquêter sur les raisons pour lesquelles les ressources Azure échouent
  • Trouver la cause première des erreurs d'application
  • Dépanner les problèmes d'App Service (CPU élevé, échecs de déploiement, plantages, réponses lentes, TLS/domaines personnalisés)
  • Répondre à des invites comme « dépanner app service », « app service CPU élevé » ou « échec de déploiement app service »
  • Dépanner les Azure Function Apps (échecs d'invocation, délais d'expiration, erreurs de binding)
  • Trouver l'espace de travail App Insights ou Log Analytics lié à une Function App
  • Dépanner les clusters AKS, nœuds, pods, ingress ou les problèmes de réseau Kubernetes
  • Dépanner les problèmes de SDK Azure Messaging (Event Hubs, échecs de connexion Service Bus, erreurs AMQP, problèmes de verrouillage de message)

Règles

  1. Commencer par un flux de diagnostic systématique
  2. Utiliser AppLens (MCP) pour les diagnostics alimentés par IA quand disponible
  3. Vérifier l'intégrité des ressources avant d'approfondir les journaux
  4. Sélectionner le guide de dépannage approprié en fonction du type de service
  5. Documenter les résultats et les étapes de correction tentées
  6. Router les incidents AKS vers le document de dépannage AKS dédié

Flux de Diagnostic Rapide

  1. Identifier les symptômes - Qu'est-ce qui échoue ?
  2. Vérifier l'intégrité des ressources - Azure est-il sain ?
  3. Examiner les journaux - Que montrent les journaux ?
  4. Analyser les métriques - Modèles de performance ?
  5. Enquêter sur les changements récents - Qu'a changé ?

Guides de Dépannage par Service

Service Problèmes courants Référence
Container Apps Échecs de tirage d'image, démarrages à froid, sondes de santé, incompatibilités de port container-apps/
App Service CPU élevé, échecs de déploiement, plantages, réponses lentes, TLS/domaines personnalisés app-service/
Function Apps Détails d'application, échecs d'invocation, délais d'expiration, erreurs de binding, démarrages à froid, paramètres d'application manquants functions/
AKS Accès au cluster, nœuds, kube-system, planification, crash loops, ingress, DNS, mises à niveau Dépannage AKS
Messaging Erreurs SDK Event Hubs & Service Bus, défaillances AMQP, verrou de message, connectivité Dépannage Messaging

Routage

  • Garder les diagnostics de Container Apps et Function Apps dans cette compétence parent.
  • Router les incidents AKS actifs, l'intake spécifique à AKS, la collecte de preuves et les conseils de correction vers Dépannage AKS.
  • Router le dépannage SDK Azure Messaging (Event Hubs, Service Bus) vers Dépannage Messaging.

Référence Rapide

Commandes de Diagnostic Courantes

# Vérifier l'intégrité des ressources
az resource show --ids RESOURCE_ID
# Afficher le journal d'activité
az monitor activity-log list -g RG --max-events 20
# Journaux Container Apps
az containerapp logs show --name APP -g RG --follow
# Journaux Function App (interroger les traces App Insights)
az monitor app-insights query --apps APP-INSIGHTS -g RG \
  --analytics-query "traces | where timestamp > ago(1h) | order by timestamp desc | take 50"

AppLens (Outils MCP)

Pour les diagnostics alimentés par IA, utilisez :

mcp_azure_mcp_applens
  intent: "diagnose issues with <resource-name>"
  command: "diagnose"
  parameters:
    resourceId: "<resource-id>"

Fournit :
- Détection automatique des problèmes
- Analyse de la cause première
- Recommandations de correction

Azure Monitor (Outils MCP)

Pour interroger les journaux et les métriques :

mcp_azure_mcp_monitor
  intent: "query logs for <resource-name>"
  command: "logs_query"
  parameters:
    workspaceId: "<workspace-id>"
    query: "<KQL-query>"

Voir kql-queries.md pour les requêtes de diagnostic courantes.


Vérifier l'Intégrité des Ressources Azure

Utiliser MCP

mcp_azure_mcp_resourcehealth
  intent: "check health status of <resource-name>"
  command: "get"
  parameters:
    resourceId: "<resource-id>"

Utiliser CLI

# Vérifier l'intégrité d'une ressource spécifique
az resource show --ids RESOURCE_ID

# Vérifier l'activité récente
az monitor activity-log list -g RG --max-events 20

Références

Skills similaires