Surveiller les performances d’un serveur Linux reste une compétence essentielle pour chaque administrateur système en 2025, face à des charges applicatives constantes. Entre diagnostics rapides et analyses historiques, la ligne de commande fournit des outils fiables pour établir un diagnostic précis et reproductible.
Ce guide rassemble commandes et utilitaires incontournables pour mesurer CPU, mémoire, stockage et réseau au quotidien, tout en précisant usages et limites. Commencez par mémoriser les indicateurs essentiels puis choisissez l’outil adapté selon l’incident détecté.
A retenir :
- Usage CPU et charge moyenne pour détection des processus gourmands
- Temps d’attente disque et I/O pour diagnostiquer les goulets d’étranglement
- Bande passante et latence réseau pour localiser pannes distribuées
- Métriques historiques pour corréler pics et changements d’application
Surveillance CPU et processus avec top, htop et nmon
Après avoir listé les indicateurs prioritaires, la supervision CPU s’appuie sur des outils interactifs et non interactifs selon le besoin. Les utilitaires top, htop et nmon couvrent des usages complémentaires, de l’analyse immédiate à la capture pour post-traitement.
Les captures sauvegardées par nmon facilitent l’archivage et l’automatisation d’analyses périodiques, particulièrement pertinentes lors d’incidents sporadiques. Préparez ensuite les commandes disque et réseau pour diagnostiquer un problème systémique plus large.
Outils recommandés CPU:
- top pour vue immédiate des processus et des consommations
- htop pour interface interactive et gestion des priorités utilisateur
- nmon pour capture csv et analyse ultérieure
- mpstat pour répartition CPU par cœur et usage historique
Outil
Type
Interaction
Usage privilégié
top
Processus
Terminal interactif
Diagnostic immédiat
htop
Processus
Interface améliorée
Gestion interactive des tâches
nmon
Enregistrement
Mode capture
Analyse post-mortem
mpstat
Statistiques
Non interactif
Sous-usage par cœur
« Après dix ans d’administration, j’utilise top pour le diagnostic instantané et nmon pour les enquêtes historiques »
Alex N.
Usage réel de top et htop pour diagnostiquer les processus
Ce passage détaille pourquoi top reste une référence pour repérer les processus gourmands et les états zombies rapidement. L’affichage de colonnes comme PID, %CPU, %MEM et TIME+ permet d’isoler un coupable en quelques secondes.
htop ajoute des raccourcis et une ergonomie verticale utile sur des consoles larges, rendant l’opération de kill ou renice plus sûre et plus rapide. Selon LeMagIT, ces outils forment un couple efficace pour l’investigation instantanée.
Mesures CPU détaillées avec mpstat, sar et vmstat
Cette sous-partie relie la vue instantanée aux séries temporelles fournies par sar et vmstat pour identifier des tendances persistantes. Ces outils extraient des compteurs du noyau utiles pour corréler pics de charge et opérations de maintenance.
vmstat donne des séries courtes sur mémoire et I/O, tandis que sar fournit des historiques configurables pour plusieurs jours, ce qui facilite l’attribution de responsabilités. Selon DevSecOps, la corrélation chronologique réduit les faux diagnostics.
Analyse E/S et stockage : iotop, iostat, dstat et collectl
Dans la continuité des mesures CPU, il faut vérifier le sous-système disque dès que l’I/O influence les temps de réponse applicatifs. Les outils iotop et iostat sont indispensables pour localiser les processus et les périphériques responsables.
Collectl et dstat offrent une vision consolidée multi-ressources pour détecter des corrélations entre E/S disque et usage CPU, pratique lors d’incidents complexes. Préparez ensuite la supervision réseau pour compléter l’investigation.
Signes d’alerte disque:
- Latence élevée et files d’attente I/O persistantes sur un périphérique
- Processus avec fort KB_READ ou KB_WRITTEN en continu
- Attentes swap récurrentes malgré mémoire disponible
- Erreur de filesystem ou montage bloqué lors d’opérations
Repérer les goulets d’étranglement disque avec iotop et iostat
Cette section explique comment iotop identifie les processus responsables des entrées/sorties, et comment iostat corrèle ces charges avec les périphériques. Ensemble, ils aident à distinguer contention applicative et défaillance matérielle.
Type de périphérique
Indicateur clé
Outil recommandé
Action typique
SSD
Latency faible mais pics I/O
iostat, iotop
Vérifier filesystems et queue depth
HDD
Temps d’attente plus variable
iostat
Analyser fragmentation et planification
NFS
Débit et latence réseau dépendants
iostat, dstat
Corréler réseau et métriques serveur
RAID
Rebuild et hotspots
collectl
Surveiller activité rebuild et IOPS
« Lors d’un incident de production, iotop m’a permis d’identifier un processus sauvegarde mal configuré »
Marie N.
Surveillance polyvalente avec glances, dstat et collectl
Glances propose un affichage synthétique multi-ressources, utile pour une première lecture globale avant approfondissement. Dstat et collectl fournissent des flux temporels précis et exportables pour des analyses automatisées ou scriptées.
Selon LeMagIT, l’usage combiné de ces utilitaires réduit significativement le temps moyen de résolution lors d’incidents I/O. Intégrez ces sorties dans vos playbooks de diagnostic pour plus d’efficacité.
Réseau et vigilance : tcpdump, nethogs, iftop et suricata
Après avoir isolé CPU et disques, un problème peut encore provenir du réseau, d’où l’importance des outils de capture et d’analyse en ligne de commande. tcpdump, nethogs et iftop couvrent les diagnostics de paquets et d’usage par processus.
Pour la sécurité et les alertes, Suricata et Nagios complètent la panoplie en fournissant détection d’anomalies et supervision centralisée d’hôtes. Cette combinaison aide à prévenir les incidents avant qu’ils n’impactent les utilisateurs.
Commandes packet capture:
- tcpdump pour captures filtrées et enquêtes approfondies
- nethogs pour identifier processus consommant la bande passante
- iftop pour observers pairs et débits en temps réel
- suricata pour détection d’intrusion et alerting
Diagnostic réseau en profondeur avec tcpdump et ss
Cette sous-partie montre comment tcpdump capture paquets et génère des fichiers pcap pour analyse par Wireshark si nécessaire. L’outil ss remplace souvent netstat pour obtenir des sockets et états TCP plus modernes.
Selon Geekflare, maîtriser les filtres BPF dans tcpdump réduit le bruit de capture et accélère l’identification du flux problématique. Enregistrez les captures pertinentes pour post-traitement en cas d’incident juridique.
« J’ai résolu une panne intermittente en corrélant tcpdump et les logs d’application, ce fut décisif »
Pierre N.
Surveillance de sécurité et alertes avec Suricata et Nagios
Dans l’enchaînement de diagnostics, la couche sécurité fournit des signaux précoces grâce à des signatures ou détections comportementales. Suricata inspecte le trafic, tandis que Nagios centralise l’état des services et génère des notifications ciblées.
Selon une synthèse d’experts, la mise en place d’alertes basées sur seuils et comportements réduit l’impact business des incidents réseau. Intégrez ces alertes aux Runbooks pour accélérer la remédiation.
« Mon équipe a déployé Suricata et Nagios pour obtenir alertes exploitables sans trop de faux positifs »
Claire N.
