Bpftrace est un nouveau traceur open source pour Linux permettant d'analyser les problèmes de performances de production et de dépanner les logiciels. Ses utilisateurs et contributeurs incluent Netflix, Facebook, Red Hat, Shopify et d'autres, et il a été créé par Alastair Robertson, un talentueux développeur basé au Royaume-Uni qui a remporté plusieurs concours de codage.
Linux dispose déjà de nombreux outils de performance, mais ils sont souvent basés sur des compteurs et ont une visibilité limitée. Par exemple, iostat(1) ou un agent de surveillance peut vous indiquer votre latence moyenne de disque, mais pas la distribution de cette latence. Les distributions peuvent révéler plusieurs modes ou valeurs aberrantes, l'un ou l'autre pouvant être la véritable cause de vos problèmes de performances. Bpftrace est adapté à ce type d'analyse :décomposer les métriques en distributions ou journaux par événement et créer de nouvelles métriques pour la visibilité dans les angles morts.
Vous pouvez utiliser bpftrace via des one-liners ou des scripts, et il est livré avec de nombreux outils prédéfinis. Voici un exemple qui trace la distribution de la latence de lecture pour le PID 181 et l'affiche sous la forme d'un histogramme puissance de deux :
# bpftrace -e 'kprobe:vfs_read /pid == 30153/ { @start[tid] = nsecs; }
kretprobe:vfs_read /@start[tid]/ { @ns = hist(nsecs - @start[tid]); delete(@start[tid]); }'
Attaching 2 probes...
^C
@ns:
[256, 512) 10900 |@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ |
[512, 1k) 18291 |@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@|
[1k, 2k) 4998 |@@@@@@@@@@@@@@ |
[2k, 4k) 57 | |
[4k, 8k) 117 | |
[8k, 16k) 48 | |
[16k, 32k) 109 | |
[32k, 64k) 3 | |
Cet exemple instrumente un événement parmi des milliers disponibles. Si vous rencontrez un problème de performances étrange, il existe probablement une doublure bpftrace qui peut vous éclairer. Pour les grands environnements, cette capacité peut vous aider à économiser des millions. Pour les environnements plus petits, il peut être plus utile pour aider à éliminer les valeurs aberrantes de latence.
Le Terminal Linux
- Les 7 meilleurs émulateurs de terminaux pour Linux
- 10 outils de ligne de commande pour l'analyse de données sous Linux
- Télécharger maintenant :Aide-mémoire SSH
- Aide-mémoire des commandes Linux avancées
- Tutoriels de ligne de commande Linux
J'ai déjà écrit sur bpftrace par rapport à d'autres traceurs, y compris BCC (BPF Compiler Collection). BCC est idéal pour les outils et agents complexes en conserve. Bpftrace est idéal pour les scripts courts et les enquêtes ad hoc. Dans cet article, je résumerai le langage bpftrace, les types de variables, les sondes et les outils.
Bpftrace utilise BPF (Berkeley Packet Filter), un moteur d'exécution intégré au noyau qui traite un jeu d'instructions virtuel. BPF a été étendu (alias eBPF) ces dernières années pour fournir un moyen sûr d'étendre les fonctionnalités du noyau. C'est également devenu un sujet brûlant dans l'ingénierie des systèmes, avec au moins 24 présentations sur BPF lors de la dernière Linux Plumber's Conference. BPF est dans le noyau Linux, et bpftrace est le meilleur moyen de commencer à utiliser BPF pour l'observabilité.
Consultez le guide bpftrace INSTALL pour savoir comment l'installer et obtenir la dernière version ; 0.9.2 vient de sortir. Pour les clusters Kubernetes, il existe également kubectl-trace pour l'exécuter.
Syntaxe
probe[,probe,...] /filter/ { action }
La sonde spécifie les événements à instrumenter. Le filtre est facultatif et peut filtrer les événements en fonction d'une expression booléenne, et l'action est le mini-programme qui s'exécute.
Voici bonjour le monde :
# bpftrace -e 'BEGIN { printf("Hello eBPF!\n"); }'
La sonde est BEGIN , une sonde spéciale qui s'exécute au début du programme (comme awk). Il n'y a pas de filtre. L'action est un printf() déclaration.
Maintenant un vrai exemple :
# bpftrace -e 'kretprobe:sys_read /pid == 181/ { @bytes = hist(retval); }'
Cela utilise un kretprobe pour instrumenter le retour du sys_read() fonction noyau. Si le PID est 181, une variable de carte spéciale @bytes est rempli avec une fonction d'histogramme log2 avec la valeur de retour retval de sys_read() . Cela produit un histogramme de la taille de lecture renvoyée pour le PID 181. Votre application effectue-t-elle de nombreuses lectures d'un octet ? Peut-être que cela peut être optimisé.
Types de sondes
Ce sont des bibliothèques de sondes apparentées. Les types actuellement pris en charge sont (d'autres seront ajoutés) :
Type | Description |
---|---|
point de trace | Points d'instrumentation statique du noyau |
USD | Traçage défini statiquement au niveau de l'utilisateur |
kprobe | Instrumentation de la fonction dynamique du noyau |
kretprobe | Instrumentation de retour de fonction dynamique du noyau |
uprobe | Instrumentation de la fonction dynamique au niveau de l'utilisateur |
sonde uret | Instrumentation de retour de fonction dynamique au niveau de l'utilisateur |
logiciel | Événements basés sur le logiciel du noyau |
matériel | Instrumentation basée sur des compteurs matériels |
point de vigilance | Événements de point de surveillance de la mémoire (en développement) |
profil | Échantillonnage chronométré sur tous les processeurs |
intervalle | Rapports temporisés (à partir d'un processeur) |
COMMENCER | Démarrage de bpftrace |
FIN | Fin de bpftrace |
L'instrumentation dynamique (ou traçage dynamique) est la superpuissance qui vous permet de tracer n'importe quelle fonction logicielle dans un binaire en cours d'exécution sans le redémarrer. Cela vous permet d'aller au fond de n'importe quel problème. Cependant, les fonctions qu'il expose ne sont pas considérées comme une API stable, car elles peuvent changer d'une version logicielle à l'autre. D'où l'instrumentation statique, où les points d'événement sont codés en dur et deviennent une API stable. Lorsque vous écrivez des programmes bpftrace, essayez d'abord d'utiliser les types statiques, avant les dynamiques, afin que vos programmes soient plus stables.
Types de variables
Variable | Description |
---|---|
@nom | mondial |
@nom[clé] | hachage |
@nom[tid] | thread-local |
$name | rayer |
Variables avec un @ préfixe utilise des cartes BPF, qui peuvent se comporter comme des tableaux associatifs. Ils peuvent être renseignés de deux manières :
- Affectation de variable :@name =x ;
- Affectation de fonction :@name =hist(x);
Diverses fonctions de remplissage de carte sont intégrées pour fournir des moyens rapides de résumer les données.
Variables et fonctions intégrées
Voici quelques-unes des variables et fonctions intégrées, mais il y en a bien d'autres.
Variables intégrées :
Variable | Description |
---|---|
pid | ID de processus |
communication | Nom du processus ou de la commande |
nsecs | Heure actuelle en nanosecondes |
kstack | Traçage de la pile du noyau |
ustack | Traçage de la pile au niveau de l'utilisateur |
arg0...argN | Arguments de fonction |
arguments | Arguments de point de trace |
récupération | Valeur de retour de la fonction |
nom | Nom complet de la sonde |
Fonctions intégrées :
Fonction | Description |
---|---|
printf("...") | Imprimer la chaîne formatée |
heure("...") | Imprimer l'heure formatée |
système("...") | Exécuter la commande shell |
@ =compte() | Compter les événements |
@ =hist(x) | Histogramme puissance de 2 pour x |
@ =lhist(x, min, max, pas) | Histogramme linéaire pour x |
Consultez le guide de référence pour plus de détails.
Tutoriel One-liners
Une excellente façon d'apprendre bpftrace est via des one-liners, que j'ai transformés en un tutoriel one-liner qui couvre ce qui suit :
Liste des sondes | bpftrace -l 'tracepoint:syscalls:sys_enter_*' |
Bonjour tout le monde | bpftrace -e 'BEGIN { printf("hello world\n") }' |
Le fichier s'ouvre | bpftrace -e 'tracepoint:syscalls:sys_enter_open { printf("%s %s\n", comm, str(args->filename)) }' |
Syscall compte par processus | bpftrace -e 'tracepoint:raw_syscalls:sys_enter { @[comm] =count() }' |
Répartition des octets read() | bpftrace -e 'tracepoint:syscalls:sys_exit_read /pid ==18644/ { @bytes =hist(args->retval) }' |
Traçage dynamique du noyau des octets read() | bpftrace -e 'kretprobe:vfs_read { @bytes =lhist(retval, 0, 2000, 200) }' |
Lecture temporelle()s | bpftrace -e 'kprobe:vfs_read { @start[tid] =nsecs } kretprobe:vfs_read /@start[tid]/ { @ns[comm] =hist(nsecs - @start[tid]); supprimer(@start[tid]) }' |
Compter les événements au niveau du processus | bpftrace -e 'tracepoint:sched:sched* { @[name] =count() } interval:s:5 { exit() }' |
Profiler les piles du noyau sur le processeur | bpftrace -e 'profile:hz:99 { @[stack] =count() }' |
Suivi du planificateur | bpftrace -e 'tracepoint:sched:sched_switch { @[stack] =count() }' |
Bloquer le suivi des E/S | bpftrace -e 'tracepoint:block:block_rq_issue { @ =hist(args->bytes); } |
Traçage de structure du noyau (un script, pas une ligne) | Commande : bpftrace path.bt , où se trouve le fichier path.bt : #include #include kprobe:vfs_open { printf("open path:%s\n", str(((path *)arg0)->dentry->d_name .Nom)); } |
Voir le didacticiel pour une explication de chacun.
Outils fournis
Outre les one-liners, les programmes bpftrace peuvent être des scripts multilignes. Bpftrace est livré avec 28 d'entre eux comme outils :
Ceux-ci peuvent être trouvés dans /tools répertoire :
tools# ls *.bt
bashreadline.bt dcsnoop.bt oomkill.bt syncsnoop.bt vfscount.bt
biolatency.bt execsnoop.bt opensnoop.bt syscount.bt vfsstat.bt
biosnoop.bt gethostlatency.bt pidpersec.bt tcpaccept.bt writeback.bt
bitesize.bt killsnoop.bt runqlat.bt tcpconnect.bt xfsdist.bt
capable.bt loads.bt runqlen.bt tcpdrop.bt
cpuwalk.bt mdflush.bt statsnoop.bt tcpretrans.bt
Outre leur utilisation dans le diagnostic des problèmes de performances et le dépannage général, ils offrent également un autre moyen d'apprendre bpftrace. Voici quelques exemples.
Source
Voici le code de biolatency.bt :
tools# cat -n biolatency.bt
1 /*
2 * biolatency.bt Block I/O latency as a histogram.
3 * For Linux, uses bpftrace, eBPF.
4 *
5 * This is a bpftrace version of the bcc tool of the same name.
6 *
7 * Copyright 2018 Netflix, Inc.
8 * Licensed under the Apache License, Version 2.0 (the "License")
9 *
10 * 13-Sep-2018 Brendan Gregg Created this.
11 */
12
13 BEGIN
14 {
15 printf("Tracing block device I/O... Hit Ctrl-C to end.\n");
16 }
17
18 kprobe:blk_account_io_start
19 {
20 @start[arg0] = nsecs;
21 }
22
23 kprobe:blk_account_io_done
24 /@start[arg0]/
25
26 {
27 @usecs = hist((nsecs - @start[arg0]) / 1000);
28 delete(@start[arg0]);
29 }
30
31 END
32 {
33 clear(@start);
34 }
Il est simple, facile à lire et suffisamment court pour être inclus dans une diapositive. Cette version utilise le traçage dynamique du noyau pour instrumenter le blk_account_io_start() et blk_account_io_done() fonctions, et il passe un horodatage entre eux sur arg0 pour chaque. arg0 sur kprobe est le premier argument de cette fonction, qui est la struct request * , et son adresse mémoire est utilisée comme identifiant unique.
Fichiers d'exemple
Vous pouvez voir des captures d'écran et des explications de ces outils dans le référentiel GitHub sous la forme *_example.txt des dossiers. Par exemple :
tools# more biolatency_example.txt
Demonstrations of biolatency, the Linux BPF/bpftrace version.
This traces block I/O, and shows latency as a power-of-2 histogram. For example:
# biolatency.bt
Attaching 3 probes...
Tracing block device I/O... Hit Ctrl-C to end.
^C
@usecs:
[256, 512) 2 | |
[512, 1K) 10 |@ |
[1K, 2K) 426 |@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@|
[2K, 4K) 230 |@@@@@@@@@@@@@@@@@@@@@@@@@@@@ |
[4K, 8K) 9 |@ |
[8K, 16K) 128 |@@@@@@@@@@@@@@@ |
[16K, 32K) 68 |@@@@@@@@ |
[32K, 64K) 0 | |
[64K, 128K) 0 | |
[128K, 256K) 10 |@ |
While tracing, this shows that 426 block I/O had a latency of between 1K and 2K
usecs (1024 and 2048 microseconds), which is between 1 and 2 milliseconds.
There are also two modes visible, one between 1 and 2 milliseconds, and another
between 8 and 16 milliseconds: this sounds like cache hits and cache misses.
There were also 10 I/O with latency 128 to 256 ms: outliers. Other tools and
instrumentation, like biosnoop.bt, can shed more light on those outliers.
[...]
Parfois, il peut être plus efficace de passer directement au fichier d'exemple lorsque vous essayez de comprendre ces outils, car le résultat peut être évident (de par sa conception !).
Pages de manuel
Il existe également des pages de manuel pour chaque outil du dépôt GitHub sous /man/man8. Ils incluent des sections sur les champs de sortie et la surcharge attendue de l'outil.
# nroff -man man/man8/biolatency.8
biolatency(8) System Manager's Manual biolatency(8)
NAME
biolatency.bt - Block I/O latency as a histogram. Uses bpftrace/eBPF.
SYNOPSIS
biolatency.bt
DESCRIPTION
This tool summarizes time (latency) spent in block device I/O (disk
I/O) as a power-of-2 histogram. This allows the distribution to be
studied, including modes and outliers. There are often two modes, one
for device cache hits and one for cache misses, which can be shown by
this tool. Latency outliers will also be shown.
[...]
L'écriture de toutes ces pages de manuel était la partie la moins amusante du développement de ces outils, et certaines ont pris plus de temps à écrire que l'outil n'a pris à se développer, mais c'est agréable de voir le résultat final.
bpftrace contre BCC
Depuis qu'eBPF a fusionné dans le noyau, la plupart des efforts ont été concentrés sur l'interface BCC, qui fournit une bibliothèque BPF et des interfaces Python, C++ et Lua pour l'écriture de programmes. J'ai développé de nombreux outils en BCC/Python; cela fonctionne très bien, bien que le codage en BCC soit verbeux. Si vous vous attaquez à un problème de performances, bpftrace est préférable pour vos requêtes personnalisées ponctuelles. Si vous écrivez un outil avec de nombreuses options de ligne de commande ou un agent qui utilise des bibliothèques Python, vous voudrez peut-être envisager d'utiliser BCC.
Dans l'équipe de performance de Netflix, nous utilisons à la fois :BCC pour développer des outils prêts à l'emploi que d'autres peuvent facilement utiliser et pour développer des agents ; et bpftrace pour une analyse ad hoc. L'équipe d'ingénierie réseau a utilisé BCC pour développer un agent pour ses besoins. L'équipe de sécurité s'intéresse particulièrement à bpftrace pour une instrumentation ad hoc rapide permettant de détecter les vulnérabilités zero-day. Et je m'attends à ce que les équipes de développeurs utilisent les deux sans le savoir, via les interfaces graphiques en libre-service que nous construisons (Vector), et occasionnellement peuvent SSH dans une instance et exécuter un outil prédéfini ou ad hoc bpftrace one-liner.
En savoir plus
- Le référentiel bpftrace sur GitHub
- Tutoriel sur les lignes simples de bpftrace
- Le guide de référence bpftrace
- Le référentiel BCC pour les outils plus complexes basés sur BPF
J'ai également un livre qui sort cette année et qui traite de bpftrace :BPF Performance Tools :Linux System and Application Observability , qui sera publié par Addison Wesley, et qui contient de nombreux nouveaux outils bpftrace.
Merci à Alastair Robertson pour la création de bpftrace, et aux communautés bpftrace, BCC et BPF pour tout le travail effectué au cours des cinq dernières années.