Version courte : Dans quelles circonstances est dd
sûr à utiliser pour copier des données, sûr signifiant qu'il n'y a aucun risque de corruption dû à une lecture ou une écriture partielle ?
Version longue — préambule : dd
est souvent utilisé pour copier des données, notamment depuis ou vers un appareil (exemple). On lui attribue parfois des propriétés mystiques de pouvoir accéder aux appareils à un niveau inférieur à d'autres outils (alors qu'en fait c'est le fichier de l'appareil qui fait la magie) - pourtant dd if=/dev/sda
est la même chose que cat /dev/sda
. dd
est parfois considéré comme plus rapide, mais cat
peut le battre dans la pratique. Néanmoins, dd
a des propriétés uniques qui le rendent parfois vraiment utile.
Problème : dd if=foo of=bar
n'est en fait pas la même chose que cat <foo >bar
. Sur la plupart des unix¹, dd
fait un seul appel à read()
. (Je trouve POSIX flou sur ce qui constitue la "lecture d'un bloc d'entrée" dans dd
.) Si read()
renvoie un résultat partiel (ce qui, selon POSIX et d'autres documents de référence, est autorisé sauf indication contraire dans la documentation d'implémentation), un bloc partiel est copié. Exactement le même problème existe pour write()
.
Observations :En pratique, j'ai trouvé que dd
peut faire face aux périphériques de bloc et aux fichiers normaux, mais c'est peut-être simplement que je ne l'ai pas beaucoup exercé. En ce qui concerne les tuyaux, il n'est pas difficile de mettre dd
en faute; par exemple essayez ce code :
yes | dd of=out bs=1024k count=10
et vérifiez la taille du out
fichier (il est susceptible d'être bien inférieur à 10 Mo).
Question :Dans quelles circonstances est dd
sûr à utiliser pour copier des données ? En d'autres termes, quelles conditions sur les tailles de bloc, sur l'implémentation, sur les types de fichiers, etc, peuvent garantir que dd
va copier toutes les données ?
(GNU dd a un fullblock
flag pour lui dire d'appeler read()
ou write()
en boucle afin de transférer un bloc complet. Donc dd iflag=fullblock
est toujours en sécurité. Ma question concerne le cas où ces drapeaux (qui n'existent pas sur d'autres implémentations) ne sont pas utilisés.)
¹
J'ai vérifié sur OpenBSD, GNU coreutils et BusyBox.
Réponse acceptée :
De la spécification :
- Si le
bs=
expr
l'opérande est spécifié et aucune conversion autre quesync
,noerror
, ounotrunc
sont demandées, les données renvoyées par chaque bloc d'entrée doivent être écrites dans un bloc de sortie séparé ; si leread()
renvoie moins d'un bloc complet et lesync
la conversion n'est pas spécifiée, le bloc de sortie résultant doit être de la même taille que le bloc d'entrée.
C'est donc probablement ce qui cause votre confusion. Oui, car dd
est conçu pour le blocage, par défaut read()
partiel s sera mappé 1:1 sur write()
partiel s, ou bien sync
d out on tail padding NUL ou espace chars à bs=
taille lorsque conv=sync
est spécifié.
Cela signifie que dd
est sûr à utiliser pour copier des données (sans risque de corruption due à une lecture ou une écriture partielle) dans tous les cas sauf un où il est arbitrairement limité par un count=
argument, car sinon dd
se fera un plaisir de write()
sa sortie dans des blocs de taille identique à ceux dans lesquels son entrée était read()
jusqu'à ce qu'il read()
s complètement à travers elle. Et même cette mise en garde n'est que vraie quand bs=
est spécifié ou obs=
n'est pas spécifié, comme l'indique la toute prochaine phrase de la spécification :
- Si le
bs=
expr
l'opérande n'est pas spécifié, ou une conversion autre quesync
,noerror
, ounotrunc
est demandée, l'entrée doit être traitée et collectée dans des blocs de sortie de taille normale jusqu'à ce que la fin de la saisie soit atteinte.
Sans ibs=
et/ou obs=
arguments cela n'a pas d'importance - parce que ibs
et obs
sont tous les deux de la même taille par défaut. Cependant, vous pouvez être explicite à propos de la mise en mémoire tampon des entrées en spécifiant différentes tailles pour l'un ou l'autre et non en spécifiant bs=
(parce que c'est prioritaire) .
Par exemple, si vous faites :
IN| dd ibs=1| OUT
…puis un POSIX dd
va write()
en morceaux de 512 octets en collectant chaque read()
individuellement octet dans un seul bloc de sortie.
Sinon, si vous le faites…
IN| dd obs=1kx1k| OUT
…un POSIX dd
va read()
au maximum 512 octets à la fois, mais write()
chaque bloc de sortie de la taille d'un mégaoctet (le noyau permettant et exceptant éventuellement le dernier - parce que c'est EOF) intégralement en collectant les entrées dans des blocs de sortie de taille normale .
Également à partir de la spécification, cependant :
count=n
- Copier uniquement n blocs d'entrée.
count=
correspond à i?bs=
blocs, et donc afin de gérer une limite arbitraire sur count=
de manière portable, vous aurez besoin de deux dd
s. La façon la plus pratique de le faire avec deux dd
s est en canalisant la sortie de l'un vers l'entrée de l'autre, ce qui nous place sûrement dans le domaine de la lecture/écriture d'un fichier spécial quel que soit le type d'entrée d'origine.
Un tube IPC signifie que lors de la spécification de [io]bs=
fait valoir que, pour le faire en toute sécurité, vous devez conserver ces valeurs dans le PIPE_BUF
défini par le système limite. POSIX stipule que le noyau du système doit uniquement garantir la read()
atomique s et write()
s dans la limite de PIPE_BUF
comme défini dans limits.h
. POSIX garantit que PIPE_BUF
être au moins …
{_POSIX_PIPE_BUF}
- Nombre maximal d'octets dont le caractère atomique est garanti lors de l'écriture dans un tube.
- Valeur :512
…(qui se trouve être aussi le dd
par défaut taille de bloc d'e/s) , mais la valeur réelle est généralement d'au moins 4k. Sur un système Linux à jour, il s'agit par défaut de 64k.
Ainsi, lorsque vous configurez votre dd
processus, vous devriez le faire sur un bloc facteur basé sur trois valeurs :
- bs =( obs =
PIPE_BUF
ou moins ) - n =nombre total souhaité d'octets lus
- compte =n / bs
Comme :
yes | dd obs=1k | dd bs=1k count=10k of=/dev/null
10240+0 records in
10240+0 records out
10485760 bytes (10 MB) copied, 0.1143 s, 91.7 MB/s
Vous devez synchroniser les entrées/sorties avec dd
pour gérer les entrées non recherchables. En d'autres termes, rendez les pipe-buffers explicites et ils cessent d'être un problème. C'est ce que dd
est pour. La quantité inconnue ici est yes
's buffer size - mais si vous bloquez cela à un connu quantité avec un autre dd
alors une petite multiplication informée peut faire dd
utilisation sûre pour copier des données (sans risque de corruption due à une lecture ou une écriture partielle) même en limitant arbitrairement l'entrée avec count=
avec n'importe quel type d'entrée arbitraire sur n'importe quel système POSIX et sans manquer un seul octet.
Voici un extrait de la spécification POSIX :
ibs=
expr
- Spécifiez la taille du bloc d'entrée, en octets, par
expr
(la valeur par défaut est 512) .
- Spécifiez la taille du bloc d'entrée, en octets, par
obs=
expr
- Spécifiez la taille du bloc de sortie, en octets, par
expr
(la valeur par défaut est 512) .
- Spécifiez la taille du bloc de sortie, en octets, par
bs=
expr
- Définir les tailles de bloc d'entrée et de sortie sur
expr
octets, remplaçantibs=
etobs=
. Si aucune conversion autre quesync
,noerror
, etnotrunc
est spécifié, chaque bloc d'entrée doit être copié dans la sortie en tant que bloc unique sans agrégation de blocs courts.
- Définir les tailles de bloc d'entrée et de sortie sur
Vous trouverez également une partie de cela mieux expliquée ici.