Tout d'abord, vous ne voulez certainement pas ouvrir le fichier dans un éditeur (il est beaucoup trop volumineux pour être modifié de cette façon).
Au lieu de cela, si vous voulez simplement identifier si le fichier contient autre chose que A
, T
, C
et G
, vous pouvez le faire avec
grep '[^ATCG]' filename
Cela renverrait toutes les lignes contenant autre chose que ces quatre caractères.
Si vous souhaitez supprimer ces caractères du fichier, vous pouvez le faire avec
tr -c -d 'ATCG\n' <filename >newfilename
(si c'est la bonne façon de "corriger" le fichier ou non, je ne sais pas)
Cela supprimerait tous les caractères du fichier qui ne sont pas l'un des quatre, et il conserverait également les retours à la ligne (\n
). Le fichier édité serait écrit dans newfilename
.
S'il s'agit d'une erreur systématique qui a ajouté quelque chose au fichier, cela pourrait éventuellement être corrigé par sed
ou awk
, mais nous ne savons pas encore à quoi ressemblent vos données.
Si vous avez le fichier ouvert en vi
ou vim
, puis la commande
/[^ATCG]
trouvera le caractère suivant dans le tampon d'édition qui n'est pas un A
, T
, C
ou G
.
Et :%s/[^ATCG]//g
les supprimera tous.