GNU/Linux >> Tutoriels Linux >  >> Linux

Convertir doc en txt via la ligne de commande

Vous devrez utiliser deux outils de ligne de commande différents, selon que vous travaillez avec le format .doc ou .docx.

Pour .doc, utilisez catdoc :

catdoc foo.doc > foo.txt

Pour .docx, utilisez docx2txt :

docx2txt foo.docx

Ce dernier produira un fichier appelé foo.txt dans le même répertoire que l'original.

Je ne sais pas quelle distribution Linux vous utilisez, mais catdoc et docx2txt sont disponibles dans les dépôts Ubuntu, par exemple :

apt-get install docx2txt

Ou avec Homebrew sur Mac :

brew install docx2txt

voici un projet perl qui prétend le faire. J'ai également fait beaucoup de choses à la main, en utilisant XSLT sur le document.xml. le fichier Docx lui-même n'est qu'un fichier zip, vous pouvez le décompresser et inspecter les éléments. Je dirai que ce n'est pas difficile à faire pour des fichiers spécifiques, mais c'est très difficile à faire dans le cas général, en raison du manque de documentation sur la façon dont Word stocke les choses en interne et de la variance de la représentation interne.


Linux
  1. Ajuster le volume via la ligne de commande pour que la notification de volume s'affiche ?

  2. Commande de chat Linux

  3. Dépanner GlusterFS

  4. Écrire dans le fichier .txt ?

  5. Convertir la sortie ls en csv

Commande principale Linux

Openssl Générant Sha-256 ?

Comment convertir ISO8859-15 en UTF8 ?

Convertir toutes les extensions de fichiers en minuscules

openpyxl convertir CSV en EXCEL

Convertir les CRLF en sauts de ligne sous Linux