Vous devrez utiliser deux outils de ligne de commande différents, selon que vous travaillez avec le format .doc ou .docx.
Pour .doc, utilisez catdoc :
catdoc foo.doc > foo.txt
Pour .docx, utilisez docx2txt :
docx2txt foo.docx
Ce dernier produira un fichier appelé foo.txt dans le même répertoire que l'original.
Je ne sais pas quelle distribution Linux vous utilisez, mais catdoc et docx2txt sont disponibles dans les dépôts Ubuntu, par exemple :
apt-get install docx2txt
Ou avec Homebrew sur Mac :
brew install docx2txt
voici un projet perl qui prétend le faire. J'ai également fait beaucoup de choses à la main, en utilisant XSLT sur le document.xml. le fichier Docx lui-même n'est qu'un fichier zip, vous pouvez le décompresser et inspecter les éléments. Je dirai que ce n'est pas difficile à faire pour des fichiers spécifiques, mais c'est très difficile à faire dans le cas général, en raison du manque de documentation sur la façon dont Word stocke les choses en interne et de la variance de la représentation interne.