GNU/Linux >> Tutoriels Linux >  >> Linux

python convertir les documents Microsoft Office en texte brut sous Linux

L'outil habituel pour convertir des documents Microsoft Office en HTML ou d'autres formats était mswordview, qui a depuis été renommé vwWare.

Si vous recherchez un outil en ligne de commande, ils recommandent en fait d'utiliser AbiWord pour effectuer la conversion :

AbiWord --to=txt

Si vous recherchez une bibliothèque, commencez par la page de présentation de wvWare. Ils maintiennent également une liste de bibliothèques et d'outils qui lisent les documents MS Office.


J'opterais pour la solution en ligne de commande (puis j'utiliserais le module de sous-processus Python pour exécuter les outils à partir de Python).

Convertisseurs pour msword (catdoc ), excel (xls2csv ) et ppt (catppt ) peut être trouvé (sous forme source) ici :http://vitus.wagner.pp.ru/software/catdoc/.

Je ne peux pas vraiment commenter l'utilité de catppt mais catdoc et xls2csv fonctionnent très bien !

Mais assurez-vous d'abord de rechercher vos référentiels de distributions... Sur Ubuntu, par exemple, catdoc n'est qu'un apt-get rapide.


Vous pouvez accéder à OpenOffice via l'API Python.

Essayez d'utiliser ceci comme base :http://wiki.services.openoffice.org/wiki/Odt2txt.py


Linux
  1. Comment installer Python sur Linux Mint 20

  2. chfn Exemples de commandes sous Linux

  3. Comment convertir un PDF en texte sous Linux (interface graphique et ligne de commande)

  4. Mettre à jour python sur linux 2.7 à 3.5

  5. Comment puis-je justifier du texte brut sous Linux?

Installer python 3 sur Redhat 8

Comment installer Microsoft Edge sur Linux

Comment convertir une page Web en PDF sous Linux

Comment installer Microsoft OneNote sous Linux

Distribution Linux de Microsoft :CBL-Mariner

Ubuntu Linux – yED(Graph Editor) Alternative de Microsoft Office Visio