L'outil habituel pour convertir des documents Microsoft Office en HTML ou d'autres formats était mswordview, qui a depuis été renommé vwWare.
Si vous recherchez un outil en ligne de commande, ils recommandent en fait d'utiliser AbiWord pour effectuer la conversion :
AbiWord --to=txt
Si vous recherchez une bibliothèque, commencez par la page de présentation de wvWare. Ils maintiennent également une liste de bibliothèques et d'outils qui lisent les documents MS Office.
J'opterais pour la solution en ligne de commande (puis j'utiliserais le module de sous-processus Python pour exécuter les outils à partir de Python).
Convertisseurs pour msword (catdoc ), excel (xls2csv ) et ppt (catppt ) peut être trouvé (sous forme source) ici :http://vitus.wagner.pp.ru/software/catdoc/.
Je ne peux pas vraiment commenter l'utilité de catppt mais catdoc et xls2csv fonctionnent très bien !
Mais assurez-vous d'abord de rechercher vos référentiels de distributions... Sur Ubuntu, par exemple, catdoc n'est qu'un apt-get rapide.
Vous pouvez accéder à OpenOffice via l'API Python.
Essayez d'utiliser ceci comme base :http://wiki.services.openoffice.org/wiki/Odt2txt.py