Si vous pouvez traiter les fichiers en bash
, cette ligne décompressera tout le texte :
unzip -qc "$1" ppt/slides/slide*.xml | grep -oP '(?<=\<a:t\>).*?(?=\</a:t\>)'
Passez-lui simplement le fichier pptx en tant que $1
, et il écrira le texte dans le fichier $2
. Le contenu de chaque diapositive n'apparaîtra pas dans l'ordre de présentation, et il n'y aura pas d'étiquettes ou quoi que ce soit, vous aurez donc besoin de quelques lignes de script supplémentaires et d'un répertoire temporaire pour obtenir une liste plus lisible.
Depuis que vous avez installé Abiword, vous pouvez d'abord créer un PDF
libreoffice --headless --convert-to pdf filename.pptx
Et puis utilisez abiword pour convertir le pdf en txt
abiword --to=txt filename.pdf