GNU/Linux >> Tutoriels Linux >  >> Linux

Outils pour extraire du texte de powerpoint pptx sous Linux?

Si vous pouvez traiter les fichiers en bash , cette ligne décompressera tout le texte :

unzip -qc "$1" ppt/slides/slide*.xml | grep -oP '(?<=\<a:t\>).*?(?=\</a:t\>)'

Passez-lui simplement le fichier pptx en tant que $1 , et il écrira le texte dans le fichier $2 . Le contenu de chaque diapositive n'apparaîtra pas dans l'ordre de présentation, et il n'y aura pas d'étiquettes ou quoi que ce soit, vous aurez donc besoin de quelques lignes de script supplémentaires et d'un répertoire temporaire pour obtenir une liste plus lisible.


Depuis que vous avez installé Abiword, vous pouvez d'abord créer un PDF

libreoffice --headless --convert-to pdf filename.pptx

Et puis utilisez abiword pour convertir le pdf en txt

abiword --to=txt filename.pdf 

Linux
  1. Comment créer une vidéo à partir de fichiers PDF sous Linux

  2. Modifier un courrier entrant de Text/plain à Text/html ?

  3. Linux – Extraire les dates de /etc/shadow ?

  4. Comment afficher certaines lignes d'un fichier texte sous Linux ?

  5. Fichiers spécifiques à Linux (mv ou cp) à partir d'une liste de fichiers texte ?

Comment créer des répertoires à partir d'un fichier texte sous Linux

Comment supprimer le mot de passe d'un fichier PDF sous Linux

Comment afficher les données d'un fichier texte sous Linux

Outils Linux :du contre df

Comment extraire des adresses e-mail d'un fichier texte sous Linux

Comment fusionner des fichiers PDF à l'aide d'outils GUI et CLI sous Linux