GNU/Linux >> Tutoriels Linux >  >> Linux

Existe-t-il une sorte de convertisseur PDF en texte ?

J'ai besoin de fichiers PDF en texte pour pouvoir les rechercher en masse à partir de la ligne de commande. Existe-t-il un convertisseur pour Ubuntu, OBSD ou une distribution similaire ?

Peut-être un article connexe, OCR avec ubuntu ici.

Réponse acceptée :

Vous avez beaucoup d'options !

pdftotext de poppler a déjà été mentionné.

Il existe un programme Haskell appelé pdf2line qui fonctionne bien.

ebook-convert de calibre le programme en ligne de commande (ou calibre lui-même) est une autre option; il peut convertir un PDF en texte brut ou un autre format de livre électronique (RTF, ePub), à mon avis, il génère de meilleurs résultats que pdftotext, bien qu'il soit considérablement plus lent.

ebook-convert file.pdf file.txt

AbiWord peut convertir entre tous les formats qu'il connaît depuis la ligne de commande, et dispose au moins en option d'un plugin d'importation PDF :

abiword --to=txt file.pdf

Encore une autre option est podofotextextract de la bibliothèque d'outils PDF podofo. Je n'ai pas vraiment essayé.

Si vous combinez les deux outils Ghostscript, pdf2ps et ps2ascii , vous avez encore une autre option.

Je peux en fait penser à quelques méthodes supplémentaires, mais je vais en rester là pour le moment. 😉


Linux
  1. Awk one-liners et scripts pour vous aider à trier les fichiers texte

  2. Utiliser Uniq sur le texte Unicode ?

  3. Modifier un courrier entrant de Text/plain à Text/html ?

  4. Comment extraire du texte avec OCR à partir d'un PDF sous Linux ?

  5. Convertisseur PDF en texte

Éditeur de texte Geany - une sorte de génie

Visionneuse PDF avec texte sélectionnable ?

Comment remplacer une seule page dans un pdf en utilisant un autre pdf sous Linux?

Outils pour extraire du texte de powerpoint pptx sous Linux?

Comment pixelliser tout le texte d'un PDF ?

Existe-t-il un visualiseur Pdf spécialisé pour les présentations Latex-Beamer sous Linux ?