Existe-t-il une sorte de convertisseur PDF en texte ?

J'ai besoin de fichiers PDF en texte pour pouvoir les rechercher en masse à partir de la ligne de commande. Existe-t-il un convertisseur pour Ubuntu, OBSD ou une distribution similaire ?

Peut-être un article connexe, OCR avec ubuntu ici.

Réponse acceptée :

Vous avez beaucoup d'options !

pdftotext de poppler a déjà été mentionné.

Il existe un programme Haskell appelé pdf2line qui fonctionne bien.

ebook-convert de calibre le programme en ligne de commande (ou calibre lui-même) est une autre option; il peut convertir un PDF en texte brut ou un autre format de livre électronique (RTF, ePub), à mon avis, il génère de meilleurs résultats que pdftotext, bien qu'il soit considérablement plus lent.

ebook-convert file.pdf file.txt

AbiWord peut convertir entre tous les formats qu'il connaît depuis la ligne de commande, et dispose au moins en option d'un plugin d'importation PDF :

abiword --to=txt file.pdf

Encore une autre option est podofotextextract de la bibliothèque d'outils PDF podofo. Je n'ai pas vraiment essayé.

Si vous combinez les deux outils Ghostscript, pdf2ps et ps2ascii , vous avez encore une autre option.

Je peux en fait penser à quelques méthodes supplémentaires, mais je vais en rester là pour le moment. 😉