J'ai besoin de fichiers PDF en texte pour pouvoir les rechercher en masse à partir de la ligne de commande. Existe-t-il un convertisseur pour Ubuntu, OBSD ou une distribution similaire ?
Peut-être un article connexe, OCR avec ubuntu ici.
Réponse acceptée :
Vous avez beaucoup d'options !
pdftotext
de poppler a déjà été mentionné.
Il existe un programme Haskell appelé pdf2line
qui fonctionne bien.
ebook-convert
de calibre le programme en ligne de commande (ou calibre lui-même) est une autre option; il peut convertir un PDF en texte brut ou un autre format de livre électronique (RTF, ePub), à mon avis, il génère de meilleurs résultats que pdftotext, bien qu'il soit considérablement plus lent.
ebook-convert file.pdf file.txt
AbiWord peut convertir entre tous les formats qu'il connaît depuis la ligne de commande, et dispose au moins en option d'un plugin d'importation PDF :
abiword --to=txt file.pdf
Encore une autre option est podofotextextract
de la bibliothèque d'outils PDF podofo. Je n'ai pas vraiment essayé.
Si vous combinez les deux outils Ghostscript, pdf2ps
et ps2ascii
, vous avez encore une autre option.
Je peux en fait penser à quelques méthodes supplémentaires, mais je vais en rester là pour le moment. 😉