GNU/Linux >> Tutoriels Linux >  >> Linux

Comment rechercher le contenu de plusieurs fichiers pdf ?

Recoll est une fantastique application de recherche graphique en texte intégral pour Unix/Linux qui prend en charge des dizaines de formats différents, y compris PDF. Il peut même transmettre le numéro de page exact et le terme de recherche d'une requête à la visionneuse de documents et vous permet ainsi d'accéder directement au résultat depuis son interface graphique.

Recoll est également livré avec une interface de ligne de commande viable et une interface de navigateur Web.


Il y a pdfgrep, qui fait exactement ce que son nom l'indique.

pdfgrep -R 'a pattern to search recursively from path' /some/path

Je l'ai utilisé pour des recherches simples et cela a bien fonctionné.

(Il existe des packages dans Debian, Ubuntu et Fedora.)

Depuis la version 1.3.0, pdfgrep prend en charge la recherche récursive. Cette version est disponible dans Ubuntu depuis Ubuntu 12.10 (Quantal).


Votre distribution doit fournir un utilitaire appelé pdftotext :

find /path -name '*.pdf' -exec sh -c 'pdftotext "{}" - | grep --with-filename --label="{}" --color "your pattern"' \;

Le "-" est nécessaire pour avoir une sortie pdftotext vers stdout, pas vers des fichiers. Le --with-filename et --label= les options placeront le nom du fichier dans la sortie de grep. Le --color facultatif flag est agréable et indique à grep de sortir en utilisant des couleurs sur le terminal.

(Dans Ubuntu, pdftotext est fourni par le package xpdf-utils ou poppler-utils .)

Cette méthode, utilisant pdftotext et grep , a un avantage sur pdfgrep si vous souhaitez utiliser les fonctionnalités de GNU grep ce pdfgrep ne supporte pas. Remarque :pdfgrep-1.3.x prend en charge -C option pour imprimer la ligne de contexte.


Linux
  1. Comment compresser plusieurs fichiers sous Linux

  2. Comment changer l'extension de plusieurs fichiers ?

  3. Comment Grep Dans Des Fichiers Pdf ?

  4. Comment rechercher dans des fichiers spécifiques correspondant à un modèle ?

  5. Comment renommer plusieurs fichiers à l'aide de Find ?

Comment exclure dans Grep

Comment effectuer une recherche de modèle dans les fichiers à l'aide de Grep

Comment éditer plusieurs fichiers à l'aide de l'éditeur Vim

Comment convertir par lots des fichiers PDF sous Linux

Comment fusionner plusieurs fichiers PDF en un seul PDF sous Linux

Comment effectuer une recherche Grep sur tous les fichiers et dans tous les répertoires