gImageReader - Extraire du texte à partir d'images et de PDF sous Linux

gImageReader est un lecteur PDF gratuit et open source avec la possibilité d'extraire du texte à partir d'images et de PDF. Il est construit comme une simple interface Gtk/Qt pour Tesseract-OCR , un moteur OCR open source pour la reconnaissance de textes et de modèles dans des documents et des images à l'aide de l'intelligence artificielle .

À lui seul, Tesseract est un outil de ligne de commande dont l'utilisation est réservée aux utilisateurs Linux suffisamment familiarisés avec leurs terminaux. Merci à gImageReader , tout le monde peut désormais profiter de l'efficacité de l'OCR du moteur.

gImageReader fonctionne en numérisant des textes à partir d'un fichier PDF ou d'un fichier image dans l'une des nombreuses langues qu'il prend en charge grâce à l'existence de caractères Unicode. Il dispose d'une interface utilisateur personnalisable simple et bien organisée à travers laquelle vous pouvez effectuer des tâches de vérification orthographique et de traduction.

Fonctionnalités de gImageReader

Logiciel gratuit et open source. Code source disponible sur GitHub.
Disponible sur les plates-formes GNU/Linux et Windows.
Interface utilisateur thématique avec mise en page d'édition familière.
Importer des documents PDF et des images à partir d'un disque, d'appareils de numérisation, de captures d'écran et du presse-papiers
Générez des documents PDF à partir de documents hOCR.
Définition de la zone de reconnaissance manuelle ou automatique.
Traitez plusieurs images et documents par lots.
Reconnaître les documents hOCR ou le texte brut.
Texte reconnu affiché à côté des images.
Post-traitez le texte reconnu, y compris la vérification orthographique.

gImageReader est facile à utiliser et prend en charge le travail avec des documents en copie électronique ainsi que des instantanés de médias téléchargés, par ex. captures d'écran. Vous avez même la possibilité de sélectionner la zone de texte qui vous intéresse et de n'ajouter que le texte dont vous avez besoin. En fin de compte, gImagereader fonctionne à la fois comme un lecteur PDF et un outil d'extraction de texte. Gaffe.

Installer gImageReader sous Linux

Pour utiliser gImageReader au maximum, vous devez installer manuellement Tesseract packs de langue afin que vous puissiez analyser correctement les images et les fichiers. Le paquet s'appelle 'Tesseract-ocr-eng ' et il est disponible auprès du gestionnaire de logiciels dans Debian et Fedora distributions.

Si vous utilisez Ubuntu , vous pouvez simplement ajouter le PPA et exécutez la commande d'installation à l'aide des commandes ci-dessous :

$ sudo add-apt-repository ppa:sandromani/gimagereader
$ sudo apt update
$ sudo apt install gimagereader

Sur Debian , Fédora , et OpenSUSE installez-le à partir du gestionnaire de packages.

$ sudo apt install gimagereader     [On Debian]
$ sudo dnf install gimagereader     [On Fedora]
$ sudo zypper install gimagereader  [On OpenSuse]

Ne vous sentez pas exclu si vous utilisez Arch Linux ou l'un de ses dérivés. L'AUR a ce qu'il vous faut. Et si vous préférez reconstruire l'application à partir de la source, les instructions se trouvent dans son lien Wiki vers le référentiel GitHub.

Êtes-vous du genre à extraire du texte imprimé à partir d'images ? Vous pouvez même prendre des instantanés de zones sélectionnées avec votre téléphone et les télécharger sur votre ordinateur portable. Ce qui est encore plus cool, c'est son support multilingue - qui, bien qu'il ne soit pas parfait, est déjà l'une des meilleures options de la communauté en ce moment.

gImageReader est l'un des meilleurs lecteurs PDF du monde open source, en particulier avec sa capacité OCR, alors essayez-le et voyez à quel point vous l'aimez.

Comme d'habitude, vous êtes invités à partager vos expériences avec l'application avec nous si vous en avez. Et d'ajouter d'autres suggestions dans la section des commentaires ci-dessous.