Bonjour
Quelqu'un sait il si il est possible sous Linux de convertir un fichier pdf obtenu avec un scanner - donc image, en pdf indexé permettant ainsi la recherche sur le texte contenu dans ce fichier ? (Comme on peut le faire avec Abbyy Fine Reader par exemble)
Merci de votre adie
Charles
Le 05/04/2016 15:07, charles a écrit :
Bonjour
Quelqu'un sait il si il est possible sous Linux de convertir un fichier pdf obtenu avec un scanner - donc image, en pdf indexé permettant ainsi la recherche sur le texte contenu dans ce fichier ? (Comme on peut le faire avec Abbyy Fine Reader par exemble)
Pour ma part, je connais tesseract qui fait du bon boulot, et cela devient même très bien au fil des ans, mais il sort un fichier texte séparé ce qui ne répond pas exactement à ta question
Bonjour,
Le problème c'est l'OCR, presque tout les moteurs ont été développé sous Linux, mais leur commercialisation et leurs réglages sous Windows...
1) Piste Linux https://help.ubuntu.com/community/OCR Tout dépend de ton niveau d'exigence, récupération du formatage du style, de la mise en page 2) Piste Windows (Linux+WineHQ) WineHQ + Abby Fine Reader https://appdb.winehq.org/objectManager.php?sClass=application&iId=1035 Il semble que les résultat soit bons
Je ne peux pas t'aider plus, je n'ai pas ce logiciel pour tester sous WineHQ
Amicalement
Knut
Le 05/04/2016 15:07, charles a écrit :
Bonjour
Quelqu'un sait il si il est possible sous Linux de convertir un fichier pdf obtenu avec un scanner - donc image, en pdf indexé permettant ainsi la recherche sur le texte contenu dans ce fichier ? (Comme on peut le faire avec Abbyy Fine Reader par exemble)
Merci de votre adie
Charles _______________________________________________ Linux06 mailing list Linux06@lists.linux-azur.org https://lists.linux-azur.org/mailman/listinfo/linux06
J'ai installé Gscan2pdf, cela a l'air complet, malheureusement j'ai découvert un petit soucis, mon scanner bugge avec Ubuntu Mate et fonctionne avec Ubuntu https://doc.ubuntu-fr.org/gscan2pdf
Sinon autre piste
http://www.abbyy.com/ocr-sdk-linux/
Le 05/04/2016 16:17, Sappas a écrit :
Bonjour,
Le problème c'est l'OCR, presque tout les moteurs ont été développé sous Linux, mais leur commercialisation et leurs réglages sous Windows...
- Piste Linux
https://help.ubuntu.com/community/OCR Tout dépend de ton niveau d'exigence, récupération du formatage du style, de la mise en page 2) Piste Windows (Linux+WineHQ) WineHQ + Abby Fine Reader https://appdb.winehq.org/objectManager.php?sClass=application&iId=1035 Il semble que les résultat soit bons
Je ne peux pas t'aider plus, je n'ai pas ce logiciel pour tester sous WineHQ
Amicalement
Knut
Le 05/04/2016 15:07, charles a écrit :
Bonjour
Quelqu'un sait il si il est possible sous Linux de convertir un fichier pdf obtenu avec un scanner - donc image, en pdf indexé permettant ainsi la recherche sur le texte contenu dans ce fichier ? (Comme on peut le faire avec Abbyy Fine Reader par exemble)
Merci de votre adie
Charles _______________________________________________ Linux06 mailing list Linux06@lists.linux-azur.org https://lists.linux-azur.org/mailman/listinfo/linux06
Linux06 mailing list Linux06@lists.linux-azur.org https://lists.linux-azur.org/mailman/listinfo/linux06
Bonjour,
Le 05/04/2016 15:07, charles a écrit :
Bonjour
Quelqu'un sait il si il est possible sous Linux de convertir un fichier pdf obtenu avec un scanner - donc image, en pdf indexé permettant ainsi la recherche sur le texte contenu dans ce fichier ?
La réponse est "paperwork"
À bientôt, Patrice Reich
Le 05/04/2016 17:59, Patrice Reich a écrit :
Bonjour,
Le 05/04/2016 15:07, charles a écrit :
Bonjour
Quelqu'un sait il si il est possible sous Linux de convertir un fichier pdf obtenu avec un scanner - donc image, en pdf indexé permettant ainsi la recherche sur le texte contenu dans ce fichier ?
La réponse est "paperwork"
À bientôt, Patrice Reich
Bonjour ! Chez moi, l'ordi répond :* ** **michel@X-Ordi55:~$ paperwork** **INFO paperwork.paperwork Looking for locales in 'locale/fr/LC_MESSAGES/paperwork.mo' ...** **INFO paperwork.paperwork Looking for locales in '/usr/local/share/locale/fr/LC_MESSAGES/paperwork.mo' ...** **INFO paperwork.paperwork Looking for locales in '/usr/share/locale/fr/LC_MESSAGES/paperwork.mo' ...** **INFO paperwork.paperwork Will use locales from '/usr/share/locale'** **INFO paperwork.backend.config Config file not found. Will use '/home/michel/.config/paperwork.conf'** **INFO paperwork.backend.config Reloading /home/michel/.config/paperwork.conf ...** ** **Error: Illegal min or max specification!** **"Fatal error encountered!" == NULL:Error:Assert failed:in file globaloc.cpp, line 75** **Erreur de segmentation (core dumped)** **michel@X-Ordi55:~$ ** * et puis plus rien…
Le Tue, 5 Apr 2016 17:59:17 +0200,
PR a écrit :
Bonjour,
Le 05/04/2016 15:07, charles a écrit :
Bonjour
Quelqu'un sait il si il est possible sous Linux de convertir un fichier pdf obtenu avec un scanner - donc image, en pdf indexé permettant ainsi la recherche sur le texte contenu dans ce fichier ?
La réponse est "paperwork"
+1 +1 +1 je l'utilise depuis longtemps et dommage pas de paquet
*** *ZIP 1- paperwork-stable.zip # https://github.com/jflesch/paperwork --> Download zip 2- decompacter 3- setup.py install # alors dans /usr/local/bin/paperwork
et le programme dans le répertoire de compilation ~/MesFich/autres/EXTENSION/PaperWork/stable_0.2.2
*** *LES FICHIERS REPERTOIRES
/usr/local/bin/paperwork # le programme
/usr/local/bin/paperwork-chkdeps # l'utilitaire
~/MesFich/APPLICATIONS/Bureautique/PaperWork # Les papiers scannés
4- Recommandés Sane: Pour numériser les pages Tesseract: Pour extraire les mots des pages (OCR) GTK / Glade: Pour l'interface utilisateur Whoosh: Pour indexer et de rechercher des documents, et de fournir des suggestions de mots clés
À bientôt, Patrice Reich
Linux06 mailing list Linux06@lists.linux-azur.org https://lists.linux-azur.org/mailman/listinfo/linux06
Le 06/04/2016 08:26, Georges a écrit : Le Tue, 5 Apr 2016 17:59:17 +0200, PR a écrit :
Bonjour,
Le 05/04/2016 15:07, charles a écrit :
Bonjour
Quelqu'un sait il si il est possible sous Linux de convertir un fichier pdf obtenu avec un scanner - donc image, en pdf indexé permettant ainsi la recherche sur le texte contenu dans ce fichier ?
La réponse est "paperwork"
+1 +1 +1 je l'utilise depuis longtemps et dommage pas de paquet
*** *ZIP 1- paperwork-stable.zip # https://github.com/jflesch/paperwork --> Download zip 2- decompacter 3- setup.py install # alors dans /usr/local/bin/paperwork
et le programme dans le répertoire de compilation ~/MesFich/autres/EXTENSION/PaperWork/stable_0.2.2
*** *LES FICHIERS REPERTOIRES
/usr/local/bin/paperwork # le programme
/usr/local/bin/paperwork-chkdeps # l'utilitaire
~/MesFich/APPLICATIONS/Bureautique/PaperWork # Les papiers scannés
4- Recommandés Sane: Pour numériser les pages Tesseract: Pour extraire les mots des pages (OCR) GTK / Glade: Pour l'interface utilisateur Whoosh: Pour indexer et de rechercher des documents, et de fournir des suggestions de mots clés
À bientôt, Patrice Reich
Bonjour et merci à tous
Je vais essayer d'installer paperwork sur une Fedora 23 (4.4.4-301.fc23.x86_64 - Mini PC Asus Vivo Intel E5)
Charles