PDF

List overview All Threads
Download

newer

older

TECH

Le Point Secu - Episode 1 - Les...

charles

5 Apr 2016 5 Apr '16

3:07 p.m.

Bonjour

Quelqu'un sait il si il est possible sous Linux de convertir un fichier pdf obtenu avec un scanner - donc image, en pdf indexé permettant ainsi la recherche sur le texte contenu dans ce fichier ? (Comme on peut le faire avec Abbyy Fine Reader par exemble)

Merci de votre adie

Charles

Show replies by date

Jean-Max Reymond

5 Apr 5 Apr

3:23 p.m.

Le 05/04/2016 15:07, charles a écrit :

...

Bonjour

Quelqu'un sait il si il est possible sous Linux de convertir un fichier pdf obtenu avec un scanner - donc image, en pdf indexé permettant ainsi la recherche sur le texte contenu dans ce fichier ? (Comme on peut le faire avec Abbyy Fine Reader par exemble)

Pour ma part, je connais tesseract qui fait du bon boulot, et cela devient même très bien au fil des ans, mais il sort un fichier texte séparé ce qui ne répond pas exactement à ta question

-- Jean-Max Reymond CKR Solutions Open Source http://www.ckr-solutions.com

Sappas

4:17 p.m.

Bonjour,

Le problème c'est l'OCR, presque tout les moteurs ont été développé sous Linux, mais leur commercialisation et leurs réglages sous Windows...

1) Piste Linux https://help.ubuntu.com/community/OCR Tout dépend de ton niveau d'exigence, récupération du formatage du style, de la mise en page 2) Piste Windows (Linux+WineHQ) WineHQ + Abby Fine Reader https://appdb.winehq.org/objectManager.php?sClass=application&iId=1035 Il semble que les résultat soit bons

Je ne peux pas t'aider plus, je n'ai pas ce logiciel pour tester sous WineHQ

Amicalement

Knut

Le 05/04/2016 15:07, charles a écrit :

...

Bonjour

Quelqu'un sait il si il est possible sous Linux de convertir un fichier pdf obtenu avec un scanner - donc image, en pdf indexé permettant ainsi la recherche sur le texte contenu dans ce fichier ? (Comme on peut le faire avec Abbyy Fine Reader par exemble)

Merci de votre adie

Charles _______________________________________________ Linux06 mailing list Linux06@lists.linux-azur.org https://lists.linux-azur.org/mailman/listinfo/linux06

Sappas

4:44 p.m.

J'ai installé Gscan2pdf, cela a l'air complet, malheureusement j'ai découvert un petit soucis, mon scanner bugge avec Ubuntu Mate et fonctionne avec Ubuntu https://doc.ubuntu-fr.org/gscan2pdf

Sinon autre piste

http://www.abbyy.com/ocr-sdk-linux/

Le 05/04/2016 16:17, Sappas a écrit :

...

Bonjour,

Le problème c'est l'OCR, presque tout les moteurs ont été développé sous Linux, mais leur commercialisation et leurs réglages sous Windows...

Piste Linux

https://help.ubuntu.com/community/OCR Tout dépend de ton niveau d'exigence, récupération du formatage du style, de la mise en page 2) Piste Windows (Linux+WineHQ) WineHQ + Abby Fine Reader https://appdb.winehq.org/objectManager.php?sClass=application&iId=1035 Il semble que les résultat soit bons

Je ne peux pas t'aider plus, je n'ai pas ce logiciel pour tester sous WineHQ

Amicalement

Knut

Le 05/04/2016 15:07, charles a écrit :

...
Bonjour

Quelqu'un sait il si il est possible sous Linux de convertir un fichier pdf obtenu avec un scanner - donc image, en pdf indexé permettant ainsi la recherche sur le texte contenu dans ce fichier ? (Comme on peut le faire avec Abbyy Fine Reader par exemble)

Merci de votre adie

Charles _______________________________________________ Linux06 mailing list Linux06@lists.linux-azur.org https://lists.linux-azur.org/mailman/listinfo/linux06

Linux06 mailing list Linux06@lists.linux-azur.org https://lists.linux-azur.org/mailman/listinfo/linux06

Patrice Reich

5:59 p.m.

Bonjour,

Le 05/04/2016 15:07, charles a écrit :

...

Bonjour

Quelqu'un sait il si il est possible sous Linux de convertir un fichier pdf obtenu avec un scanner - donc image, en pdf indexé permettant ainsi la recherche sur le texte contenu dans ce fichier ?

La réponse est "paperwork"

À bientôt, Patrice Reich

Michel ASTRE

8:36 p.m.

New subject: ReRe: PDF

Le 05/04/2016 17:59, Patrice Reich a écrit :

...

Bonjour,

Le 05/04/2016 15:07, charles a écrit :

...
Bonjour

Quelqu'un sait il si il est possible sous Linux de convertir un fichier pdf obtenu avec un scanner - donc image, en pdf indexé permettant ainsi la recherche sur le texte contenu dans ce fichier ?

La réponse est "paperwork"

À bientôt, Patrice Reich

Bonjour ! Chez moi, l'ordi répond :* ** **michel@X-Ordi55:~$ paperwork** **INFO paperwork.paperwork Looking for locales in 'locale/fr/LC_MESSAGES/paperwork.mo' ...** **INFO paperwork.paperwork Looking for locales in '/usr/local/share/locale/fr/LC_MESSAGES/paperwork.mo' ...** **INFO paperwork.paperwork Looking for locales in '/usr/share/locale/fr/LC_MESSAGES/paperwork.mo' ...** **INFO paperwork.paperwork Will use locales from '/usr/share/locale'** **INFO paperwork.backend.config Config file not found. Will use '/home/michel/.config/paperwork.conf'** **INFO paperwork.backend.config Reloading /home/michel/.config/paperwork.conf ...** ** **Error: Illegal min or max specification!** **"Fatal error encountered!" == NULL:Error:Assert failed:in file globaloc.cpp, line 75** **Erreur de segmentation (core dumped)** **michel@X-Ordi55:~$ ** * et puis plus rien…

-- Michel ASTRE Poèmes et chansons pour les cinq saisons http://pagesperso-orange.fr/michel.astre/ /Je n'ai pas besoin d'antivirus : je suis sous Linux !/

Georges

6 Apr 6 Apr

8:26 a.m.

Le Tue, 5 Apr 2016 17:59:17 +0200,

PR a écrit :

...

Bonjour,

Le 05/04/2016 15:07, charles a écrit :

...
Bonjour

Quelqu'un sait il si il est possible sous Linux de convertir un fichier pdf obtenu avec un scanner - donc image, en pdf indexé permettant ainsi la recherche sur le texte contenu dans ce fichier ?

La réponse est "paperwork"

+1 +1 +1 je l'utilise depuis longtemps et dommage pas de paquet

*** *ZIP 1- paperwork-stable.zip # https://github.com/jflesch/paperwork --> Download zip 2- decompacter 3- setup.py install # alors dans /usr/local/bin/paperwork

et le programme dans le répertoire de compilation ~/MesFich/autres/EXTENSION/PaperWork/stable_0.2.2

*** *LES FICHIERS REPERTOIRES

/usr/local/bin/paperwork # le programme

/usr/local/bin/paperwork-chkdeps # l'utilitaire

~/MesFich/APPLICATIONS/Bureautique/PaperWork # Les papiers scannés

4- Recommandés Sane: Pour numériser les pages Tesseract: Pour extraire les mots des pages (OCR) GTK / Glade: Pour l'interface utilisateur Whoosh: Pour indexer et de rechercher des documents, et de fournir des suggestions de mots clés

...

À bientôt, Patrice Reich

Linux06 mailing list Linux06@lists.linux-azur.org https://lists.linux-azur.org/mailman/listinfo/linux06

charles

1:09 p.m.

Le 06/04/2016 08:26, Georges a écrit : Le Tue, 5 Apr 2016 17:59:17 +0200, PR a écrit :

...

...
Bonjour,

Le 05/04/2016 15:07, charles a écrit :

...
Bonjour

Quelqu'un sait il si il est possible sous Linux de convertir un fichier pdf obtenu avec un scanner - donc image, en pdf indexé permettant ainsi la recherche sur le texte contenu dans ce fichier ?

La réponse est "paperwork"

...

+1 +1 +1 je l'utilise depuis longtemps et dommage pas de paquet

*** *ZIP 1- paperwork-stable.zip # https://github.com/jflesch/paperwork --> Download zip 2- decompacter 3- setup.py install # alors dans /usr/local/bin/paperwork

et le programme dans le répertoire de compilation ~/MesFich/autres/EXTENSION/PaperWork/stable_0.2.2

*** *LES FICHIERS REPERTOIRES

/usr/local/bin/paperwork # le programme

/usr/local/bin/paperwork-chkdeps # l'utilitaire

~/MesFich/APPLICATIONS/Bureautique/PaperWork # Les papiers scannés

4- Recommandés Sane: Pour numériser les pages Tesseract: Pour extraire les mots des pages (OCR) GTK / Glade: Pour l'interface utilisateur Whoosh: Pour indexer et de rechercher des documents, et de fournir des suggestions de mots clés

...
À bientôt, Patrice Reich

Bonjour et merci à tous

Je vais essayer d'installer paperwork sur une Fedora 23 (4.4.4-301.fc23.x86_64 - Mini PC Asus Vivo Intel E5)

Charles

3618

Age (days ago)

3619

Last active (days ago)

linux06@lists.linux-azur.org

7 comments

6 participants

tags (0)

participants (6)

charles
Georges
Jean-Max Reymond
Michel ASTRE
Patrice Reich
Sappas