Fréier oder spéider all déi Leit, déi dacks mat Büro Programmer schaffen, eng typesch Aufgab konkret - den Text aus engem Buch, Zäitschrëft, Zeitung, einfach Fluchziedelen, a wandert dann dës Biller an Textformat, zum Beispill an e Word Dokument.
Dir braucht Dir e Scanner an e spezielle Programm fir Texterkennung. Dësen Artikel beschäftegt de freie Analog vu FineReader -Kuneiform (iwwer Unerkennung am FineReader - kuckt dësen Artikel).
Komme mer elo ...
De Contenu
- 1. Funktioune vum CuneiForm Programm, Fonctiounen
- 2. Een Beispill vun Texterkennung
- 3. Batcher Erkennung vum Text
- 4. Conclusiounen
1. Funktioune vum CuneiForm Programm, Fonctiounen
Kuneiform
Dir kënnt vun der Säit vum Entwéckler downloaden: //cognitiveforms.com/
Eng Open Source Text Erkennungssoftware. Zousätzlech funktionéiert et an allen Versioune vu Windows: XP, Vista, 7, 8, déi gutt ass. Plus, addéiere déi komplett russesch Iwwersetzung vum Programm!
Pros:
- Texterkennung an de 20 populärsten Sproochen vun der Welt (Englesch a Russesch selwer gëtt mat dëser Nummer enthale);
- grouss Ënnerstëtzung fir ënnerschriwwe Schrëftarten;
- Kuckt d'Wuert erkannt Text;
- d'Fähigkeit, d'Resultater vun der Aarbecht op verschidde Manéieren ze retten;
- d'Struktur vun deem Dokument ënnerhalen;
- Helleg Ënnerstëtzung an Erkennungstabellen.
Muecht:
- ënnerstëtzen net ze grouss Dokumenter a Fichieren (méi wéi 400 dpi);
- et gëtt keng verschidde Typen vu Scanner direkt ënnerstëtzt (gutt, dëst ass net schaureges, e speziellen Scanner ass mat den Scanner Treiwer);
- de Design léisst net shine (awer wa se et brauchen wann de Programm komplett de Problem beheet).
2. Een Beispill vun Texterkennung
Mir huelen un datt Dir d'noutwenneg Biller fir d'Unerkennung kritt hutt (dobanne gescannt oder d'Buch am PDF / djvu-Format op dem Internet erofgeluede a krut déi néideg Fotoën aus hinnen.) Wéi et maacht - kuckt dësen Artikel).
1) Den erfuerderleche Bild am KuinForm Programm (Datei / op oder "Cntrl + O") opmaachen.
2) Fir d'Unerkennung ze starten - musst Dir zielt verschidde Beräicher: Text, Biller, Dëscher, etc. An dësem Cuneiform Programm kann dat net nëmmen manuell gemaach ginn, awer och automatesch!! Fir dat ze maachen, klickt op den "markup" Knäppchen am Top Kader vun der Fënster.
3) No 10-15 Sekonnen. De Programm wäerte automatesch all Gebidder mat verschiddene Faarwen markéieren. Zum Beispill gëtt en Textberäich blueginn. Iwwregens huet si all Gebidder richteg a ganz séier markéiert. Eigentlech hunn ech net esou séier a richteg Äntwert vu hatt erwuewelt ...
4) Fir déi Leit déi net automatesch opgeholl hunn, kënnt Dir d'manuell benotzen. Fir dëst ass eng Toolbar (kuckt ënnen uewen), duerch déi Dir kënnt wielen: Text, Dësch, Bild. Beweegen, vergréisseren / nidderegen Numm ufänken, d'Kanten treffen. Am Allgemengen eng gutt Satz.
5) Wann all Gebidder ze markéiert sinn, kënnt Dir weidergoen Unerkennung. Fir dat ze maachen, klickt einfach op de Knäppchen mam selwechte Numm, wéi am Bild hei drënner.
6) Aalt a 10-20 Sekonnen. Dir kënnt e Dokument an Microsoft Word mat dem erkannte Text gesinn. Wat interessant ass, an den Text fir dëst Beispill, waren natierlech och Feeler, awer et si ganz wéineg! Besonnesch a Betruecht geze wéi d'plain d'originell Material war - d'Bild.
D'Vitesse an d'Qualitéit ass ganz vergleichbar mat FineReader!
3. Batcher Erkennung vum Text
Dës Funktioun vum Programm kann praktesch kommen wann Dir e Bild net erkennt, awer verschidde gläichzäiteg. D'Ofkierzung fir d'Stéckerkennung startze kënnt normalerweis am Startmenu.
1) Wann Dir de Programm erëfft, musst Dir e neie Package erstellen oder e virdrun gespäichert ginn. An eisen Beispill - e neien erstellen.
2) An de nächste Schrëtt gi mir e Numm, virun allem esou datt sechs Méint méi spéit mer erënnere wat an deem se gespäichert ass.
3) Nees zeréckgezunn, wielt d'Dokumentesprooch (russesch-englesch), a gitt op d'Biller an Dëscher an Ärem gescannte Material.
4) Elo musst Dir de Fichier an an deem d'Dateie fir d'Unerkennung uginn. By the way, wat interessant ass datt de Programm selwer all d'Biller an aner Grafikdateuren fannen déi se erkennen an se dem Projet eraussichen. Dir musst och d'extra erofhuelen.
5) De nächste Schrëtt ass net wichteg - decidéiert wat fir d'Quelldateien ze maachen, no der Unerkennung. Ech recommandéieren, d'Checkbox "näischt ze maachen".
6) Eréischt bleiwt just de Format, an deem d'erkannt Dokument gespäichert gëtt. Et gi verschidde Optiounen:
- rtf - De Fichier vum Wuert Dokument gëtt vun allen populären Büroen eröffnet (och gratis, e Link op Programmer);
- txt - Textformat, kënnt Dir nëmmen Text, Biller an Dëscher retten;
- htm - Hypertext-Säit, praktesch wann Dir Scanner fichéiert fir d'Site ze erkennen. Seng an an e puer Beispiller.
7) Wann Dir op "Finish" kënnt klicken, da gëtt d'Veraarbechtung vun Ärem Projet beginn.
8) De Programm schafft relativ séier. No der Unerkennung gesitt Dir eng Lëscht mat htm Dateien. Wann Dir op esou eng Datei klickt, fänkt een Browser un, wou Dir d'Resultater gesinn. Iwwrégens, kann de Package gespäichert ginn fir weider Aarbecht ze maachen.
9) Wéi Dir gesitt d 'Resultater Aarbecht ass ganz impressionant. D'Programm huet d'Bild ganz einfach erkannt an den Text ënnert dësem einfach erkannt. Während de Programm gratis ass, ass et allgemeng super!
4. Conclusiounen
Wann Dir dacks Scannen a Skandieren erkennt, da kaaft FineReader kaaft net Sënn maachen. CuneiForm handhabt vill Aufgaben.
Am anere Fall weist si och Nodeeler.
Éischt ass et ze wéineg Tools fir d'Redaktioun a kontrolléiert d'Resultat. Zweetens, wann Dir e puer Fotoen erkennt, da bei FineReader et méi bequem unzemellen alles direkt op de Projet op der Kolonn riets ze gesinn: séier ze nëtzlech ze maachen, änneren etc. Et drëtt, op Dokumenter absolut schlecht Qualitéit verléiert CuneiForm d'Unerkennung: Dir musst d'Dokument op Gedäizer bréngen - richteg Feeler, Plangtzeechen, Zitater etc.
Dat ass alles. Wësst Dir eng aner anstänneg gratis Texterkennungssoftware?