Register Guidelines E-Books Today's Posts Search

Go Back   MobileRead Forums > Non-English Discussions > Deutsches Forum > Software

Notices

Reply
 
Thread Tools Search this Thread
Old 12-13-2009, 01:39 PM   #1
netseeker
sleepless reader
netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.
 
netseeker's Avatar
 
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
Lightbulb Grafische Oberfläche für tesseract OCR - Anforderungen bitte

Wie in einem anderen thread bereits angekündigt, möchte ich auf dem MobileRead Dev Hub ein neues Projekt rund um Tesseract (in Wikipedia, Projektseite) starten. Tesseract ist ein kostenfreies OpenSource OCR, welches zwar vergleichsweise gute Erkennungsraten aufweist, multilingual ist und - für eBook-Macher besonders wichtig - auch Fraktur unterstützt aber:
  • keine Layout-Analyse unterstützt
  • lediglich TIFF als Eingabeformat kennt
  • lediglich Plain-Text als Ausgabeformat unterstützt
  • keine grafische Oberfläche und somit auch keine Unterstützung zur Korrektur mitbringt

Es existieren zwar für Tesseract bereits einige grafische Oberflächen, allerdings kam bisher keine davon meinen Vorstellungen auch nur halbwegs nahe.

Ich würde mir eine Oberfläche wünschen, welche:
  • auf vielen unterschiedlichen Architekturen und Betriebssystemen läuft
  • die unterschiedlichsten Bildformate und auch PDF als Eingabe unterstützt
  • zumindest rudimentär eine Layout-Analyse kann und somit auch bspw. Bilder und Tabellen wieder in die Ausgabe bringt und den erkannten Text halbwegs in der visuellen Originalformatierung und -Anordnung hält sowie auch mehrspaltige Vorlagen unterstützt
  • ein Korrekturfenster (links/oben Original, rechts/unten erkannter Text) anbietet, in dem man direkt editieren und begrenzt nachformatieren kann
  • typische OCR-Fehler automatisch kennzeichnet oder sogar korrigiert
  • Spellchecker und Dictionaries anbindet, mit welchen eine erste Prüfung und Korrektur mit automatischer Unterstützung durchgeführt werden kann
  • zumindest (X)HTML und/oder RTF als Ausgabeformat kennt

Wenn es euerseits zu diesem Thema Ideen, Anregungen und Wünsche gibt, würde ich dies gern wissen um weitere wichtige/notwendige Dinge von Anfang an einplanen zu können.

Last edited by netseeker; 12-13-2009 at 01:53 PM.
netseeker is offline   Reply With Quote
Old 12-16-2009, 07:08 AM   #2
netseeker
sleepless reader
netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.
 
netseeker's Avatar
 
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
Nun gut, anscheinend habe ich alle Wünsche/Anforderungen bereits beachtet.

Ok, ich habe die Machbarkeit für die einzelnen Anforderungen überprüft und es erscheint alles machbar - lediglich die Layout-Analyse bereitet mir noch Kopfzerbrechen. Leider ist dies auch nicht gerade unbedingt mein Fachthema. Da muss ich mich erstmal selber etwas "weiterbilden".
Evtl. hat aber dazu der eine oder andere Entwickler hier noch Vorschläge...

Ich werde in den nächsten Tagen mal entgegen meiner üblichen Vorgehensweise ein paar konzeptionelle Entwürfe für Oberfläche, Einstellmöglichkeiten etc. machen und hier posten. Vielleicht kommt dann doch noch der eine oder andere Vorschlag hoch...
netseeker is offline   Reply With Quote
Old 12-16-2009, 07:18 AM   #3
polyfragmentiert
Groupie
polyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshes
 
polyfragmentiert's Avatar
 
Posts: 181
Karma: 14258
Join Date: Oct 2009
Location: Kiel, Germany
Device: SONY PRS-T1, bald tolino vision 3 HD
Ich finde das Thema auch interessant, kenne mich aber in Sachen OCR fachlich noch nicht nicht aus. Ich würde Deine ersten Entwürfe abwarten wollen, bevor ich Rückmeldung oder Vorschläge geben kann.
polyfragmentiert is offline   Reply With Quote
Old 12-16-2009, 07:24 AM   #4
mtravellerh
book creator
mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.
 
mtravellerh's Avatar
 
Posts: 9,635
Karma: 3856660
Join Date: Oct 2008
Location: Luxembourg
Device: PB360°
Betreffend Korrekturfenster: Wäre es möglich, die Korrekturfenster flexibel zu gestalten (beispielsweise übereinander oder nebeneinander, je nach Gusto) Das Korrekturtool bei GaGa funktioniert so. Wenn das nicht geht, wären mir übereinander liegende Fenster am liebsten!
mtravellerh is offline   Reply With Quote
Old 12-16-2009, 07:36 AM   #5
netseeker
sleepless reader
netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.
 
netseeker's Avatar
 
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
Quote:
Originally Posted by mtravellerh View Post
Betreffend Korrekturfenster: Wäre es möglich, die Korrekturfenster flexibel zu gestalten (beispielsweise übereinander oder nebeneinander, je nach Gusto)
Ja, das geht.

Die Schwierigkeit ist, die Fenster so miteinander zu verknüpfen, dass beim Scrollen auch das jeweils andere Fenster möglichst passend automatisch mit gescrollt wird, da die Größe des Inhalts (einmal Vorlage, einmal Text) nicht identisch ist. (Die Entwickler hier dürften das Problem von grafischen Diff/Compare-Tools kennen) Aber auch dazu habe ich schon ein paar Ideen und werde das so machen, dass der Benutzer entscheiden kann, ob die beiden Fenster überhaupt miteinander verknüpft scrollen sollen oder nicht.
netseeker is offline   Reply With Quote
Old 12-17-2009, 12:19 PM   #6
netseeker
sleepless reader
netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.
 
netseeker's Avatar
 
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
Anbei mal die ersten drei Sketches. Bitte nicht mit einer tatsächlichen Programmoberfläche verwechseln, es sind nur Diskussionsentwürfe.
Ich weiß, es ist noch nicht viel, aber die Basics sollten rüberkommen.
Attached Thumbnails
Click image for larger version

Name:	welcome.png
Views:	588
Size:	37.7 KB
ID:	41438   Click image for larger version

Name:	new.png
Views:	1776
Size:	26.8 KB
ID:	41439   Click image for larger version

Name:	edit.png
Views:	591
Size:	157.8 KB
ID:	41440  
netseeker is offline   Reply With Quote
Old 12-17-2009, 12:24 PM   #7
mtravellerh
book creator
mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.
 
mtravellerh's Avatar
 
Posts: 9,635
Karma: 3856660
Join Date: Oct 2008
Location: Luxembourg
Device: PB360°
Quote:
Originally Posted by netseeker View Post
Anbei mal die ersten drei Sketches. Bitte nicht mit einer tatsächlichen Programmoberfläche verwechseln, es sind nur Diskussionsentwürfe.
Ich weiß, es ist noch nicht viel, aber die Basics sollten rüberkommen.

Sollte man da nicht eingeben, in welches Format man auslesen will?
mtravellerh is offline   Reply With Quote
Old 12-17-2009, 12:28 PM   #8
netseeker
sleepless reader
netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.
 
netseeker's Avatar
 
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
Quote:
Originally Posted by mtravellerh View Post
Sollte man da nicht eingeben, in welches Format man auslesen will?
Da Tesseract leider nur in Plain-Text ausliest, hatte ich mir gedacht erst beim Speichern/Exportieren nachzufragen in welches Format gespeichert werden soll. Aber für einen vollautomatischen Erstdurchlauf wäre es wahrscheinlich wirklich besser gleich beim Anlegen des Auftrags nachzufragen.
netseeker is offline   Reply With Quote
Old 12-17-2009, 12:34 PM   #9
mtravellerh
book creator
mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.
 
mtravellerh's Avatar
 
Posts: 9,635
Karma: 3856660
Join Date: Oct 2008
Location: Luxembourg
Device: PB360°
Könnte man im Spellcheckfenster nicht ein paar übliche Symbole wie bspw. Anführungszeichen, langes s und so weiter für den Schnellzugriff bereitlegen? Das funktioniert bei GaGa gut!
mtravellerh is offline   Reply With Quote
Old 12-17-2009, 12:36 PM   #10
netseeker
sleepless reader
netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.
 
netseeker's Avatar
 
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
Quote:
Originally Posted by mtravellerh View Post
Könnte man im Spellcheckfenster nicht ein paar übliche Symbole wie bspw. Anführungszeichen, langes s und so weiter für den Schnellzugriff bereitlegen? Das funktioniert bei GaGa gut!
Ja, so langsam fängt mir das hier an zu gefallen. Immer her mit weiteren Ideen!!!

PS: Könntest Du mir zufälligerweise einen Screenshot vom GaGa-Korrekturfenster mailen?
netseeker is offline   Reply With Quote
Old 12-17-2009, 12:39 PM   #11
mtravellerh
book creator
mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.
 
mtravellerh's Avatar
 
Posts: 9,635
Karma: 3856660
Join Date: Oct 2008
Location: Luxembourg
Device: PB360°
Ja klar, aber ich geh heute nicht mehr hin! morgen dann!
mtravellerh is offline   Reply With Quote
Old 12-18-2009, 11:45 AM   #12
netseeker
sleepless reader
netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.
 
netseeker's Avatar
 
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
Nächster Wurf von Sketches, welche mtravellerhs Anmerkungen aufgreifen...
Attached Thumbnails
Click image for larger version

Name:	welcome.png
Views:	475
Size:	37.7 KB
ID:	41502   Click image for larger version

Name:	new.png
Views:	478
Size:	28.2 KB
ID:	41503   Click image for larger version

Name:	edit.png
Views:	495
Size:	172.8 KB
ID:	41504   Click image for larger version

Name:	spellcheck.png
Views:	531
Size:	12.8 KB
ID:	41505   Click image for larger version

Name:	extendedchars.png
Views:	507
Size:	14.7 KB
ID:	41506  
netseeker is offline   Reply With Quote
Old 12-18-2009, 11:57 AM   #13
mtravellerh
book creator
mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.
 
mtravellerh's Avatar
 
Posts: 9,635
Karma: 3856660
Join Date: Oct 2008
Location: Luxembourg
Device: PB360°
Very nice!!
mtravellerh is offline   Reply With Quote
Old 12-18-2009, 03:00 PM   #14
Josch91
Reader
Josch91 can teach chickens to fly.Josch91 can teach chickens to fly.Josch91 can teach chickens to fly.Josch91 can teach chickens to fly.Josch91 can teach chickens to fly.Josch91 can teach chickens to fly.Josch91 can teach chickens to fly.Josch91 can teach chickens to fly.Josch91 can teach chickens to fly.Josch91 can teach chickens to fly.Josch91 can teach chickens to fly.
 
Josch91's Avatar
 
Posts: 818
Karma: 3522
Join Date: Apr 2009
Location: Germany
Device: Kindle 4, iPad
Gefällt mir sehr gut, ich habe tesseract noch nie ausprobiert und bin schon sehr auf die endgültige Version mit neuer GUI gespannt. Vorschläge fallen mir im Moment noch nicht ein, aber da kommt sicher noch etwas.

Edit: Da ist schon eine Idee. Wäre es möglich, wenn man einen Teil des Textes im rechten Abschnitt mit dem erkannten Text markiert, diese markierung auch in der Vorlage anzuzeigen. So wie im Anhang?
Attached Thumbnails
Click image for larger version

Name:	edit.png
Views:	491
Size:	202.7 KB
ID:	41510  

Last edited by Josch91; 12-18-2009 at 03:10 PM.
Josch91 is offline   Reply With Quote
Old 12-18-2009, 03:11 PM   #15
mtravellerh
book creator
mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.
 
mtravellerh's Avatar
 
Posts: 9,635
Karma: 3856660
Join Date: Oct 2008
Location: Luxembourg
Device: PB360°
Mir fällt gerade auf, dass Du im Korrekturfenster ganz konkrete Formatbefehle eingebut hast. Willst Du das dann als html exportieren oder wie?
mtravellerh is offline   Reply With Quote
Reply

Tags
ocr, tesseract


Forum Jump

Similar Threads
Thread Thread Starter Forum Replies Last Post
Lesetipp für den Notfall - Handbuch Filesharing - Leitfaden für Eltern beachwanderer Lounge 2 02-24-2010 02:51 AM
Nook Kleiner Tip für alle, die einen M-Edge cove für den Nook möchten mos Andere Lesegeräte 0 01-30-2010 03:52 AM
Kleiner?! Nein, größer bitte! Marc_liest Andere Lesegeräte 5 05-02-2009 03:30 PM
Bitte um Kritik sp4rks E-Books 8 03-23-2009 04:48 AM
OCR-Software für altdeutsche Schrift mtravellerh Software 9 02-19-2009 02:29 PM


All times are GMT -4. The time now is 02:35 PM.


MobileRead.com is a privately owned, operated and funded community.