12-18-2009, 03:20 PM | #16 | ||
sleepless reader
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
|
Quote:
Edit: Ich habe inzwischen herausgefunden wie ich Tesseract die ursprünglichen Positionen der Zeichen entlocken kann...vielleicht geht also da doch noch was.... Quote:
Edit: Tessseract 3.0 wird wohl hocr-Ausgabe von Haus aus mitbringen also wären wir damit auf der sicheren Seite... Last edited by netseeker; 12-18-2009 at 06:33 PM. |
||
12-23-2009, 02:57 PM | #17 |
sleepless reader
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
|
Anbei mal ein paar erste Screenshots aus der glühend heißen Softwareschmiede...
Das Positive ist:
Das Negative ist: Es ist noch eine Unmenge Arbeit zu tun und die OCR-Ergebnisse müssen zwingend noch weiter verbessert werden. Ich werde in den nächsten Tagen die bis dahin fertigestellten Programmquellen auf dem Dev Hub einchecken und hoffe, dass vielleicht der eine oder andere interessierte Developer auf den Zug aufspringt. Wer Interesse hat, bitte via PM bei mir melden. Interessenten
|
Advert | |
|
12-23-2009, 03:13 PM | #18 | |
Reader
Posts: 818
Karma: 3522
Join Date: Apr 2009
Location: Germany
Device: Kindle 4, iPad
|
Wow, das sieht ja super aus.
Quote:
|
|
12-23-2009, 03:17 PM | #19 |
Early Adopter
Posts: 3,161
Karma: 3534948
Join Date: Oct 2008
Location: hier und da
Device: einige
|
|
12-23-2009, 03:22 PM | #20 | |
sleepless reader
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
|
Danke! Allerdings konzentriere ich mich derzeit im Wesentlichen noch darauf, dass es funktioniert. An der UI können wir dann später noch feilen, wenn wir entsprechende Testrückmeldungen haben.
Quote:
|
|
Advert | |
|
12-27-2009, 03:11 PM | #21 |
Translating Calibre...
Posts: 657
Karma: 2902
Join Date: Aug 2007
Location: ER.de
Device: [PRS-500], PB360
|
Bombastisch!
Ich melde mich gleich mal als Alphatester an. Meine Programmierkenntnisse tendieren gegen null. Ich kann mit verschiedensten Textquellen dienen - aber die meisten leider nicht in Fraktur. Würde das stupide Ausprobieren übernehmen. Als Vorschlag: die Buttonleiste editierbar machen, dann kann jeder die Zeichen, die er am häufigsten Korrigieren muss, selbst dorthin legen. Passiert mir beim Scannen, OCR und Korrigieren immer: das Anführungszeichenendzeichen (wie heißt das richtig?) wird immer falsch eingelesen: " “ ” ˝ - Möglichkeiten gibt’s genug... |
01-01-2010, 01:52 PM | #22 |
sleepless reader
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
|
Nachdem Textaurare heute sein erstes OCR-Project vollständig erzeugt, wieder geöffnet und korrekt dargestellt hat (ja, es geht voran, wenn auch ein wenig langsamer wie erhofft), habe ich mir ein paar alte Projekte angeschaut und dabei ist mir folgendes aufgefallen:
Ich habe noch ein paar Alghorithmen "herumliegen" um mehrspaltige PDF's (bzw. die Bilder davon) zu teilen und jede 2. Spalte auf eine weitere Einzelseite abzubilden. Wäre es sinnvoll eine Option zum automatischen "Auftrennen" mehrspaltiger PDF's einzubauen? Das Originallayout wandert dann natürlich ins Nirvana aber andererseits ist der OCR-Output (aufgrund der fehlenden Layoutanalyse in Tesseract) ansonsten ohnehin nicht wirklich zu gebrauchen. PS: Muss noch ein paar Bugs finden, dann gibt es wieder Screenshots! |
01-01-2010, 02:37 PM | #23 | |
book creator
Posts: 9,635
Karma: 3856660
Join Date: Oct 2008
Location: Luxembourg
Device: PB360°
|
Quote:
|
|
01-01-2010, 04:03 PM | #24 | |
sleepless reader
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
|
Quote:
Ich merke es mal für später vor. |
|
01-05-2010, 02:43 PM | #25 |
sleepless reader
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
|
Here we go. Aktueller Status sowie ein paar neue Screenshots...
Prinzipiell funktioniert das meiste. Der Editor arbeitet auf RTF-Basis (Richt Text Format), was eine Weiterverarbeitung im Editor eurer Wahl ermöglichen sollte. Außerdem wird RTF seitens der notwendigen Editorkits von Java besser unterstützt als HTML oder XHTML. Im Detail fehlen jetzt noch:
Die "Kleineren Details", den HTML-Export sowie die Unterstützung für reguläre Ausdrücke lasse ich für die erste Runde evtl. noch weg. Installer mache ich ohnehin erst ganz zum Schluß, wenn die ersten Tests erfolgreich waren. Die anderen Funktionen schaffe ich hoffentlich in den nächsten Tagen. Morgen ist ja glücklicherweise hier Feiertag. Last edited by netseeker; 01-05-2010 at 02:46 PM. |
01-05-2010, 03:03 PM | #26 | |
book creator
Posts: 9,635
Karma: 3856660
Join Date: Oct 2008
Location: Luxembourg
Device: PB360°
|
Quote:
|
|
01-05-2010, 04:17 PM | #27 | |
sleepless reader
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
|
Quote:
Kleine Bitte an alle Mitleser: Ich benötige dringend aktuelle, fertig generierte Aspell-Dictionaries für
PS: Die Pakete für die Dictionaries gibts hier: ftp://ftp.gnu.org/gnu/aspell/dict/0index.html#0.60 |
|
01-06-2010, 03:56 AM | #28 |
Early Adopter
Posts: 3,161
Karma: 3534948
Join Date: Oct 2008
Location: hier und da
Device: einige
|
Toll! Super! Klasse!
|
01-06-2010, 08:57 AM | #29 |
Guru
Posts: 834
Karma: 102419
Join Date: Sep 2007
Location: Vienna, Austria
Device: iPhone
|
Wann kommt der OS X Port? Sieht klasse aus!
|
01-06-2010, 09:05 AM | #30 |
sleepless reader
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
|
Danke.
Das sollte bereits unter OS X funktionieren - Java 1.6 Unterstützung ist dort ja vorhanden und Tesseract gibt es auch für OS X (bspw. via Darwinports). Allerdings werden die Menüs höchstwahrscheinlich nicht aus dem Programmfenster ausgelagert (das muss dann mal jemand testen). Ich erwarte auf OS X allerdings ein paar kleinere Probleme in der Oberfläche, weil Apple an der Java VM einige krasse Anpassungen vorgenommen hat um die besser in die Cocoa-Oberfläche zu integrieren und auch schneller zu machen. Das bekommen wir aber hin. |
Tags |
ocr, tesseract |
|
Similar Threads | ||||
Thread | Thread Starter | Forum | Replies | Last Post |
Lesetipp für den Notfall - Handbuch Filesharing - Leitfaden für Eltern | beachwanderer | Lounge | 2 | 02-24-2010 02:51 AM |
Nook Kleiner Tip für alle, die einen M-Edge cove für den Nook möchten | mos | Andere Lesegeräte | 0 | 01-30-2010 03:52 AM |
Kleiner?! Nein, größer bitte! | Marc_liest | Andere Lesegeräte | 5 | 05-02-2009 03:30 PM |
Bitte um Kritik | sp4rks | E-Books | 8 | 03-23-2009 04:48 AM |
OCR-Software für altdeutsche Schrift | mtravellerh | Software | 9 | 02-19-2009 02:29 PM |