02-17-2009, 12:35 PM | #1 |
book creator
Posts: 9,635
Karma: 3856660
Join Date: Oct 2008
Location: Luxembourg
Device: PB360°
|
OCR-Software für altdeutsche Schrift
Ich möchte hier mal eine Aufruf starten, vielleicht hab ich ja Glück.
Also: Ich habe sämtliche Abenteuer des Detektiv Nobody in altdeutscher Schrift(PDF). Ich weiss. dass es von Abbyy OCR-Software gibt, die diese Schrift lesen kann, aber ich kann sie mir leider nicht leisten. Daher möchte ich gerne wissen, ob jemand diese Software hat und die PDFs durchlaufen lassen könnte (zu HTML oder TXT) Ich würde das K-Lesen übernehmen. Bitte per PM melden ode hier rein schreiben. Falls ich niemanden finde, muss ich wohl oder übel den ganzen Text abschreiben und das wär nun wirklich sehr aufwändig. Danke im Voraus MTH |
02-18-2009, 04:33 AM | #2 |
Palm Addict
Posts: 477
Karma: 1001951
Join Date: Aug 2008
Device: Cybook Gen3 [512mb, FW: 1.5]
|
Vom Finereader 9 gibt's eine demo-Version.
Sie läßt sich soweit ich weiß 15 Tage nutzen und verarbeitet bis zu 50 Seiten auf einmal. Wenn du das Ergebnis danach in HTML (oder andere Formate) exportierst (und eventuell zusammensetzt) sollte es Dir viel Zeit sparen. |
Advert | |
|
02-18-2009, 03:23 PM | #3 |
book creator
Posts: 9,635
Karma: 3856660
Join Date: Oct 2008
Location: Luxembourg
Device: PB360°
|
Danke. Ich werd das mal probieren.
|
02-18-2009, 05:10 PM | #4 |
sleepless reader
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
|
Tesseract ist Open Source und hat Unterstützung und Trainingsdaten sowohl für moderne deutsche Schrift als auch für die Frakturschrift:
Habs noch nicht getestet, werde das aber jetzt machen, da ich ebenfalls Bedarf am OCR von Frakturschrift habe. Wahrscheinlich werden die Ergebnisse aber schlechter wie bei Finereader & Co sein...umständlicher ist es allemal. |
02-18-2009, 06:42 PM | #5 | |
sleepless reader
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
|
Habe es mit 2 verschiedenen Büchern, welche unterschiedliche Frakturschriftarten benutzen mal getestet und war ganz positiv überrascht. Naja, so positiv wie man bei einem kostenlosen OCR und dann noch mit Frakturschrift halt sein kann.
Zuerst muss man die PDF-Inhalte als tif-Grafiken bekommen, dann kann man Tesseract via Quote:
Anbei mal die Resultate der ersten zwei Seiten vom Detektiv Nobody 5. Das Ergebnis der ersten Seite ist aufgrund des Drop-Cap am ersten Absatz natürlich zwangsläufig nicht so gut. Die zweite Seite sieht besser aus. Keine Ahnung wie sich der Finereader da schlägt - vielleicht kann ja mal jemand einen Vergleich posten... |
|
Advert | |
|
02-18-2009, 07:21 PM | #6 |
Palm Addict
Posts: 477
Karma: 1001951
Join Date: Aug 2008
Device: Cybook Gen3 [512mb, FW: 1.5]
|
In dem Fall solltet Ihr mal das testen: http://www.frakturschrift.de/
Der gewöhnliche Finereader bräuchte auch eine Musterdatei um brauchbare Ergebnisse zu liefern, die sollten hier schon dabei sein. |
02-19-2009, 03:43 AM | #7 | |
book creator
Posts: 9,635
Karma: 3856660
Join Date: Oct 2008
Location: Luxembourg
Device: PB360°
|
Quote:
|
|
02-19-2009, 09:13 AM | #8 |
sleepless reader
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
|
Beim Trainieren von Tesseract hilft unter Windows JTesseract, eine überraschend komfortable GUI, ungemein...
|
02-19-2009, 12:36 PM | #9 |
book creator
Posts: 9,635
Karma: 3856660
Join Date: Oct 2008
Location: Luxembourg
Device: PB360°
|
Danke nochmal. Bin schon fleissig am OCRen (oder wie immer das heisst). Funktioniert überraschend gut!
|
02-19-2009, 02:29 PM | #10 |
Palm Addict
Posts: 477
Karma: 1001951
Join Date: Aug 2008
Device: Cybook Gen3 [512mb, FW: 1.5]
|
optical character recognition = optische Zeichenerkennung
|
|
Similar Threads | ||||
Thread | Thread Starter | Forum | Replies | Last Post |
Grafische Oberfläche für tesseract OCR - Anforderungen bitte | netseeker | Software | 39 | 10-09-2010 04:48 AM |
Software - Entwicklung für's PocketBook360 für Einsteiger... | tzenzen | PocketBook | 7 | 06-14-2010 07:10 AM |
OCR Software Help | kpfeifle | Workshop | 5 | 03-01-2010 02:27 PM |
Mobipocket-Software für Pocketbook | Moredread | PocketBook | 0 | 01-03-2010 08:12 AM |
Recommendation for basic scanning software (non OCR) | yunti | Workshop | 1 | 11-27-2009 07:08 AM |