Register Guidelines E-Books Search Today's Posts Mark Forums Read

Go Back   MobileRead Forums > Non-English Discussions > Deutsches Forum > E-Books

Notices

Reply
 
Thread Tools Search this Thread
Old 05-27-2011, 04:41 PM   #31
Vauh
Zealot
Vauh began at the beginning.
 
Posts: 141
Karma: 10
Join Date: Dec 2007
Device: Pocketbook Touch Lux 3
Nun, US-IPs sind für mich kein Problem. Mein Sohn lebt in den USA.
Ich schaue mir die Sachen gerne mal an und melde mich wieder.

Danke.

Vauh
Vauh is offline   Reply With Quote
Old 05-29-2011, 12:33 PM   #32
kbaerwald
BioReader
kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'
 
kbaerwald's Avatar
 
Posts: 292
Karma: 42568
Join Date: Apr 2009
Location: Germany
Device: Various
Hallo hokuspokus

Leider sind ja viele Scans aus der Google Library schlecht: insbesondere machen zu fett gescannte Schriften (überbelichet) und zahlreiche Flecken und "Fliegenschiß" solche Scans für OCR unbrauchbar. Wenn dann noch Fraktur-Scans gemacht werden, ist es oft ganz schwer brauchbares Ausgangsmaterial zu bekommen.

Von Polaroid gibt es ein Freeware Programm (PolaDSR=Dust & Scratch Removal), welches von Fotografen eingesetzt wird zur Retusche von Schwarzweißfotos (da funktionieren die modernen IR-basierenden Systeme nicht!).

Wenn man jetzt die einzelnen tifs mit diesem Programm "behandelt" (es muß vorsichtig vorgegangen werden, damit nicht gleich alle Umlaute entfernt werden), so resultiert ein gesäubertes tif, welches dann durch tesseract et al. geschickt werden kann.

Ich habe einmal eine Seite aus dem Todesengel von Karl Wilhelm Salice-Contessa entsprechend vorbehandelt und dann mit tesseract interpretiert. Es sieht am Ende immer noch recht schlimm aus, aber man kann wenigstens einen Sinn erahnen. Bei den OCR Fehlern bzgl. "fetten" Buchstaben hilft das natürlich auch nicht: hier muss neu gescannt werden.

Dem gescannten Material des "Todesengel" kann man leider nur schlechte Noten geben, hier ist es wahrscheinlich sinnvoller, wenn alles abgetippt wird: m.E. ist hier der Gesamtaufwand verglichen mit OCR + DSR pro tif geringer. Überlege dir, ob du dich herantraust, oder wir finden jemanden, der mehr OCR-Arbeit da hineinsteckt.

Beispiele, wie immer, in der Anlage. Auch das etwas fragwürdige Gesamt-Textfile des gescannten "Todesengels" (mit den fehlenden Seiten) als todesengel_gesamt.txt.

Klaus
Attached Thumbnails
Click image for larger version

Name:	todesengel.jpg
Views:	694
Size:	1.01 MB
ID:	72041   Click image for larger version

Name:	todesengel_cor.jpg
Views:	674
Size:	875.6 KB
ID:	72042  
Attached Files
File Type: txt todesengel.txt (1.3 KB, 638 views)
File Type: txt todesengel_cor.txt (1.2 KB, 627 views)
File Type: txt todesengel_gesamt.txt (105.0 KB, 866 views)
kbaerwald is offline   Reply With Quote
Old 05-29-2011, 01:13 PM   #33
Uluhara
Connoisseur
Uluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-books
 
Posts: 50
Karma: 874
Join Date: Apr 2011
Device: sony prs-505
Hallo kbaerwald,


Danke für die Infos zum "Scannen mit OCR von Fraktur" - hört sich an als machtest Du richtige Fortschritte

Zur Scan-Qualität vom Todesengel: ehrlich gesagt wundert es mich, dass du da überhaupt was rausholen konntest ... die Seiten sind wirklich teilweise ein Graus, die kann ich teilweise kaum lesen / entziffern und muss manchmal zum "Kontext raten" übergehen

Melde mich also hiermit zum "Abtippen" - kann aber etwas dauern, hab im Moment reichlich zu tun ...

wünsche noch einen schönen Sonntag
Uluhara is offline   Reply With Quote
Old 05-29-2011, 01:58 PM   #34
Zatakawa
Enthusiast
Zatakawa ought to be getting tired of karma fortunes by now.Zatakawa ought to be getting tired of karma fortunes by now.Zatakawa ought to be getting tired of karma fortunes by now.Zatakawa ought to be getting tired of karma fortunes by now.Zatakawa ought to be getting tired of karma fortunes by now.Zatakawa ought to be getting tired of karma fortunes by now.Zatakawa ought to be getting tired of karma fortunes by now.Zatakawa ought to be getting tired of karma fortunes by now.Zatakawa ought to be getting tired of karma fortunes by now.Zatakawa ought to be getting tired of karma fortunes by now.Zatakawa ought to be getting tired of karma fortunes by now.
 
Zatakawa's Avatar
 
Posts: 37
Karma: 500222
Join Date: Mar 2011
Device: none
Übrigens gibt es "Das Schwert und die Schlangen" auch bei Google (e)books (auch als PDF, in besserer Qualität als das im ersten Beitrag dieses Threads verlinkte Dokument), interessanterweise nicht als Fließtext verfügbar, obwohl das Dokument durchsuchbar ist, also durch OCR lief ...
Zatakawa is offline   Reply With Quote
Old 05-29-2011, 02:44 PM   #35
Uluhara
Connoisseur
Uluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-booksUluhara has learned how to read e-books
 
Posts: 50
Karma: 874
Join Date: Apr 2011
Device: sony prs-505
Quote:
Originally Posted by Zatakawa View Post
Übrigens gibt es "Das Schwert und die Schlangen" auch bei Google (e)books (auch als PDF, in besserer Qualität als das im ersten Beitrag dieses Threads verlinkte Dokument), interessanterweise nicht als Fließtext verfügbar, obwohl das Dokument durchsuchbar ist, also durch OCR lief ...
und hier bei mobilread sogar als epub mit richtigem Text:

https://www.mobileread.com/forums/sho...06#post1547206


wie komm ich denn an das von dir verlinkte Dokument ran? Kann ich irgendwie nicht öffnen ... vielleicht ist da ja noch was drin was besser zu gebrauchen ist als die Scans die ich schon habe?
Uluhara is offline   Reply With Quote
Old 05-29-2011, 03:30 PM   #36
Hokuspokus
Fidibus
Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.
 
Posts: 440
Karma: 2246533
Join Date: Feb 2010
Device: none
Das gibt es auch als ganz normales Google Book.
http://books.google.de/books?id=1DIu...gbs_navlinks_s

Möglich, dass dieser Scan besser ausgefallen ist, als der, den ich benutzt habe.

Meister Dietrich ist nach wie vor in Arbeit, ich komme nur irgendwie zu nichts im Moment.
Hokuspokus is offline   Reply With Quote
Old 05-30-2011, 08:28 AM   #37
Zatakawa
Enthusiast
Zatakawa ought to be getting tired of karma fortunes by now.Zatakawa ought to be getting tired of karma fortunes by now.Zatakawa ought to be getting tired of karma fortunes by now.Zatakawa ought to be getting tired of karma fortunes by now.Zatakawa ought to be getting tired of karma fortunes by now.Zatakawa ought to be getting tired of karma fortunes by now.Zatakawa ought to be getting tired of karma fortunes by now.Zatakawa ought to be getting tired of karma fortunes by now.Zatakawa ought to be getting tired of karma fortunes by now.Zatakawa ought to be getting tired of karma fortunes by now.Zatakawa ought to be getting tired of karma fortunes by now.
 
Zatakawa's Avatar
 
Posts: 37
Karma: 500222
Join Date: Mar 2011
Device: none
Quote:
Originally Posted by Uluhara View Post
wie komm ich denn an das von dir verlinkte Dokument ran? Kann ich irgendwie nicht öffnen ... vielleicht ist da ja noch was drin was besser zu gebrauchen ist als die Scans die ich schon habe?
Rechts auf der Seite, wo der große "Jetzt lesen"-Knopf ist, steht dadrunter auch "Auf ihrem Gerät lesen". Auf der Seite unten ist dann ein PDF-Download.
Zatakawa is offline   Reply With Quote
Old 05-30-2011, 09:36 AM   #38
kbaerwald
BioReader
kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'
 
kbaerwald's Avatar
 
Posts: 292
Karma: 42568
Join Date: Apr 2009
Location: Germany
Device: Various
Dank Zatakawa ... neue Vorlage von "Der Todesengel" ... neues OCR Glück ... besseres Ergebnis.

Textfile anbei zum Abtippen oder Redigieren.

Klaus
Attached Files
File Type: txt der_todesengel.txt (93.4 KB, 829 views)
kbaerwald is offline   Reply With Quote
Old 11-18-2013, 10:42 AM   #39
Hokuspokus
Fidibus
Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.
 
Posts: 440
Karma: 2246533
Join Date: Feb 2010
Device: none
Als Ergänzung zur OCRten Erzählprosa von Karl Wilhelm Salice-Contessa: Hier gibt's alle noch nicht OCRten Novellen und Erzählungen als Randbeschnittene pdfs, falls jemand Interesse hat: https://archive.org/details/SaliceContessaErzaehlungen

Ich hatte ja versucht, das OCR von Meister Dietrich Korrektur zu lesen, aber ich muss gestehen, dass das einfach nicht meine Baustelle ist. Hut ab und großen Respekt für alle, die das machen!
Ein paar Seiten habe ich geschafft, dann habe ich entnervt aufgegeben. Zweite Idee war, den Text in eine Textverarbeitung zu diktieren. Da muss man aber hinterher auch gründlich Korrekturlesen und man hat das Problem mit der nicht originalem Rechtschreibung. Da lese ich lieber direkt vom Scann.
Hokuspokus is offline   Reply With Quote
Old 12-04-2013, 02:44 PM   #40
mmat1
Berti
mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.
 
mmat1's Avatar
 
Posts: 1,196
Karma: 4985964
Join Date: Jan 2012
Location: Zischebattem
Device: Acer Lumiread
Quote:
Originally Posted by Hokuspokus View Post
Als Ergänzung zur OCRten Erzählprosa von Karl Wilhelm Salice-Contessa: Hier gibt's alle noch nicht OCRten Novellen und Erzählungen als Randbeschnittene pdfs, falls jemand Interesse hat: https://archive.org/details/SaliceContessaErzaehlungen
Hattest du das nicht neulich als EPUB hochgeladen ??

Quote:
Ich hatte ja versucht, das OCR von Meister Dietrich Korrektur zu lesen, aber ich muss gestehen, dass das einfach nicht meine Baustelle ist. Hut ab und großen Respekt für alle, die das machen!
Das erscheint mir jetzt ein wenig, 2 Jahre nach dem vorangegangenen Post, aus dem Zusammenhang gerissen (ich hab auch nicht den ganzen Thread gelesen...)

Was für ein Scan mit einem wie gemachten OCR ??
mmat1 is offline   Reply With Quote
Old 12-05-2013, 04:15 AM   #41
Hokuspokus
Fidibus
Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.
 
Posts: 440
Karma: 2246533
Join Date: Feb 2010
Device: none
Die Erzählungen, die OCRt sind, hatte ich als epub hochgeladen (erster Link, beide Posts übrigens vom selben Tag), es gibt aber noch so einiges, das nicht OCRt ist, das sind die pdfs bei Archive.
Wenn ich einen bestimmten Text lesen möchte, nehme ich gerne auch den Scann, wenn's kein epub gibt. Dem einen oder anderen mag es ähnlich gehen (20 Downloads immerhin, laut Archive).

Der Zusammenhang ist, dass Meister Dietrich auch eine von den nicht OCRten Erzählungen von Contessa ist. Naja, nach zwei Jahren mag sich jeder selbst gedacht haben, dass das nix mehr wird mit mir und dem Meister Dietrich, wenigstens diejenigen, die sich noch daran erinnern konnten. Andererseits schadet es auch nicht, es zu sagen.

Ich will jetzt nicht aus anderer Leute Nähkästchen plaudern, aber wahrscheinlich gibt es hier bald eine Komplettausgabe der Erzählungen von Contessa als epub, von daher ist das alte OCR jetzt eh nicht mehr interessant. War ein Google Scann mit Tesseract OCRt. https://www.mobileread.com/forums/sho...4&postcount=23
Hokuspokus is offline   Reply With Quote
Old 12-07-2013, 04:06 PM   #42
mmat1
Berti
mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.
 
mmat1's Avatar
 
Posts: 1,196
Karma: 4985964
Join Date: Jan 2012
Location: Zischebattem
Device: Acer Lumiread
Quote:
Originally Posted by Hokuspokus View Post
Der Zusammenhang ist, dass Meister Dietrich auch eine von den nicht OCRten Erzählungen von Contessa ist. Naja, nach zwei Jahren mag sich jeder selbst gedacht haben, dass das nix mehr wird mit mir und dem Meister Dietrich, wenigstens diejenigen, die sich noch daran erinnern konnten. Andererseits schadet es auch nicht, es zu sagen.

Ich will jetzt nicht aus anderer Leute Nähkästchen plaudern, aber wahrscheinlich gibt es hier bald eine Komplettausgabe der Erzählungen von Contessa als epub, von daher ist das alte OCR jetzt eh nicht mehr interessant. War ein Google Scann mit Tesseract OCRt. https://www.mobileread.com/forums/sho...4&postcount=23
Achso, jetzt verstehe ich das. Und leider krieg ich das OCR auch nicht besser hin (Versucht hab ichs... ). Im Zweifel würd ich das halt so korrekturlesen, aber da ist wohl schon ein anderer dran....
mmat1 is offline   Reply With Quote
Reply

Thread Tools Search this Thread
Search this Thread:

Advanced Search

Forum Jump

Similar Threads
Thread Thread Starter Forum Replies Last Post
Das Aus für den txtr Reader? Bratzzo Andere Lesegeräte 22 12-05-2010 08:16 PM
gibt es den perfekten eBook-Reader für mich? Ataraxia Erste Hilfe 6 05-25-2010 09:54 AM
Lesetipp für den Notfall - Handbuch Filesharing - Leitfaden für Eltern beachwanderer Lounge 2 02-24-2010 02:51 AM
Nook Kleiner Tip für alle, die einen M-Edge cove für den Nook möchten mos Andere Lesegeräte 0 01-30-2010 03:52 AM
Welche Features wünscht Ihr euch für den "perfekten Reader"? Josch91 Lounge 9 08-03-2009 02:22 PM


All times are GMT -4. The time now is 04:21 PM.


MobileRead.com is a privately owned, operated and funded community.