![]() |
#31 |
Reader
![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() Posts: 818
Karma: 3522
Join Date: Apr 2009
Location: Germany
Device: Kindle 4, iPad
|
Ich bin wirklich beeindruckt. Sieht wieder super aus.
![]() |
![]() |
![]() |
![]() |
#32 |
Junior Member
![]() Posts: 2
Karma: 10
Join Date: Jan 2010
Device: none
|
Kompliment
Kompliment und Gratulation!
Vorweg: Ich bin ein Programmier-Dau und nur Anwender aber ich freue mich auf Textaurare, da ich beruflich viel mit tesseract und freeocr deutsche Fraktur [Texte des frühen 18. Jahrhunderts] erkenne und bearbeite. Mit dieser Methode komme ich soweit gut hin. Eine Frage und eventuell Bitte: Bei o.g. Konstellation stört mich sehr, daß man nicht alle Seiten eines pdf-Dokuments in "einem Rutsch" erkennen lasssen kann, sondern immer seitenweise vorgehen muß. Kann das Textaurare? Das Beste für 2010 und nochmals: Kompliment an der Programmierer. Stephan. |
![]() |
![]() |
![]() |
#33 | |
sleepless reader
![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
|
Quote:
![]() So langsam löse ich hier eine ganz schön große Erwartungshaltung an das Programm aus. ![]() ![]() Ja, das Abarbeiten eines ganzen PDF's in "einem Rutsch" wird es geben. Das war schon in den Sketches ganz am Anfang des Threads als etwas ungeschickt benannte Option "sofort starten" vorgesehen. Diese Option wird es bereits in der ersten Version als "Geamtes Dokument vorverarbeiten" geben. Dazu kann man dann auch später noch die Tesseract-Einstellungen für das gesamte Dokument ändern und den Prozess nochmal anstoßen, falls man sieht, dass die Initalbearbeitung nicht so gut gelaufen ist wie erwartet. Zusätzlich gestattet Textaurare wie freeOCR auch das "OCRen" einzelner Seiten, weil man da auch nochmal für eine Seite andere Tesseract-Trainingsdaten auswählen kann. Manchmal hat man ja mehrsprachige Dokumente und da ist es gut, wenn man die Einstellungen (Trainingsdaten & Wörterbuch) pro Seite vornehmen kann. Last edited by netseeker; 01-07-2010 at 06:12 AM. |
|
![]() |
![]() |
![]() |
#34 |
Enthusiast
![]() ![]() ![]() Posts: 41
Karma: 282
Join Date: Jun 2009
Device: Sony PRS-505
|
Hi,
ich habe mal aus meinem System die Dateien rausgesucht, die wie aspell-Dictionaries aussehen. Wenn es die falschen sind, sag mit bitte, welche du brauchst, dann lad ich die noch eben hoch. http://rapidshare.de/files/48955998/aspell.tar.bz2.html Gruß, Duglum |
![]() |
![]() |
![]() |
#35 | |
sleepless reader
![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
|
Quote:
Ich will einen Vergleich zwischen den verschiedenen Spellcheckern machen und einer benötigt die Aspell-Dictionaries. Wahrscheinlich wird es darauf hinauslaufen, Wortlisten + Aspell Phonetik-Steuerdateien für die jeweilige Sprache zu verwenden. Dann kann der Benutzer problemfrei eigene Wortlisten einspielen. Mal sehen, ob das so gut funktioniert wie ich es mir vorstelle. ![]() |
|
![]() |
![]() |
![]() |
#36 |
Junior Member
![]() Posts: 3
Karma: 10
Join Date: Jan 2010
Device: Motorola A780
|
![]()
Da Sie das Projekt in Java realisieren: Ist Ihnen VietOCR bekannt?
Ich habe VietOCR schon einmal in Verbindung mit dem Tesseract Modul 'deu-f' benutzt und gute bis sehr Ergebnisse erzielt. Das Programm kann übrigens auch PDF Dateien importieren. Besonders gefallen hatte mir bei VietOCR die Funktion, zu erkennenden Text zu markieren. Das ist besonders hilfreich bei Dokumenten, wo Frakturtext Illustrationen umfliesst. Tesseract versucht sonst 'mit Gewalt' die Illustrationen als Buchstaben zu interpretieren... Da ich meine Java Kenntnisse leider *sehr* mangelhaft sind: Könnte man in so eine Anwendung auch (zusätzlich) eine Funktion für 'verteilte Bearbeitung' einbauen? Gerade bei sehr großen Dokumenten (>700 Seiten) ist der Zeitaufwand für die komplette Bearbeitung durch einen Einzelnen leider doch sehr groß. Ich würde mir wünschen, daß z.B. das gescannte PDF-Dokument, aufgeteilt in einzelne Seiten, auf einem Internetserver liegt. Wer Zeit und Lust hat, könnte dann eine einzelne Seite bearbeiten und das Ergebnis auf den Server laden. Da dann mehrere interessierte Leute gleichzeitig an einem Dokument arbeiten könnten, wäre die Umwandlung möglicherweise schneller zu erledigen... |
![]() |
![]() |
![]() |
#37 | ||
sleepless reader
![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
|
Quote:
Layout-Analyse zum automatischen Erkennen von Illustrationen und Absätzen habe ich vorgesehen. Dies wird allerdings erst in einer späteren Version kommen, wenn der Rest soweit gut funktioniert. Eine manuelle Auswahl wie in VietOCR will ich vorerst nicht umsetzen. Wenn sich natürlich noch ein paar weitere Leute dafür aussprechen, dann würde ich mir das nochmall überlegen... Quote:
![]() |
||
![]() |
![]() |
![]() |
#38 | |
Junior Member
![]() Posts: 3
Karma: 10
Join Date: Jan 2010
Device: Motorola A780
|
![]() Quote:
![]() Eine andere Frage wäre außerdem, ob überhaupt Bedarf an solch einer Funktion besteht, d.h. ob noch andere Leute außer mir an solch einem (freiwilligen) 'verteilten Arbeiten' an Dokumenten interessiert wären? Ich persönlich habe leider meist zu wenig Zeit, ein komplettes Buch in ein EBook Format umzuwandeln. Ich würde aber gerne, soweit es meine Zeit zulässt, anderen Leuten bei einer solchen Arbeit helfen. Ich habe schon ein ganz schlechtes Gewissen, daß ich die von anderen Leuten freundlicherweise der Allgemeinheit zur Verfügung gestellten EBooks nur konsumiere, ohne etwas selbst beitragen zu können... ![]() |
|
![]() |
![]() |
![]() |
#39 |
Junior Member
![]() Posts: 2
Karma: 10
Join Date: Jan 2010
Device: none
|
noch eine idee aus der praktischen arbeit
hallo netseeker,
ich hoffe es geht gut und es geht voran. ;-) eben ist mir im praktischen umgang mit fraktur-OCR noch aufgefallen, daß ich häufig das schnappschuss-werkzeug im adobe reader verwende um nur einen ausschnitt zu kopieren und ggf. dann text-erkennen lasse. Nur muß man diesen Ausschnitt erst umständlich in ein bildbearbeitungsprogramm einfügen und abspeichern...sehr umständlich. Vielleicht kann Textaurare es ja, daß man direkt aus der Zwischenablage etwas einfügen kann... Das Beste, Stephan. |
![]() |
![]() |
![]() |
#40 |
Junior Member
![]() Posts: 8
Karma: 10
Join Date: Oct 2009
Location: Hessen, Germany
Device: Pocketbook 360° (MM), iPhone (Stanza)
|
*schieb*
Was ist eigentlich aus Textaurare geworden? Hab über die Suchfunktion leider keine weiteren Infos gefunden... |
![]() |
![]() |
![]() |
Tags |
ocr, tesseract |
|
![]() |
||||
Thread | Thread Starter | Forum | Replies | Last Post |
Lesetipp für den Notfall - Handbuch Filesharing - Leitfaden für Eltern | beachwanderer | Lounge | 2 | 02-24-2010 02:51 AM |
Nook Kleiner Tip für alle, die einen M-Edge cove für den Nook möchten | mos | Andere Lesegeräte | 0 | 01-30-2010 03:52 AM |
Kleiner?! Nein, größer bitte! | Marc_liest | Andere Lesegeräte | 5 | 05-02-2009 03:30 PM |
Bitte um Kritik | sp4rks | E-Books | 8 | 03-23-2009 04:48 AM |
OCR-Software für altdeutsche Schrift | mtravellerh | Software | 9 | 02-19-2009 02:29 PM |