Register Guidelines E-Books Today's Posts Search

Go Back   MobileRead Forums > Non-English Discussions > Deutsches Forum > Software

Notices

Reply
 
Thread Tools Search this Thread
Old 01-06-2010, 09:36 AM   #31
Josch91
Reader
Josch91 can teach chickens to fly.Josch91 can teach chickens to fly.Josch91 can teach chickens to fly.Josch91 can teach chickens to fly.Josch91 can teach chickens to fly.Josch91 can teach chickens to fly.Josch91 can teach chickens to fly.Josch91 can teach chickens to fly.Josch91 can teach chickens to fly.Josch91 can teach chickens to fly.Josch91 can teach chickens to fly.
 
Josch91's Avatar
 
Posts: 818
Karma: 3522
Join Date: Apr 2009
Location: Germany
Device: Kindle 4, iPad
Ich bin wirklich beeindruckt. Sieht wieder super aus.
Josch91 is offline   Reply With Quote
Old 01-07-2010, 03:47 AM   #32
Staderho
Junior Member
Staderho began at the beginning.
 
Posts: 2
Karma: 10
Join Date: Jan 2010
Device: none
Kompliment

Kompliment und Gratulation!

Vorweg: Ich bin ein Programmier-Dau und nur Anwender aber ich freue mich auf Textaurare, da ich beruflich viel mit tesseract und freeocr deutsche Fraktur [Texte des frühen 18. Jahrhunderts] erkenne und bearbeite. Mit dieser Methode komme ich soweit gut hin.

Eine Frage und eventuell Bitte: Bei o.g. Konstellation stört mich sehr, daß man nicht alle Seiten eines pdf-Dokuments in "einem Rutsch" erkennen lasssen kann, sondern immer seitenweise vorgehen muß. Kann das Textaurare?

Das Beste für 2010 und nochmals: Kompliment an der Programmierer.

Stephan.
Staderho is offline   Reply With Quote
Advert
Old 01-07-2010, 04:04 AM   #33
netseeker
sleepless reader
netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.
 
netseeker's Avatar
 
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
Quote:
Originally Posted by Staderho View Post
Kompliment und Gratulation!
...
Eine Frage und eventuell Bitte: Bei o.g. Konstellation stört mich sehr, daß man nicht alle Seiten eines pdf-Dokuments in "einem Rutsch" erkennen lasssen kann, sondern immer seitenweise vorgehen muß. Kann das Textaurare?

Das Beste für 2010 und nochmals: Kompliment an der Programmierer.
Vielen Dank für die Vorschußlorbeeren und auch alle Gute für 2010.

So langsam löse ich hier eine ganz schön große Erwartungshaltung an das Programm aus. Ich habe irgendwie Programmiererregel Nr. 1 vergessen: Immer die Erwartungshaltung niedrig halten.

Ja, das Abarbeiten eines ganzen PDF's in "einem Rutsch" wird es geben. Das war schon in den Sketches ganz am Anfang des Threads als etwas ungeschickt benannte Option "sofort starten" vorgesehen. Diese Option wird es bereits in der ersten Version als "Geamtes Dokument vorverarbeiten" geben. Dazu kann man dann auch später noch die Tesseract-Einstellungen für das gesamte Dokument ändern und den Prozess nochmal anstoßen, falls man sieht, dass die Initalbearbeitung nicht so gut gelaufen ist wie erwartet. Zusätzlich gestattet Textaurare wie freeOCR auch das "OCRen" einzelner Seiten, weil man da auch nochmal für eine Seite andere Tesseract-Trainingsdaten auswählen kann. Manchmal hat man ja mehrsprachige Dokumente und da ist es gut, wenn man die Einstellungen (Trainingsdaten & Wörterbuch) pro Seite vornehmen kann.

Last edited by netseeker; 01-07-2010 at 06:12 AM.
netseeker is offline   Reply With Quote
Old 01-07-2010, 05:49 AM   #34
Duglum
Enthusiast
Duglum has a complete set of Star Wars action figures.Duglum has a complete set of Star Wars action figures.Duglum has a complete set of Star Wars action figures.
 
Posts: 41
Karma: 282
Join Date: Jun 2009
Device: Sony PRS-505
Hi,

ich habe mal aus meinem System die Dateien rausgesucht, die wie aspell-Dictionaries aussehen. Wenn es die falschen sind, sag mit bitte, welche du brauchst, dann lad ich die noch eben hoch.

http://rapidshare.de/files/48955998/aspell.tar.bz2.html

Gruß,
Duglum
Duglum is offline   Reply With Quote
Old 01-07-2010, 06:44 AM   #35
netseeker
sleepless reader
netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.
 
netseeker's Avatar
 
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
Quote:
Originally Posted by Duglum View Post
Hi,

ich habe mal aus meinem System die Dateien rausgesucht, die wie aspell-Dictionaries aussehen. Wenn es die falschen sind, sag mit bitte, welche du brauchst, dann lad ich die noch eben hoch.

http://rapidshare.de/files/48955998/aspell.tar.bz2.html

Gruß,
Duglum
Vielen Dank, das passt soweit. Dafür gibts Karma!
Ich will einen Vergleich zwischen den verschiedenen Spellcheckern machen und einer benötigt die Aspell-Dictionaries.

Wahrscheinlich wird es darauf hinauslaufen, Wortlisten + Aspell Phonetik-Steuerdateien für die jeweilige Sprache zu verwenden. Dann kann der Benutzer problemfrei eigene Wortlisten einspielen. Mal sehen, ob das so gut funktioniert wie ich es mir vorstelle.
netseeker is offline   Reply With Quote
Advert
Old 01-18-2010, 12:08 PM   #36
Martino
Junior Member
Martino began at the beginning.
 
Posts: 3
Karma: 10
Join Date: Jan 2010
Device: Motorola A780
Smile

Da Sie das Projekt in Java realisieren: Ist Ihnen VietOCR bekannt?

Ich habe VietOCR schon einmal in Verbindung mit dem Tesseract Modul 'deu-f' benutzt und gute bis sehr Ergebnisse erzielt. Das Programm kann übrigens auch PDF Dateien importieren.

Besonders gefallen hatte mir bei VietOCR die Funktion, zu erkennenden Text zu markieren. Das ist besonders hilfreich bei Dokumenten, wo Frakturtext Illustrationen umfliesst. Tesseract versucht sonst 'mit Gewalt' die Illustrationen als Buchstaben zu interpretieren...

Da ich meine Java Kenntnisse leider *sehr* mangelhaft sind: Könnte man in so eine Anwendung auch (zusätzlich) eine Funktion für 'verteilte Bearbeitung' einbauen? Gerade bei sehr großen Dokumenten (>700 Seiten) ist der Zeitaufwand für die komplette Bearbeitung durch einen Einzelnen leider doch sehr groß. Ich würde mir wünschen, daß z.B. das gescannte PDF-Dokument, aufgeteilt in einzelne Seiten, auf einem Internetserver liegt. Wer Zeit und Lust hat, könnte dann eine einzelne Seite bearbeiten und das Ergebnis auf den Server laden. Da dann mehrere interessierte Leute gleichzeitig an einem Dokument arbeiten könnten, wäre die Umwandlung möglicherweise schneller zu erledigen...
Martino is offline   Reply With Quote
Old 01-18-2010, 01:24 PM   #37
netseeker
sleepless reader
netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.
 
netseeker's Avatar
 
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
Quote:
Originally Posted by Martino View Post
Da Sie das Projekt in Java realisieren: Ist Ihnen VietOCR bekannt?

Ich habe VietOCR schon einmal in Verbindung mit dem Tesseract Modul 'deu-f' benutzt und gute bis sehr Ergebnisse erzielt. Das Programm kann übrigens auch PDF Dateien importieren.

Besonders gefallen hatte mir bei VietOCR die Funktion, zu erkennenden Text zu markieren. Das ist besonders hilfreich bei Dokumenten, wo Frakturtext Illustrationen umfliesst. Tesseract versucht sonst 'mit Gewalt' die Illustrationen als Buchstaben zu interpretieren...
Ja, VietOCR ist mir bekannt. Ich habe es auch schon benutzt (auch mit den deu-f Trainingsdaten) war aber nicht sonderlich zufrieden damit. Insbesondere das PDF-OCR bereitete bei mir immer mal wieder Probleme und die Möglichkeiten zur Fehlerkorrektur sind noch nicht allzu komfortabel. Trotzdem ist es derzeit noch die beste grafische Oberfläche für Tesseract.

Layout-Analyse zum automatischen Erkennen von Illustrationen und Absätzen habe ich vorgesehen. Dies wird allerdings erst in einer späteren Version kommen, wenn der Rest soweit gut funktioniert. Eine manuelle Auswahl wie in VietOCR will ich vorerst nicht umsetzen. Wenn sich natürlich noch ein paar weitere Leute dafür aussprechen, dann würde ich mir das nochmall überlegen...

Quote:
Originally Posted by Martino View Post
Könnte man in so eine Anwendung auch (zusätzlich) eine Funktion für 'verteilte Bearbeitung' einbauen? Gerade bei sehr großen Dokumenten (>700 Seiten) ist der Zeitaufwand für die komplette Bearbeitung durch einen Einzelnen leider doch sehr groß. Ich würde mir wünschen, daß z.B. das gescannte PDF-Dokument, aufgeteilt in einzelne Seiten, auf einem Internetserver liegt. Wer Zeit und Lust hat, könnte dann eine einzelne Seite bearbeiten und das Ergebnis auf den Server laden. Da dann mehrere interessierte Leute gleichzeitig an einem Dokument arbeiten könnten, wäre die Umwandlung möglicherweise schneller zu erledigen...
Das ist vorstellbar. Nicht in der ersten Version aber später. Allerdings muss so ein OCR-Projekt natürlich erstmal initial auf dem Server erzeugt werden, dazu muss das Programm die entsprechenden Möglichkeiten bieten. Dann sollte es zum einen im einfachsten Fall ohne spezielle Software auf dem Server funktionieren aber auch (Fall 2) mit einem Revisionmanagement kommunizieren können (CVS, SVN, GIT, ...) damit eine Versionsverfolgung möglich ist. Das muss ich mir erstmal noch in Ruhe durch den Kopf gehen lassen.
netseeker is offline   Reply With Quote
Old 01-19-2010, 06:51 AM   #38
Martino
Junior Member
Martino began at the beginning.
 
Posts: 3
Karma: 10
Join Date: Jan 2010
Device: Motorola A780
Smile

Quote:
Originally Posted by netseeker View Post
Das ist vorstellbar. Nicht in der ersten Version aber später. Allerdings muss so ein OCR-Projekt natürlich erstmal initial auf dem Server erzeugt werden, dazu muss das Programm die entsprechenden Möglichkeiten bieten. Dann sollte es zum einen im einfachsten Fall ohne spezielle Software auf dem Server funktionieren aber auch (Fall 2) mit einem Revisionmanagement kommunizieren können (CVS, SVN, GIT, ...) damit eine Versionsverfolgung möglich ist. Das muss ich mir erstmal noch in Ruhe durch den Kopf gehen lassen.
Natürlich bin ich nicht davon ausgegangen, daß Sie eine solch komplexe Funktion schnell noch 'zwischen Tür und Angel' in eine der ersten Versionen Ihres Programms einbauen...

Eine andere Frage wäre außerdem, ob überhaupt Bedarf an solch einer Funktion besteht, d.h. ob noch andere Leute außer mir an solch einem (freiwilligen) 'verteilten Arbeiten' an Dokumenten interessiert wären?

Ich persönlich habe leider meist zu wenig Zeit, ein komplettes Buch in ein EBook Format umzuwandeln. Ich würde aber gerne, soweit es meine Zeit zulässt, anderen Leuten bei einer solchen Arbeit helfen. Ich habe schon ein ganz schlechtes Gewissen, daß ich die von anderen Leuten freundlicherweise der Allgemeinheit zur Verfügung gestellten EBooks nur konsumiere, ohne etwas selbst beitragen zu können...
Martino is offline   Reply With Quote
Old 02-01-2010, 06:53 PM   #39
Staderho
Junior Member
Staderho began at the beginning.
 
Posts: 2
Karma: 10
Join Date: Jan 2010
Device: none
noch eine idee aus der praktischen arbeit

hallo netseeker,

ich hoffe es geht gut und es geht voran. ;-)

eben ist mir im praktischen umgang mit fraktur-OCR noch aufgefallen, daß ich häufig das schnappschuss-werkzeug im adobe reader verwende um nur einen ausschnitt zu kopieren und ggf. dann text-erkennen lasse. Nur muß man diesen Ausschnitt erst umständlich in ein bildbearbeitungsprogramm einfügen und abspeichern...sehr umständlich.

Vielleicht kann Textaurare es ja, daß man direkt aus der Zwischenablage etwas einfügen kann...

Das Beste, Stephan.
Staderho is offline   Reply With Quote
Old 10-09-2010, 04:48 AM   #40
rmx
Junior Member
rmx began at the beginning.
 
rmx's Avatar
 
Posts: 8
Karma: 10
Join Date: Oct 2009
Location: Hessen, Germany
Device: Pocketbook 360° (MM), iPhone (Stanza)
*schieb*

Was ist eigentlich aus Textaurare geworden? Hab über die Suchfunktion leider keine weiteren Infos gefunden...
rmx is offline   Reply With Quote
Reply

Tags
ocr, tesseract


Forum Jump

Similar Threads
Thread Thread Starter Forum Replies Last Post
Lesetipp für den Notfall - Handbuch Filesharing - Leitfaden für Eltern beachwanderer Lounge 2 02-24-2010 02:51 AM
Nook Kleiner Tip für alle, die einen M-Edge cove für den Nook möchten mos Andere Lesegeräte 0 01-30-2010 03:52 AM
Kleiner?! Nein, größer bitte! Marc_liest Andere Lesegeräte 5 05-02-2009 03:30 PM
Bitte um Kritik sp4rks E-Books 8 03-23-2009 04:48 AM
OCR-Software für altdeutsche Schrift mtravellerh Software 9 02-19-2009 02:29 PM


All times are GMT -4. The time now is 12:15 PM.


MobileRead.com is a privately owned, operated and funded community.