View Single Post
Old 10-10-2010, 05:06 AM   #32
consu
Junior Member
consu began at the beginning.
 
Posts: 1
Karma: 10
Join Date: Oct 2010
Device: pocketbook 360
Quote:
Originally Posted by Joghurt View Post
Kleines exemplarisches Linux-Skript, um die EN_DE-TXT-Datei von dict.cc in XDXF zu konvertieren, das converter.exe zu vertragen scheint:

...zumindest meldet er dann "Total words: 444277", und das File wird 9MB groß.

Obs klappt muss ich noch zu Hause probieren, hab das jetzt grade mal schnell "hingeschlampt"...
Danke klappt, bis auf 2 Kleinigkeiten

Key - Value ist vertauscht und grep '\t' klappt nicht, wenn ein Umlaut am
Anfang der Zeile steht.


Code:
print <<EOFSTR;
<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE xdxf SYSTEM "http://xdxf.sourceforge.net/xdxf_lousy.dtd">
<xdxf lang_from="ENG" lang_to="GER" format="visual">
<full_name>English-German dictionary (dict.cc)</full_name>
<description>Copyright: http://www.dict.cc/; Version: 1.0</description>
EOFSTR

while(<>){
  next if /^#/ ||! /\t/;
  chomp;
  ($value,$key) = split("\t");
  print "<ar><k>$key</k>$value</ar>\n";
}

print "</xdxf>\n";

Einfach in eine Datei speichern und dann mit

perl dateiname dict_cc_text_datei.txt > dict_cc.xdxf

aufrufen. Das geht dann auch unter windows mit
active state perl z.B.

Der Eintrag zw. <full_name></full_name>
Bestimmt, wie das Wörterbuch in der Wörterbuchauswahl angezeigt wird.
mit dem aktuellen Eintrag kann man es besser vom eingebauten Wörterbuch unterscheiden.

greets
consu

Edit:

Für ein Deutsch - Eng Wörterbuch, folgende Änderungen vorhehmen:

<xdxf lang_from="GER" lang_to="ENG" format="visual">
<full_name>German-English dictionary (dict.cc)</full_name>


($key,$value) = split("\t");

Last edited by consu; 10-10-2010 at 05:12 AM.
consu is offline   Reply With Quote