Quote:
Originally Posted by Joghurt
Kleines exemplarisches Linux-Skript, um die EN_DE-TXT-Datei von dict.cc in XDXF zu konvertieren, das converter.exe zu vertragen scheint:
...zumindest meldet er dann "Total words: 444277", und das File wird 9MB groß.
Obs klappt muss ich noch zu Hause probieren, hab das jetzt grade mal schnell "hingeschlampt"...
|
Danke klappt, bis auf 2 Kleinigkeiten
Key - Value ist vertauscht und grep '\t' klappt nicht, wenn ein Umlaut am
Anfang der Zeile steht.
Code:
print <<EOFSTR;
<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE xdxf SYSTEM "http://xdxf.sourceforge.net/xdxf_lousy.dtd">
<xdxf lang_from="ENG" lang_to="GER" format="visual">
<full_name>English-German dictionary (dict.cc)</full_name>
<description>Copyright: http://www.dict.cc/; Version: 1.0</description>
EOFSTR
while(<>){
next if /^#/ ||! /\t/;
chomp;
($value,$key) = split("\t");
print "<ar><k>$key</k>$value</ar>\n";
}
print "</xdxf>\n";
Einfach in eine Datei speichern und dann mit
perl dateiname dict_cc_text_datei.txt > dict_cc.xdxf
aufrufen. Das geht dann auch unter windows mit
active state perl z.B.
Der Eintrag zw. <full_name></full_name>
Bestimmt, wie das Wörterbuch in der Wörterbuchauswahl angezeigt wird.
mit dem aktuellen Eintrag kann man es besser vom eingebauten Wörterbuch unterscheiden.
greets
consu
Edit:
Für ein Deutsch - Eng Wörterbuch, folgende Änderungen vorhehmen:
<xdxf lang_from="GER" lang_to="ENG" format="visual">
<full_name>German-English dictionary (dict.cc)</full_name>
($key,$value) = split("\t");