PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Hunspell: persönliches Wörterbuch in UTF-8



Phylax
05-01-2010, 15:09
Servus allerseits,

Mein Problem ist nicht ganz LaTeX-spezifisch, scheint mir hier aber doch relevant und gut aufgehoben zu sein: Meine derzeitige Herausforderung besteht darin, emacs zur Zusammenarbeit mit hunspell zu bewegen.

folgendes steht in meiner ~/.emacs


(setq-default ispell-program-name "hunspell")
(setq ispell-extra-args '("-t" "-i" "utf-8" "-d" "de_DE" "-p" "/media/ARBEITSSD/Latex/hundico_de"))


Der an hunspell weitergereichte Kommandozeilenparameter "-i" "utf-8" scheint aber keine Wirkung zu zeitigen: Das Wort "Schließen" wird nur bis vor das "ß" als vermeintlicher Fehler erkannt und ich bekomme Vorschläge wie diesen: "SchlieÄ\237lich".

Ein ähnliches Problem habe ich, wenn ich hunspell direkt in der Konsole anwende:


hunspell -d de_DE -i utf-8 -p '/pfad/zum/persönlichen/wörterbuch' '/pfad/zur/datei.tex'


Sind wörterbuch und datei.tex utf-8-kodiert geschieht folgendes:

- Umlaute etc. werden anstandslos erkannt und es kommen sinnvolle Vorschläge, auch aus dem persönlichen Wörterbuch.

- Wird ein Wort mit Nicht-ASCII-Zeichen nicht erkannt (z.B. "Totalität") und zum Wörterbuch hinzugefügt, so schreibt hunspell in dieses ein scheinbar korrekt utf-8- kodiertes Wort (z.B. "Totalität")

- Setzt man nun den Befehl erneut ab, sind die hinzugefügten Wörter (sofern sie nicht-ASCII-Zeichen enthalten) wieder unbekannt, jedoch kommt der Vorschlag, sie durch falsche Kodierungen zu ersetzen (z.B. "Diärese" durch "DiÀrese")

Scheinbar wirkt sich der Parameter "-i utf-8" nur darauf aus, wie die Eingabedatei gelesen wird...und nicht auf die Wörterbuchdatei (die offensichtlich korrekt in UTF-8 geschrieben wird, das wenigstens sagt mir gedit).

Ich habe auch schon versucht, das Wörterbuch in ISO-8859-15 zu kodieren. In diesem Fall schreibt hunspell gleich die falsche Form ("DiÀrese") in die Wörterbuch datei und interpretiert sie dann auch in dieser falschen Form, d.h. es wird wieder "DiÀrese" als Verbesserung für "Diärese" vorgeschlagen.

Weiß hier irgendjemand Rat?

Vielen Dank im Voraus