PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Python HTML tags



rthill
22-11-2006, 10:17
Wer kann mir zeigen wie ich in Python allmögliche HTML Tags aus einem Source code entfernen kann und zusätzlich noch alle Umlaute wieder umwandle in Zeichen?

Danke im Voraus.

tinti

Romanday
23-11-2006, 23:46
Wer kann mir zeigen wie ich in Python allmögliche HTML Tags aus einem Source code entfernen kann und zusätzlich noch alle Umlaute wieder umwandle in Zeichen?

Danke im Voraus.

tinti

Wenn es keine vorgefertigte Klasse gibt (weiß ich jetzt nicht aus dem
Kopf) mußt Du die Umlaute einzeln umwandeln (suchen + ersetzen).
HTML Tags entfernen -> Regex, fast kompatibel zu PHP oder Perl.
Schau dir an, wie das machen und übertrage das Gelernte nach Python.

Nachtrag:
JS hat auch eine POSIX Maschine.
Spontan wurde ich sagen: ^<[^>]+>^
Löscht aber auch PHP, ASP + JS Tags.

ThorstenS
27-11-2006, 20:53
Das linuxtool html2text macht exakt dies - falls du auf externe Programme zurückgreifen magst...