PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Bash: Text zwischen html-tags extrahieren



celindir
04-06-2009, 10:25
Hallo zusammen,

die Frage ist für Euch sicher einfach, aber ich komme auch nach googeln und rumprobieren nicht drauf.

Ich habe eine html-Datei in der sich ein Text aus mehreren Zeilen in einem pre-tag befindet.

Also:
<html>
...
<pre>Text den
ich haben
will</pre>
...
</html>

wie kann ich in einem Bash-script den Text extrahieren?


Kann mir da jemnd spontan helfen?

Danke

undefined
04-06-2009, 19:08
Also da würde ich eher einen »xsltproc« Aufruf mit einer Stylesheet Datei empfehlen.

celindir
05-06-2009, 11:40
hatte gehofft, eine etwas einfachere Methode mit sed oder awk zu finden.
Die hier genannte erschliesst sich leider noch nicht für mich.

Gibt es Alternativen?

Danke

jan61
08-06-2009, 19:26
Moin,

meinst Du sowas?


jan@jack:~/tmp> echo '<html>
...
<pre>Text den
ich haben
will</pre>
...
</html>
' | sed -rn '/<pre>/,/<\/pre>/{s/<\/?pre>//;p}'
Text den
ich haben
will
Jan