LSSuper2004
20-08-2005, 16:59
So,
nachdem in einem Konkurrenzforum keiner darauf geantwortet hat, hab ich euer Forum entdeckt und poste mal hier.
Ziel ist es, aus einer Datei mehrzeilige texte herauszulösen. (Es handelt sich um HTML-Dateien, aber es ist ja auchegal.)
In einer Tabelle sind dort mehrere Zellen untereinander angeordnet und ich möchte die texte zwischen den Zeichen <td class="general"> und </td> rauslösen. Das sind oft Mehrzeiler. Außerdem in einer for-Schleife alles durchgehen und beim ersten Durchlauf nur das erste finden, beim zweiten das zweite und so fort. (Das könnte man notfalls so machen, dass man in einer temporären Datei nach jedem Fundstück den ersten Teil herausschneidet, damit dieser nicht mehr gefunden wird,.)
Also aus so nem Ausschnitt
<tr>
<td class="general">
Dies ist ein Text
</td>
</tr>
<tr>
<td class="general">
Windows ist net so gut
</td>
</tr>
<tr>
<td>
Das sollte nicht gefunden werden</td>
</tr><tr>
<td class="general">Linux
ist
S U P E R !!!</td></tr>
bei den drei Durchgängen die Zeilen
Dies ist ein Text
Windows ist net so gut
Linux
ist
S U P E R !!!
gefunden werden. (Die Zahl der Durchgänge sollte variabel sein, aber dasa its kein Problem.)
In einem zweiten Schritt könnte ich dann noch die Zeilenumbrüche filtern, weil ich für ein Skript in eine Datendatei EINE Zeile mit dem Code schreiben muss. (Da sich HTML aber nicht um newline-Zeichen kümmert, kann man diese getrost durch Leerezeichen ersetzn.)
Also kurzum: Texte zwischn <td class="general"> und </td> finden, alle einzeln + Zeilenumbrüche weg. (´Letzteres ist mit SED gut zu erledigen.)
- penma -
nachdem in einem Konkurrenzforum keiner darauf geantwortet hat, hab ich euer Forum entdeckt und poste mal hier.
Ziel ist es, aus einer Datei mehrzeilige texte herauszulösen. (Es handelt sich um HTML-Dateien, aber es ist ja auchegal.)
In einer Tabelle sind dort mehrere Zellen untereinander angeordnet und ich möchte die texte zwischen den Zeichen <td class="general"> und </td> rauslösen. Das sind oft Mehrzeiler. Außerdem in einer for-Schleife alles durchgehen und beim ersten Durchlauf nur das erste finden, beim zweiten das zweite und so fort. (Das könnte man notfalls so machen, dass man in einer temporären Datei nach jedem Fundstück den ersten Teil herausschneidet, damit dieser nicht mehr gefunden wird,.)
Also aus so nem Ausschnitt
<tr>
<td class="general">
Dies ist ein Text
</td>
</tr>
<tr>
<td class="general">
Windows ist net so gut
</td>
</tr>
<tr>
<td>
Das sollte nicht gefunden werden</td>
</tr><tr>
<td class="general">Linux
ist
S U P E R !!!</td></tr>
bei den drei Durchgängen die Zeilen
Dies ist ein Text
Windows ist net so gut
Linux
ist
S U P E R !!!
gefunden werden. (Die Zahl der Durchgänge sollte variabel sein, aber dasa its kein Problem.)
In einem zweiten Schritt könnte ich dann noch die Zeilenumbrüche filtern, weil ich für ein Skript in eine Datendatei EINE Zeile mit dem Code schreiben muss. (Da sich HTML aber nicht um newline-Zeichen kümmert, kann man diese getrost durch Leerezeichen ersetzn.)
Also kurzum: Texte zwischn <td class="general"> und </td> finden, alle einzeln + Zeilenumbrüche weg. (´Letzteres ist mit SED gut zu erledigen.)
- penma -