Anzeige:
Ergebnis 1 bis 7 von 7

Thema: HTML-auslesen

  1. #1
    emo
    Gast

    HTML-auslesen

    Hallo,

    ich habe nicht viel Erfahrung mit Programmieren, deshalb wäre ich sehr dankbar wenn mir jemand einen Tip geben könnte wie ich mit C++ aus dem Internet den HTML-Code auslese.

    Ich will bestimmte Informationen automatisch filtern.

    Also ich möchte nicht jetzt den Code vorgefertigt bekommen, lediglich einen Hinweis auf die Bibliotheken oder anderen Quellen die mir weiterhelfen könnten.

    Vielen Dank im voraus.

  2. #2
    Administrator Avatar von anda_skoa
    Registriert seit
    17.11.2001
    Ort
    Graz, Österreich
    Beiträge
    5.477
    Du im Grunde erstmal eine Bibliothek, die HTTP implementiert, z.B: libcurl (auf sourceforge.net oder freshmeat.net findet man da noch viele weitere)

    Je nachdem was du mit dem transportierten Inhalt machen willst, kann es sinnvoll sein, eine Bibliothek für einen HTML Parser zu verwenden.

    Unter gewissen Umständen könnte es notwendig sein, eine volle Webengine zu benutzen, z.B. WebKit

    Ciao,
    _
    Qt/KDE Entwickler
    Debian Benutzer

  3. #3
    emo
    Gast
    Danke anda,

    mit den Infos kann ich schon viel Anfangen.

    Um aber präziser zu werden möchte ich für den Anfang den Inhalt einer kompletten Internetadresse - also den HTML-Code - in eine Textdatei schreiben.
    Ich les mir aber erst einmal libcurl duch.

    Für alle nachfolgenden: hab hier mal eine erste gute anleitung gefunden.

    http://www.c-plusplus.de/forum/viewt...is-169861.html
    Geändert von emo (22-06-2008 um 22:12 Uhr)

  4. #4
    Registrierter Benutzer Avatar von Waxolunist
    Registriert seit
    19.06.2006
    Ort
    Wien
    Beiträge
    485
    Hallo

    Also ich habe hier gute Erfahrungen mit Tidy und anschliessend XSLT gemacht. Also erst validen Code mit Tidy erzeugen und anschliessnd XSLT drüber laufen lassen und schwupps hatte ich alle Ergebnisse die ich brauchte in INSERT-Statements für eine DB.

    Das ist im Grunde wohl die einfachste und flexiblste Art HTML-Code auszulesen.

    Lg, Christian
    Spezialitäten heute: PLSQL, TSQL, Java (alles mit Webanwendungen), Groovy, Grails, ASP.NET, Javascript, Python, Django
    Straight through, ohne Umwege ans Ziel

  5. #5
    Registrierter Benutzer Avatar von panzi
    Registriert seit
    05.05.2001
    Ort
    Kottingbrunn
    Beiträge
    609
    Ehrlich gesagt für sowas würde ich nie C++ verwenden. Ich hab mir schon viele Skripts geschrieben die gewissen Informationen aus Webseiten holen und habe dafür Python verwendet. Bei Python ist schon eine HTTP Implementierung, ein HTML nach DOM parser und eine DOM Implementierung die XPath kann per default dabei. Das ist dann extrem komfortabel und ich kann in der graphischen Python shell "idle" Schritt für Schritt die einzelnen Teile ausprobieren und live nachschaun, welcher xpath Ausdruck das beste Ergebnis liefert etc.
    Bei so einer Anwendung ist i.d.R. sowieso die Netzwerkverbindung das bottleneck und somit ists wurscht wenn man eine dynamische Skriptsprache wie Python verwendet.
    Intel Core 2 Duo CPU 2.66GHz; Nvidia GeForce 8 8800 GTS; 4GB RAM; Fedora 12; KDE-testing

  6. #6
    emo
    Gast
    Ich brauchs aber in C++!

  7. #7
    Registrierter Benutzer Avatar von Waxolunist
    Registriert seit
    19.06.2006
    Ort
    Wien
    Beiträge
    485
    Warum auch immer, es ist nicht die beste Moeglichkeit. Versuchs mit regulaeren Ausdruecken.

    Oder mit strcmp.

    Lg, Christian
    Spezialitäten heute: PLSQL, TSQL, Java (alles mit Webanwendungen), Groovy, Grails, ASP.NET, Javascript, Python, Django
    Straight through, ohne Umwege ans Ziel

Lesezeichen

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •