Anzeige:
Ergebnis 1 bis 5 von 5

Thema: wildgewordener Bot

  1. #1
    Registrierter Benutzer Avatar von BlueJay
    Registriert seit
    27.08.2004
    Beiträge
    825

    wildgewordener Bot

    Hallo Leute,

    ein (Google-)Bot griff neulich so an die >50x auf ein und dasselbe Bild zu, und das nicht nur bei einem, sondern bei fast allen. Da ich eine Spieleseite betreibe, waren das nicht wenige, und die Seite zeitweise nicht erreichbar.

    Als Notbremse habe ich den Bot gesperrt. Dazu gab es heute Lack vom Webmaster.

    Frage:
    Wie kann ich ohne mod_rewrite alle GIFs der Seite für Bots sperren? Unterseite und weiterführende Links müssen verfolgt werden können, also das meta-Tag nofollow verbietet sich.

    Das Separieren der Bilder von den Spielen ist ebenfalls nicht sinnvoll, da die Verzeichnisse bei Bedarf als funktionsfähige Einheit gepackt und versendet werden.

    Am liebsten wäre mir eine Lösung via robots.txt, sowas wie
    Disallow: /*.gif
    das ist aber wohl kein Standard.

    so long,
    Blue Jay
    Eigentlich ganz einfach, wenn man's weiss!

  2. #2
    Registrierter Benutzer
    Registriert seit
    22.08.2002
    Ort
    Nürnberg
    Beiträge
    638
    Also ich habe so etwas auf der Firmen-Site für die, die ständig die gesamte Website mit Offline-Readern laden:
    Code:
    #RewriteCond    %{HTTP_USER_AGENT}      Safari                  [OR]
    RewriteCond     %{HTTP_USER_AGENT}      MSIECrawler             [OR]
    RewriteCond     %{HTTP_USER_AGENT}      Mozilla/5.0.*MSIE.5.0   [OR]
    RewriteCond     %{HTTP_USER_AGENT}      HTTPClient              [OR]
    RewriteCond     %{HTTP_USER_AGENT}      HTTrack                 [OR]
    RewriteCond     %{HTTP_USER_AGENT}      Xaldon                  [OR]
    RewriteCond     %{HTTP_USER_AGENT}      Wget                    [OR]
    RewriteCond     %{HTTP_USER_AGENT}      WebZIP                  [OR]
    RewriteCond     %{HTTP_USER_AGENT}      Teleport                [OR]
    RewriteCond     %{HTTP_USER_AGENT}      BorderManager           [OR]
    RewriteCond     %{REMOTE_ADDR}          ^66\.194\.55\.242$      [OR]
    RewriteCond     %{REMOTE_HOST}          ^siegfried\.marta\.anton\.de
    #RewriteCond    %{HTTP_USER_AGENT}      DigExt
    RewriteRule     !test.php$              -                       [C]
    RewriteRule     !robots.txt             -                       [F]
    Die RewriteCond definiert, für wenn die folgende Regel gelten soll. Hier kann man alles nehmen was man möchte, den UserAgent, die IP-Adresse, den Host-Namen; halt alles was der Client so liefert.
    Die RewriteRule definiert was gemacht werden soll. In meinem obigen Fall ist dies: alles was nicht test.php oder robots.txt ist soll in einem Fehler enden (404).
    Wenn Du nur GIF-Dateien sperren möchtest, könntest Du so etwas schreiben:
    RewriteRule gif$ - [F]
    Das [C] brauche ich nur, weil ich 2 Regeln über oder verknüpfen möchte. Das [F] ist der "Befehl", der die Fehlerseite generiert. Man kann auch einen eigenen Fehlercode noch angeben, wenn man etwas anderes als 404 haben möchte.

    Der Rest steht dann in der Dokumentation unter http://httpd.apache.org

    Pingu
    Geändert von Pingu (25-04-2006 um 11:27 Uhr)
    Homepage: www.pingu.info

  3. #3
    Registrierter Benutzer Avatar von BlueJay
    Registriert seit
    27.08.2004
    Beiträge
    825
    Habe eine vorläufige Lösung:

    Code:
    User-agent: Googlebot
    Disallow: /*.gif$
    der kann's wohl.

    Um den Rest muss wohl sich der Webmaster zusammen mit Google kümmern (>50-facher Zugriff auf ein Dokument)

    so long,
    BlueJay
    Eigentlich ganz einfach, wenn man's weiss!

  4. #4
    Registrierter Benutzer Avatar von BlueJay
    Registriert seit
    27.08.2004
    Beiträge
    825
    Danke, Pingu, das erledigt gleich mein 2. Problem, was aber weniger gravierend ist. Diesen Traffic steckt der Server normalerweise einfach weg.

    Aber die hier (und einige andere) sind eigentlich erwünscht:

    RewriteCond %{HTTP_USER_AGENT} Mozilla/5.0.*MSIE.5.0 [OR]

    Jetzt muss nur noch der Webmaster...
    Geändert von BlueJay (25-04-2006 um 11:45 Uhr)
    Eigentlich ganz einfach, wenn man's weiss!

  5. #5
    Registrierter Benutzer
    Registriert seit
    22.08.2002
    Ort
    Nürnberg
    Beiträge
    638
    Zitat Zitat von BlueJay
    Danke, Pingu, das erledigt gleich mein 2. Problem, was aber weniger gravierend ist. Diesen Traffic steckt der Server normalerweise einfach weg.
    Aber bei uns gilt: Traffic = Kosten
    Ich verstehe auch wenn Leute mal einen Offline-Reader verwenden. Aber wenn dieser alle 1h bis 2h von der selben IP bzw. dem selben Netz die komplette Website lädt, dann ist dies nicht OK.
    Zitat Zitat von BlueJay
    Aber die hier (und einige andere) sind eigentlich erwünscht:
    RewriteCond %{HTTP_USER_AGENT} Mozilla/5.0.*MSIE.5.0
    Dieser ist nicht OK ;-). Denn der richtige IE5 meldet sich nicht mit Mozilla/5.0. Es kommt immer auf die richtige Kombination an.

    Pingu

    EDIT: Bei mir machen sich alle IP-Adressen und Hosts verdächtig, die mehr als 5% der Zugriffe oder mehr als 5% der übertragenen Daten für sich verbuchen. Außnahmen mache ich für bestimmte Bots und für eindeutig erkennbare Proxys, die zu großen Firmen gehören. Da wir kein "Stammpublikum" haben, sondern "Laufkundschaft" muß jemand bei 5% der Zugriff schon wirklich sehr interessiert sein. Selbst mit einem mehrmaligen Download (vielleicht 3 bis 5 mal im Monat) der gesamten Website kommt man nicht auf die von mir angesetzten 5%.
    Geändert von Pingu (25-04-2006 um 12:14 Uhr)
    Homepage: www.pingu.info

Lesezeichen

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •