PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : wildgewordener Bot



BlueJay
25-04-2006, 10:51
Hallo Leute,

ein (Google-)Bot griff neulich so an die >50x auf ein und dasselbe Bild zu, und das nicht nur bei einem, sondern bei fast allen. Da ich eine Spieleseite betreibe, waren das nicht wenige, und die Seite zeitweise nicht erreichbar.

Als Notbremse habe ich den Bot gesperrt. Dazu gab es heute Lack vom Webmaster.

Frage:
Wie kann ich ohne mod_rewrite alle GIFs der Seite für Bots sperren? Unterseite und weiterführende Links müssen verfolgt werden können, also das meta-Tag nofollow verbietet sich.

Das Separieren der Bilder von den Spielen ist ebenfalls nicht sinnvoll, da die Verzeichnisse bei Bedarf als funktionsfähige Einheit gepackt und versendet werden.

Am liebsten wäre mir eine Lösung via robots.txt, sowas wie
Disallow: /*.gif
das ist aber wohl kein Standard.

so long,
Blue Jay

Pingu
25-04-2006, 11:25
Also ich habe so etwas auf der Firmen-Site für die, die ständig die gesamte Website mit Offline-Readern laden:
#RewriteCond %{HTTP_USER_AGENT} Safari [OR]
RewriteCond %{HTTP_USER_AGENT} MSIECrawler [OR]
RewriteCond %{HTTP_USER_AGENT} Mozilla/5.0.*MSIE.5.0 [OR]
RewriteCond %{HTTP_USER_AGENT} HTTPClient [OR]
RewriteCond %{HTTP_USER_AGENT} HTTrack [OR]
RewriteCond %{HTTP_USER_AGENT} Xaldon [OR]
RewriteCond %{HTTP_USER_AGENT} Wget [OR]
RewriteCond %{HTTP_USER_AGENT} WebZIP [OR]
RewriteCond %{HTTP_USER_AGENT} Teleport [OR]
RewriteCond %{HTTP_USER_AGENT} BorderManager [OR]
RewriteCond %{REMOTE_ADDR} ^66\.194\.55\.242$ [OR]
RewriteCond %{REMOTE_HOST} ^siegfried\.marta\.anton\.de
#RewriteCond %{HTTP_USER_AGENT} DigExt
RewriteRule !test.php$ - [C]
RewriteRule !robots.txt - [F]


Die RewriteCond definiert, für wenn die folgende Regel gelten soll. Hier kann man alles nehmen was man möchte, den UserAgent, die IP-Adresse, den Host-Namen; halt alles was der Client so liefert.
Die RewriteRule definiert was gemacht werden soll. In meinem obigen Fall ist dies: alles was nicht test.php oder robots.txt ist soll in einem Fehler enden (404).
Wenn Du nur GIF-Dateien sperren möchtest, könntest Du so etwas schreiben:
RewriteRule gif$ - [F]
Das [C] brauche ich nur, weil ich 2 Regeln über oder verknüpfen möchte. Das [F] ist der "Befehl", der die Fehlerseite generiert. Man kann auch einen eigenen Fehlercode noch angeben, wenn man etwas anderes als 404 haben möchte.

Der Rest steht dann in der Dokumentation unter http://httpd.apache.org

Pingu

BlueJay
25-04-2006, 11:33
Habe eine vorläufige Lösung:



User-agent: Googlebot
Disallow: /*.gif$


der kann's wohl.

Um den Rest muss wohl sich der Webmaster zusammen mit Google kümmern (>50-facher Zugriff auf ein Dokument)

so long,
BlueJay

BlueJay
25-04-2006, 11:37
Danke, Pingu, das erledigt gleich mein 2. Problem, was aber weniger gravierend ist. Diesen Traffic steckt der Server normalerweise einfach weg.

Aber die hier (und einige andere) sind eigentlich erwünscht: :)

RewriteCond %{HTTP_USER_AGENT} Mozilla/5.0.*MSIE.5.0 [OR]

Jetzt muss nur noch der Webmaster...

Pingu
25-04-2006, 12:00
Danke, Pingu, das erledigt gleich mein 2. Problem, was aber weniger gravierend ist. Diesen Traffic steckt der Server normalerweise einfach weg.Aber bei uns gilt: Traffic = Kosten
Ich verstehe auch wenn Leute mal einen Offline-Reader verwenden. Aber wenn dieser alle 1h bis 2h von der selben IP bzw. dem selben Netz die komplette Website lädt, dann ist dies nicht OK.

Aber die hier (und einige andere) sind eigentlich erwünscht: :)
RewriteCond %{HTTP_USER_AGENT} Mozilla/5.0.*MSIE.5.0
Dieser ist nicht OK ;-). Denn der richtige IE5 meldet sich nicht mit Mozilla/5.0. Es kommt immer auf die richtige Kombination an.

Pingu

EDIT: Bei mir machen sich alle IP-Adressen und Hosts verdächtig, die mehr als 5% der Zugriffe oder mehr als 5% der übertragenen Daten für sich verbuchen. Außnahmen mache ich für bestimmte Bots und für eindeutig erkennbare Proxys, die zu großen Firmen gehören. Da wir kein "Stammpublikum" haben, sondern "Laufkundschaft" muß jemand bei 5% der Zugriff schon wirklich sehr interessiert sein. Selbst mit einem mehrmaligen Download (vielleicht 3 bis 5 mal im Monat) der gesamten Website kommt man nicht auf die von mir angesetzten 5%.