PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Eigene WWW Suchmaschine



SaPoX
11-05-2004, 15:06
Hallo,

ich bin gestern Abend auf die Idee gekommen, das Internet selbst nach Webseiten suchen zu lassen und wollt mal fragen, ob damit jemand schon Erfahrungen gesammelt hat!?!

Ich habe mir dafür mal "larbin (http://larbin.sourceforge.net/index-eng.html) " runtergeladen und installiert, läuft auch recht gut, nur habe ich noch ein paar Fragen dazu. (Habe es erstmal nach 9std. abgebrochen, weil ich mir dafür einen extra Rechner einrichten werde)

1. Wenn ich larbin starte, fängt er an das (komplette!!!) Web zu durchsuchen. Wie lange kann das dauern, mit einer normalen ADSL-Verbindung, bis er fertig ist? (Ich rechne mit knapp einer Woche)

2. Wenn larbin dann endlich mal fertig sein sollte, wie geht es dann weiter? Hab ich dann z.B. ein Webinterface, das ich aufrufen kann, um meine Suchanfragen loszuwerden? Oder was soll ich sonst mit den fifoxxxxxx Files machen?

3. Gibt es auch Seiten, die komplette Suchergebnisse zum Download anbieten, um selbst nicht das Internet durchsuchen zu müssen.

4. Was gibt es ausser larbin noch für Programme, die ich für mein Vorhaben benutzen kann? Welches ist gut, welches nicht?

5. Mit wieviel Festplattenspeicher müßte ich in etwa rechnen?

6. Legalität, sollte doch kein Problem sein, oder? Sonst würde Google z.B. sich ja auch strafbar machen.

7. Kennt jemand gute Seiten, die sich mit dem Thema beschäftigen?

gruß, SaPoX

Thomas Engelke
11-05-2004, 15:30
Original geschrieben von SaPoX
3. Gibt es auch Seiten, die komplette Suchergebnisse zum Download anbieten, um selbst nicht das Internet durchsuchen zu müssen.

Mit den richtigen Tools (http://www.perl.org) stehen dir die meisten Suchmaschinenergebnisse offen.

TME

Gaert
11-05-2004, 15:54
Original geschrieben von SaPoX

1. Wenn ich larbin starte, fängt er an das (komplette!!!) Web zu durchsuchen. Wie lange kann das dauern, mit einer normalen ADSL-Verbindung, bis er fertig ist? (Ich rechne mit knapp einer Woche)


Glaube ich kaum... die Zeit geht gegen unendlich, da die Anbindung viel zu langsam ist und das Web sich viel zu schnell verändert und vergrößert.


Original geschrieben von SaPoX

5. Mit wieviel Festplattenspeicher müßte ich in etwa rechnen?


Mit ein paar Terabyte solltest du hinkommen ;)

Mal ehrlich... stellst du dir das wirklich so einfach vor das komplette (drei ausrufezeichen :) ) Internet über eine ADSL Leitung mit nem normalen Rechner zu indizieren?

Was glaubst du was für ne Rechnerfarm hinter Google steht?

Hier gibts die Antwort: http://www.google.com/technology/

peschmae
11-05-2004, 17:15
im Jahr 2000 oder so war der Such-Index von Google im Bereich von 1 Terabyte - mittlerweile ist er sicher grösser.
Und das ist nur der SuchIndex - der ist dann wohl kleiner als das Volumen aller indizierten Webseiten.

MfG Peschmä

tuxipuxi
11-05-2004, 20:08
Hi,

1TB hört sich zu niedrig an, ich habe etwas von 100 Petabyte(!) gelesen.

edit:
noch ein paar informationen für den threaderöffner:
du wirst das ganze internet mit einer dsl leitung _nie_ durchforsten, nichtmal einen grossen teil davon. larbin ist ein crawler, der seiten crawlt aber nicht die indizierung für dich vornimmt. um seine ergebnisse auszuwerten, musst du noch eigenen code schreiben. all das ist auch auf der website erklärt und in der larbin dokumentation.
zum experimentieren ist es sicher nett, aber du wirst dir keine voll funktionsfähige suchmaschine mit deiner hard- und software bauen können.
ich habe mal larbin crawlen lassen und die seiten gespeichert.. die 20000 seiten hatten über 200 MB wenn ich mich richtig erinnere. google hat viele milliarden seiten, überleg dir wieviel speicher du brauchst.

Gruss,
Michael.

SaPoX
12-05-2004, 10:05
Hallo,
danke für eure Antworten! Nachdem ich eure Antworten gelesen hab und auch auf anderen Seiten recherchiert habe, muß ich leider einsehen, das das Vorhben für mich doch ein wenig zu überdimensional ist und ich es lieber sein lasse. Ist aber interessant gewesen sich ins Thema Suchmaschinen einzulesen und für LAN's könnte ich sowas mal im Hinterkopf behalten.

Gruß SaPoX

red.iceman
02-06-2004, 12:52
Gibt es sowas wie eine "verteilte suchmaschine"? D.h. jeder Rechner, auf dem der client läuft, durchforstet und indiziert das Internet. Die Daten werden dabei ebenfalls verteilt gespeichert, am besten mehrfach....
Das ganze unter gnu-Lizenz und ich fände es sinnvoller, als seinen Rechner nach Außerirdischen suchen zu lassen. Allerdings hat die Idee wahrscheinlich irgendwo einen Haken, den ich gerade nicht sehe. ;-)

ri

peschmae
02-06-2004, 14:38
Wenn wir schon beim Internet herunterladen sind - guckt euch mal die Seite da an: http://web.archive.org/collections/web.html

damit kriegt man so ziemlich alles (das Archiv wächst mit 20TB/Monat). Unter anderem gibts auch das da: http://web.archive.org/web/20020605184913/www.mrunix.de/forums/index.php?s=
Allerdings hat die Sache mit dynamisch generierten Seiten offenbar so ihre Probleme - ein Klick auf links in der Seite führt zur aktuellen Version.

MfG Peschmä

Sven_R
01-07-2004, 11:20
hallo

beim thema suchmaschienen kann ich dabei nur auf Swish-e (http://swishe.sourceforge.net/) verweisen.

die kann alles durchsuchen was es gibt.
egal ob pdf, zip, tar, gz, html, txt, mailboxen u.s.w, u.s.w.

man kann mit swish auch perlmodule laden um die funktionen zu erweitern.

ich nutzte mittlerweile schon seit 3 jahren, und bin sehr zufrieden.

es gibt auch einige gute weboberflächen.

man kann auch mehrere suchindexe von swish clienten zusammen führen.

solltest du dir mal ansehen

cu