toscho.design

Piwik: Verirrte Requests abfangen

Aus der tragischen Lage, vor lauter Arbeit nicht mehr bloggen zu können, vermögen mich offenbar nur noch kaputte Crawler herauszureißen. So beobachte ich immer mal wieder Requests auf Artikel mit dem Anhängsel /piwik.php:

GET http://toscho.de/kontakt/piwik.php

Der User-Agent dazu ist entweder der Crawler von archive.org …

ia_archiver (+http://www.alexa.com/site/help/webmasters; crawler@alexa.com)

… oder jemand, der das zumindest behauptet:

Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; .NET CLR 1.1.4322; +http://www.archive.org)

Im zweiten Fall gehört die IP-Adresse jedoch einer ›HCL Technologies (MASS) Inc.‹, bei der ich zunächst keine Nähe zu archive.org erkennen kann. Der Crawler interpretiert auch gerne mal einen kompletten Absatz als URL … das werde ich mit strengem Blick verfolgen.

Egal. Ich sende beide per Bannstrahl alias mod_rewrite auf die richtige Adresse meiner Piwik-Installation:

# Stupid piwik.php requests
RewriteEngine On
RewriteBase /
RewriteCond %{HTTP_HOST} !^p\.toscho\.de$
RewriteRule piwik\.php$ http://p.toscho.de/piwik.php [L,R=301]

Wer diese Requests nicht mitloggen möchte, kann die letzte Zeile auch ersetzen durch:

RewriteRule piwik\.php$ - [G]

Bonustip

Piwik zeigt ab Werk die Ergebnisse des letzten Tages an. Das kann man in der config.ini anpassen. Da steht bei mir unter anderem:

[General]
default_day             = "today"
datatable_default_limit = 20

11 Kommentare

  1. Panthera IT am 19.03.2010 · 17:54

    Diese Anfragen würde ich nicht mitloggen, da für mich sieht es eindeutig nach einer Crawler von irgendeinem Spammer. Was für mich dafür spricht, fragt Ihr. Erstens, jeder vernünftige Crawler gibt auch wirklich preis, was es eigentlich sei. Zweitens http ://www .hcltech. com/ ist ein Unternehmen aus Indien, das ist für mich schon ein Warnzeichen. Drittens interessanterweise, Zugriff auf kontakt/piwik.php, das heißt für mich jemand sucht in großem Style nach Spammöglichkeiten.

  2. Thomas Scholz am 19.03.2010 · 18:23

    @Panthera IT: Spam hat damit nichts zu tun; der Crawler sendet ja keine Formulare ab, und er läuft auch nicht in meine E-Mail-Falle. Wo die Firma ihren Sitz hat, finde ich auch nicht so relevant. Die IP-Adresse jedenfalls stammt aus den USA.

    Die URL, die ich oben genannt habe, war nur ein Beispiel, das ich ob der Kürze ausgewählt hatte … der Crawler greift so auch auf viele Artikel zu.

    Ich habe vielleicht in einigen Artikeln den Eindruck erweckt, ich würde gerne und schnell Software oder IPs aussperren. Das stimmt nicht. Ich blockiere Angreifer; seltsame Requests hingegen beobachte ich mit einiger Geduld, solange sie nicht zu viel Last kosten.
    Das ist auch der Grund für das Loggen: Ich will auf dem Laufenden bleiben.

  3. André am 19.03.2010 · 23:53

    Piwik zeigt ab Werk die Ergebnisse des letzten Tages an. Das kann man in der config.ini anpassen.

    Bei mir steht dieser Teil in der config/global.ini.php

  4. Thomas Scholz am 20.03.2010 · 06:59

    @André: Die global.ini wird beim Update überschrieben; für eigene Anpassungen ist die config.ini gedacht. Daher der Name. ☺

  5. Panthera IT am 20.03.2010 · 12:47

    Naja, dann lag ich eben falsch. Dieser Eindruck ist bei mir entstanden, da ich Kontakt gesehen habe. Es ist einfach so, das sehr viele Crawler im Internet unterwegs sind, die Formulare suchen, um diese auszufüllen oder die Websites nach Emailadresse durchzusuchen. Und eben die Seit en wie Kontakt oder Impressum erhalten die gewünschte Inhalten. Ich habe selbst einen bekanten Programmierer aus Ukraine, der meist sein Geld damit verdient, solche Programmen zu schreiben und die Daten dann zu verkaufen oder im Auftrag nach etwas Bestimmtes zu suchen.

    Wenn ein Unternehmen aus Indien kommt, heißt es nicht automatisch, dass es um Spam geht. Aber Hand aufs Herz, wo kommt der meiste Spam oder sonstige Illegale Aktivitäten her? Es sind Länder wie China, Russland(eigentlich allgemein frühere Sowjet Union) oder auch Indien. Deshalb läuten bei mir in solchen Fällen automatisch Allarmglocken. Übrigens dieses Unternehmen ist in 27 Länder vertreten und die Server in USA werden bei Spammer auch öfters benutzt, da Bandbreite/Preis öfters preiswerter als in anderen Länder ist.

  6. GwenDragon am 20.03.2010 · 19:56

    Es gibt Crawler, die interessiert der HTTP-Error 410 Gone nicht.

    Deswegen ist der Tipp

    RewriteRule piwik\.php$ - [G]

    nicht immer so praktikabel.

  7. David K. am 26.03.2010 · 23:56

    Ich hatte es schon einmal mit kaputten Crawlern zu tun, habe es aber einem Bekannten überlassen, das in Ordnung zu bringen. Ich werde aber diese Seite zu meinen Lesezeichen packen, dann kann ich das das nächste Mal vielleicht auch selber beheben, daher vielen Dank für den interessanten Artikel.

  8. David am 28.03.2010 · 17:37

    Mit der config.ini meinst Du bestimmt die global.ini …

  9. Thomas Scholz am 28.03.2010 · 17:44

    @David: Wie oben beschrieben: Das wäre genau der falsche Ort.
    Nochmal ganz deutlich: Die global.ini wird beim Update überschrieben. Darin darf man keinesfalls eigene Änderungen unterbringen.

  10. David am 29.03.2010 · 13:57

    Ach so. Und ich such mich in der config.ini nach dem Eintrag kaputt. Ich hätte die Global.ini dann einfach wie auch die config.ini bei einem Update mit gesichert. Gut zu wissen.

  11. Willi am 18.06.2010 · 21:56

    Ich dachte, mit Piwik könnte man nur grundlegende Daten messen. Aber das Tool scheint ja umfassend anpassbar zu sein?