Spamboty w statystykach odwiedzin (semalt itp.)

spam

Niedawno powstała nowa dziedzina marketingu (tego ciemniejszego marketingu). Jest to pingowanie stron internetowych przez spamboty. Liczą one na to, że webmaster coś u nich zamówi, zostawiając ślad w statystykach odwiedzin. Najpopularniejsze spamboty ma moich kilkunastu witrynach to:

semalt.com
buttons-for-website.com
forum.darodar.com
offers.bycontext.com
iloveitaly.co
social-buttons.com
success-seo.com
100dollars-seo.com
floating-share-buttons.com

Potrafią one całkowicie zniekształcić analizy statystyczne naszej trony internetowej, np. wyniki z Google Analytics. Pół biedy, gdy serwis posiada potężny ruch, gdyż te spamboty „przypominają o sobie” zwyczajowo raz na 1-3 dni. Problem zaczyna się przy nowych, niewielkich serwisach internetowych z małym ruchem- wtedy spamboty potrafią całkowicie zafałszować większość możliwych wskaźników statystycznych. Ruch z tych spambotów cechuje się  zerowym czasem trwania sesji oraz współczynnikiem sesje/odsłony równym dokładnie 1 (ani mniej ani więcej). Przykład poniżej- pozycje 1-2 to spamboty, pozycje 3-5 to normalny ruch na stronie. Na czerwono zaznaczyłem realne wskaźniki (z wyłączeniem ruchu z tych spambotów). Jak widać- zmiana jest diametralna (np. realny współczynnik odrzuceń to około 30%, podczas gdy GA twierdzi że 86%). Udowadnia to, że bez filtracji spambotów takie statystyki nie są warte funta kłaków. Podobnie jest choćby z danymi geograficznymi, gdyż te spamboty atakują z różnych Brazylii, Indii i innych Pakistanów.

spambotWymienione wyżej przykłady (z semalt.com na czele) to tylko przykłady bieżące, bo jestem pewny, że proceder będzie się rozwijał w zastraszającym tempie (gdyż jest on niemal darmowy, a ciężko znaleźć w tym jakieś oznaki nielegalności, przecież oni tylko wchodzą na naszą stronę…). Przechodząc do sedna: jak sobie z tym radzić? Są (co najmniej) dwa sposoby- użycie pliku .htaccess lub filtrowanie w Google Analytics:

1. Wprowadzenie reguły do pliku .htaccess:

Do pliku .htaccess wprowadzamy następujące wpisy:

RewriteEngine on
RewriteCond %{HTTP_REFERER} nazwa-strony\.com [NC]
(i dla każdego spambota z osobna stosujemy powyższą regułę, pamiętając o tym, żeby przed ostatnią kropką w adresie wstawić znak \ )

RewriteRule .* - [F]


lub ewentualnie :

SetEnvIfNoCase Referer nazwastrony.com spambot=yes
(i dla każdego spambota z osobna stosujemy powyższą regułę)

Order allow,deny
Allow from all
Deny from env=spambot

2. Użycie filtrów w Google Analytics:

a) Blokada botów i pajączków (crawlerów)

Logujemy się do Google Analytics, wybieramy daną witrynę i klikamy „Administracja” (u góry),  następnie „Ustawienia Widoku”, po czym zaznaczamy opcję „Wykluczenie wszystkich działań znanych robotów” (patrz obrazek). Jeżeli ta metoda nie zadziałała, to przechodzimy do kolejnego punktu.

spambot2


b1) Filtrowanie podanych adresów URL w Google Analytics

 Drugi sposób to przefiltrowanie (odrzucenie) podanych adresów URL z wyników statystyk. Spamboty nadal będą wchodziły na naszą stronę, ale nie będą zostawiały żadnego śladu w statystykach GA.
Podobnie jak w poprzednim podpunkcie- logujemy się do Google Analytics, wybieramy „Administracja” (u góry), później „Wszystkie Filtry” (po lewej) i następnie „Nowy Filtr”. Pojawi nam się taki formularz (kliknij w obrazek, aby powiększyć):

filtrWypełniamy kolejno: Nazwa Filtru (wpisujemy nazwę blokowanego spambota, np. Semalt) i wybieramy Filtr predefiniowany, Wyklucz, Ruch z domeny ISP, równe (lub zawiera). Później w okienku „Domena ISP” wpisujemy adres spambota (np. semalt.com). Na koniec stosujemy filtr do wybranych (najlepiej wszystkich dostępnych) stron- tak, żeby adres był w okienku po prawej. Zapisujemy i czynność powtarzamy dla każdego spambota z osobna.
Przy okazji (tak poza tematem), jak już tu jesteśmy- możemy wykluczyć ruch z własnego adresu IP (aby nie fałszować statystyk przez samego siebie- zwłaszcza, jak ktoś rzeźbi swoją stronę całymi godzinami). W tym celu tworzymy nowy filtr predefiniowany, klikamy wyklucz ruch z adresów IP równy, a w okienku wpisujemy własny adres IP (jak ktoś go nie zna, to można go sprawdzić np. na stronie ripe.net).


b2) Lista wykluczeń adresów URL w Google Analytics

Podobny sposób do poprzedniego (dlatego podpunkt punkt b2, a nie c). Usuwa on (przestaje uwzględniać, ignoruje) wyniki statystyczne z wszystkich wpisanych adresów. Po zalogowaniu się do GA klikamy „Administracja”, następnie ze środkowej kolumny „Informacje o śledzeniu” i na koniec „Lista wykluczeń stron odsyłających”. W panelu wybieramy „Dodaj wykluczenie strony odsyłającej”, gdzie wpisujemy adres spambota (np. semalt.com). Czynność powtarzamy dla wszystkich spambotów, które nas atakują.

filtr2


PS: To chyba oczywiste, ale dla pewności dodam, że sposób pierwszy (.htaccess) blokuje te spamboty „odgórnie”, więc efekt będzie widoczny na wszystkich rodzajach statystyk (jeżeli ktoś używa jakiś innych, niż GA). Sposób drugi działa jedynie w Google Analytics. Jest też inny sposób- użycie blokady przez php, ale nie testowałem go.

Paweł Król, 24.03.2015

2 przemyślenia nt. „Spamboty w statystykach odwiedzin (semalt itp.)”

  1. A może by im tak „odbić piłeczkę”? jakieś zwrotne 301 albo coś ten deseń 😉

    od Paweł: Nic się nie da zrobić niestety, jedynie blokować. One atakują stronę główną, więc mam zrobić z niej 301? To byłby prezent…

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *