Aktivita robotů za rok 2014

Na blogu společnosti Incapsula vyšla infografika o aktivitě robotů za rok 2014. Roboti na internetu jsou skripty, které mají vykonávat nějakou činnost. Například Googlebot, prochází internet a stahuje z něj data pro vyhledávač Google.

Společnost Incapsula chrání více jak 20 tisíc webů a data o robotech byla shromážděna z každého webu, který měl návštěvnost větší jak 10 lidí během devadesáti dnů. Celkem bylo analyzováno 90 miliard návštěv z těchto webů, tedy jak lidí tak i robotů.

U průměrného webu dělá podíl návštěvnosti robotů mezi 63% až 80%. Nejvíce podílu mají opravdu u těch malých webů s návštěvností 10 – 1000 lidí za den, kde jejich podíl přesáhl 80%. Weby, které nikdo živý nenavštěvuje, tak mohou být pořád aktivní. Naopak u velkých a známých webů, s návštěvností přes 100 tisíc lidí za den, se dostal poměr lidských a robotích návštěv skoro na jedna ku jedné, respektive 52,3% robotů.

Pokud používáte na měření návštěvnosti skripty na bázi javascriptu (Google analytics) anebo obrázků (Toplis), tak převážnou část jejich aktivity nevidíte, protože si stahují ze serveru jenom to co potřebují, tedy nikoliv javascript anebo obrázky. Pro jejich detailní pozorování je nutné mít měření přímo jako součást stránky, která se generuje skriptem (PHP) anebo přímo zaznamenávat dotazy na server (access log). Právě accesslog je ideální. Na jeho analýzu lze použít například AwStats.

Na celkové návštěvnosti všech měřených webů měli roboti podíl 56%, přitom 29% byli roboti škodliví (spameři, hledající slabiny, kopírují web apod) a 27% ti dobří (vyhledávače). Na internetu je jedno jak velká anebo důležitá je vaše stránka, minimálně jedna třetina vaší návštěvnosti budou vždy roboti. Aktivita přitom roste s tím jak se web dostává do popředí na různých seznamech (Alexa).

Protože roboti nejen škodí ale také vytěžují servery snaží se je administrátoři anebo přímo poskytovatelé hostingu zastavit. Roboti se tak často maskují. Nejčastěji za roboty vyhledávačů (crawlery) anebo návštěvníky. Často využívají proxy servery. V roce 2012 bylo maskujících se robotů 19%, o rok později 20,5% a minulý rok 22%. Trend maskování se je tedy rostoucí.

Roboti, kteří stahují data prostřednictvím RSS, většinou aby vytvářeli kopie anebo rozřezali články a následně poslepovaly, aby vypadaly jak originální jsou na ústupu. V roce 2013 jich bylo 22% minulý rok 27%. Zároveň je ale také využívají služby, které poskytují svým uživatelům RSS čtečky. Čistě u z těch dobrých robotů byl zaznamenán pokles o 10%.

Neustále roste nebezpečí pro redakční systémy. Speciálně na ně se objevují roboti, kteří hledají slabiny v podobě neaktualizovaných rozšíření a známých bezpečnostních chyb. Obecně se při objevení nové bezpečnostní díry zkracuje doba pro aktualizaci ze dnů na hodiny. Naštěstí jsou redakční systémy poměrně dobře chráněny a případné nebezpečí dokáží eliminovat bezpečnostní pluginy.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.