Jak zamezit indexaci stránek do vyhledávačů?

Někdy je za potřebí zakázat přístup vyhledávacím robotům na některé webové stránky. Ty se pak nebudou zobrazovat ve výsledcích vyhledávání a zůstanou pro internet skryty. Zakázat indexování lze několika způsoby a my si v tomto článku některé z nich ukážeme.

U méně rozsáhlých webových prezentací není tolik důvodů pro zakazování přístupu vyhledávacím robotům. U rozsáhlejších projektů je to běžná věc a zabrání se tak špatnému zaindexování webu.

Příklady, kdy je vhodné zakázat indexování stránek:

  • stránky, kde jsou spuštěny diskuzní fóra
  • stránky pro interní účely
  • stránky s duplicitním obsahem

Diskuzní fóra mohou obsahovat příspěvky, které nemusí být pravdivé, ověřené, mohou být vulgární nebo někoho poškozovat. Proto je lepší tyto stránky raději neindexovat.

Stejně jako stránky, které jsou určeny pro interní účely. Slouží pro interní potřebu firmy. Například databáze přihlašovacích údají klientů do systému.

Duplicitní obsah mohou vytvářet různé verze pro tisk nebo stránky s různými variantami zboží, ale stejným obsahem. Tento problém lze také vyřešit pomocí kanonického url.

Pro tyto všechny případy je vhodné informovat vyhledávací algoritmy, aby stránky nenavštěvovaly.

Existuje několik způsobů, jak zakázat indexování stránky. A to sice pomocí:

  • použít meta tag robots
  • soubor robots.txt

Meta tag robots

Meta tag robots se zapisuje do hlavičky <head></head> HTML stránky a může mít takovou to podobu:

<meta name=“robots“ content=“noindex, nofollow“>

noindex – říká vyhledávacím robotům, aby neindexovali tuto stránku

nofollow – vyhledávací robot nebude sledovat odkazy této stránky

Po tomto zápisu roboti nebudou indexovat tuto konkrétní stránku a nebudou pokračovat dále přes odkazy této stránky.

Meta tag robots je nutné psát do každé stránky, kterou nechceme indexovat samostatně.

Soubor robots.txt

Soubor robots.txt je samostatný soubor podobně jako soubor .htaccess a umisťuje se do kořenového (root) adresáře. Vyhledávací robot nakoukne vždy jako první do toho to souboru pokud ho ovšem najde.

Příklad syntaxe robots.txt:

User-agent: *
Disallow: /admin/
Disallow: /in

Takto nadefinovaný zákaz v robots.txt říká všem robotům (první řádek), aby nevstupovali do adresáře admin (druhýh řádek), kde jsou inerní data. Poslední (třetí řádek) určuje zákaz sledování souborů, které začínají na „in“.

Zdroje