Robots.txt je textový soubor, který říká vyhledávačům, jaké stránky by měli nebo neměli procházet.

Používá se hlavně kvůli tomu, pokud chcete některé stránky vyloučit z indexu procházení nebo aby se zabránilo přetížení webových požadavků.

Pokud chcete některé stránky vyloučit před indexováním, stačí přidat do robots.txt k určité stránce noindex.

Pro lepší představivost, si ukážeme například textový soubor robots.txt u webových stránek www.alza.cz:

I když vypadá nastavení souboru robots.txt zpočátku obtížné, nastavení je poměrně jednouché. Dejte si ale pozor… pokud soubor nastavíte špatně, může to mít pro vaše webové stránky fatální následky (vaše webové stránky budou nedostupné atd..).

Z pohledu SEO je soubor robots.txt velmi důležitý!

Je důležité podotknout, že většina CMS systémů (WordPress, Drupal, Joomla, Wix, Shoptet atd..) automaticky vytvoří soubor robots.txt. Pokud si však nejste jistí, zda tento textový soubor se nachází na vašich stránkách, stačit zadat: www.vašedoména.cz/robots.txt.

Nebo také můžete zkontrolovat robots.txt v Google Search Console, kolik stránek je za indexováno.

Pokud si chcete otestovat, jestli na vašich stránkách je robotst.txt a funguje správně, můžete si ho otestovat zde → Otestovat soubor robots.txt

Proč je textový soubor robots.txt důležitý?

Robots.txt hraje velmi zásadní roli z pohledu SEO.

Textový soubor robots.txt na vašich stránkách je důležitý, protože pomáhá “sdělovat“ robotům, které stránky procházet a které naopak neprocházet.

Jaké jsou další důvody?

  • Blokování stránek, které nechcete indexovat
  • Snížení duplicitního obsahu
  • Zabránění interního procházení
  • Blokování zdrojových souborů
  • Omezit počet procházení
  • Můžete zakázat procházení mediálních souborů
  • Omezení procházení, kvůli přetížení serveru

Pokud nechcete procházet některé stránky, stačí přidat do souboru noindex. Tento příkaz zajistí, aby stránky nebyly vyhledávači procházeny a indexovány.

Kde najít soubor Robots.txt?

Soubor robots.txt je umístěn na vašich stránkách v kořenovém adresáři.

Pokud si chcete zobrazit soubor Robots.txt (ať už na libovolných stránkách), stačí za doménu napsat /robots.txt. (www.fitnessmix.cz/robots.txt)

Jak funguje Robots.txt?

Při procházení webových stránek se vyhledávače řídí odkazy (interním prolinkování), aby se dokázaly dostat z jednoho webu na druhý a díky tomu procházejí desítky i miliony odkazů/stránek.

Jak vytvořit soubor Robots.txt?

Vytvořit soubor Robots.txt není žádná „raketová“ věda. Musíte se však řídit při vytváření několika pravidly, která jsou pro vytvoření souboru velmi důležité, jako je například formátování, syntaxe a umístění souboru.

Pokud si nevíte rady s vytvořením souboru Robots.txt, požádejte o něj profesionála, a to z jednoho prostého důvodu. Špatné nastavení může vést k fatálním následkům.

Pokud chcete tvořit textový soubor robots.txt, musíte ho umístit do kořenového adresáře webových stránek (nejčastěji přes FTP server), a musí být vytvořen v klasickém textovém editoru a v ničem jiném.

Při vytvoření musíte dodržet tyto 4 kroky:

  • Vytvořit soubor s názvem robots.txt
  • Přidat pravidla do textového souboru
  • Nahrát soubor robots.txt do kořenového adresáře
  • Otestovat, zda soubor funguje správně

Webové stránky musí obsahovat pouze jeden soubor robots.txt!

Příklady Robots.txt

Zde vám uvedeme několik příkladů, jak můžete nastavovat Robots.txt, a co jednotlivé syntaxe znamenají.

Jak zakázat vše pomocí Robots.txt

Pokud chcete dát pokyn všem robotům, aby neprocházeli váš web, pak tento kód vložte do souboru robots.txt.

User-agent: *
Disallow: /

User-agent: * → znamená, že platí pro procházení všech robotů.

Disallow: / → znamená, že syntaxe platí pro celý váš web.

Pokud chcete dát pokyn všem robotům, aby neprocházeli váš web, pak tento kód vložte do souboru robots.txt

Dejte si ale pozor, jelikož zakázání robotů na vašem webu může vést k fatálním následkům.

Jak povolit vše pomocí Robots.xt

Soubor robots.txt slouží především k tomu, pokud chcete vyloučit některé adresáře nebo složky, aby nebyly proházeny.

Pokud tedy chcete, aby stránky byly procházeny a bez omezení, musí váš soubor být „prázdný“.

Nebo obsahovat následující:

User-agent: *
Disallow:

Tato syntaxe znamená, že nic není zakázáno a všechno je povoleno.

Jak zakázat soubory a složky v Robots.txt?

Pokud chcete blokovat některé adresáře, složky nebo multimediální obsah, stačí napsat příkaz → Disallow.

Stačí do souboru napsat Disallow: /konkrétní složku nebo adresář.

Příkaz může vypadat následovně:

User-agent: *
Disallow: /registrace
Disallow: /affiliate
Disallow: /zapomenute-heslo

Jak skrýt celý web?

Skrýt webové stránky můžete pomocí jednoho příkazu:

Disallow: /

„/“ (pomlčka) znamená kořenový adresář na webových stránkách.

Díky tomuto příkazu řeknete vyhledávačům, aby vaše webové stránky vůbec neprocházeli.

Co znamená User-agent: *?

Zde se nastavují konkrétní pokyny, pro konktrétní roboty.

Je tím myšleno, že můžete povolit procházení od robotů Googlu, ale zároveň také můžete zakázat procházení dalším vyhledávačům (Bing, Yahoo atd.).

Místo „základního nastavení“ User-agent: * (hvězdička znamená, že pokyny platí pro každého robota a není nijak procházení omezeno) můžete nastavit User-agent: Bingbot (pro vyhledávač Bing) nebo User-agent: Googlebot (pro vyhledávač Google) a další povolení pro jiné vyhledávače a roboty.

Jak zakázat roboty, pomocí konkrétních příkladů:

User-agent: Googlebot
Disallow: /

User-agent: Bingbot
Disallow: /

User-agent: *
Disallow:

Dají se také zablokovat konkrétní roboti ke konkrétním vyhledávačům.

Pokud chcete zakázat nebo vyloučit některou stránku nebo soubor tak robots.txt. nemusí být vždy tím správným řešením.

Disallow

Disallow patří k nejčastěji používaným příkazům, pro zákaz procházení.

V podstatě se dá říci, že robot nesmí nikam, nebo má zakázaný přístup do některého z adresářů.

Například:

Disallow: /login/
Disallow: /registrace/

Říká robotům, že nesmí procházet registraci uživatelů nebo přihlášení uživatelů.

Můžete se zde také nastavit zákaz procházení konkrétních souborů nebo adresářů.

Co znamená Crawl-delay?

Příkaz Crawl-delay slouží k tomu, pokud chcete robotům „zakázat“ přetěžovat server.

Nastavení řekne robotům, jak dlouho mají čekat mezi jednotlivými požadavky v milisekundách.

Crawl-delay: 6

Zde je například příkaz, který řekne robotům aby „počkali“ 8 milisekund než budou pokračovat v dalším procházení.

Proč je soubor sitemap.xml součástí souboru robots.txt?

Jestli jste si už prohlédli na některých stránkách soubor robots.txt, tak si můžete všimnout, že obsahuje také sitemapu:

Sitemap: https://marketin.cz/sitemap_index.xml

Tento příkaz dá robotům vědět, že do svého procházení mají také zahrnout sitemapu (mapu stránek).

Je důležité zmínit, že roboti si budou webové stránky procházet „podle sebe“, takže příkaz sitemap nenutí roboty, aby je upřednostňovali.

Hledáte více podrobnější studií o Robots.txt? Vyzkoušejte příručku přímo od Googlu → https://developers.google.com/search/docs/crawling-indexing/robots/intro

Podobné příspěvky

Napsat komentář