Robots.txt prosto wyjaśnione

Czym jest robots.txt?

Plik robots.txt to prosty plik tekstowy, który znajduje się w głównym katalogu strony internetowej i jest dostępny pod stałym adresem, mianowicie https://www.przyklad.pl/robots.txt. Służy do przekazywania instrukcji robotom wyszukiwarek (zwanych również botami lub robotami), które obszary strony mogą być przeszukiwane, a które nie. Jest to jedno z najbardziej podstawowych narzędzi technicznej optymalizacji pod kątem wyszukiwarek.

Ważne jest właściwe zrozumienie jego funkcji: robots.txt kontroluje crawlowanie, czyli pobieranie i przeszukiwanie stron, ale niekoniecznie indeksowanie, czyli umieszczenie w indeksie wyszukiwarki. Właśnie ta różnica jest najczęstszym źródłem nieporozumień, o czym więcej poniżej.

Jak zbudowany jest plik robots.txt?

Plik składa się z prostych reguł. Najważniejsze elementy to:

User-agent: Określa, dla którego crawlera obowiązuje dana reguła. Gwiazdka (*) oznacza "dla wszystkich botów".
Disallow: Zabrania crawlowania określonego katalogu lub strony.
Allow: Wyraźnie zezwala na crawlowanie, na przykład aby zrobić wyjątek w zablokowanym katalogu.
Sitemap: Wskazuje lokalizację mapy strony XML.

Typowy przykład:

User-agent: *
Disallow: /wewnetrzne/
Allow: /wewnetrzne/publiczne/
Sitemap: https://www.przyklad.pl/sitemap.xml

Ten plik instruuje wszystkie boty, aby nie crawlowały katalogu "/wewnetrzne/", z wyjątkiem podkatalogu "/wewnetrzne/publiczne/", a także podaje lokalizację mapy strony.

Najważniejszy błąd: Zakaz crawlowania nie oznacza wykluczenia z indeksu

To kluczowy punkt, który często jest źle rozumiany: Jeśli zablokujemy stronę za pomocą Disallow w pliku robots.txt przed crawlowaniem, nie oznacza to, że strona ta na pewno nie pojawi się w indeksie Google.

Powód: Plik robots.txt jedynie uniemożliwia Google pobranie treści strony. Jeśli jednak Google zna adres URL z innych źródeł, na przykład dlatego, że inne strony na niego linkują, adres ten może i tak zostać zindeksowany. W wynikach wyszukiwania często pojawia się wtedy wpis z informacją "Brak dostępnych informacji o tej stronie", ponieważ Google zna adres URL, ale nie miał pozwolenia na odczytanie treści.

Konsekwencja jest paradoksalna: Strona zablokowana w robots.txt może trafić do indeksu, ale bez wartościowego opisu. Jeśli chcemy niezawodnie wykluczyć stronę z indeksu, nie powinniśmy blokować jej w robots.txt.

Zapobiegać crawlowaniu czy indeksowaniu? Wybór odpowiedniego narzędzia

Z powyższego wynika ważna zasada:

Jeśli strona nie powinna być crawlowana (np. aby zaoszczędzić budżet crawlowania lub wykluczyć nieistotne obszary): należy użyć robots.txt z Disallow.
Jeśli strona nie powinna pojawić się w indeksie: Strona musi pozostać dostępna do crawlowania i powinna zawierać meta tag noindex w sekcji <head>. Tylko w ten sposób Google może odczytać instrukcję "nie indeksuj".

Najczęstszym błędem jest połączenie obu metod: Kto zablokuje stronę w robots.txt i ustawi noindex, osiągnie efekt przeciwny do zamierzonego. Google nie będzie w stanie odczytać noindex, ponieważ crawlowanie jest zablokowane, a strona może pozostać w indeksie.

Typowe ryzyko błędów

Przypadkowe całkowite zablokowanie: Linijka taka jak Disallow: / blokuje całą stronę dla wszystkich botów. Ten błąd często zdarza się po relansie, gdy ustawienie testowe przypadkowo trafia na produkcję i może mieć katastrofalne skutki dla widoczności.
Blokowanie plików CSS i JavaScript: Jeśli te zasoby zostaną zablokowane, Google nie będzie w stanie poprawnie wyrenderować i ocenić strony. Powinny pozostać dostępne do crawlowania.
Chęć "ukrycia" poufnych danych: Plik robots.txt jest publicznie dostępny. Kto umieści tam tajne katalogi, wręcz na nie wskazuje. Poufne obszary powinny być zabezpieczone hasłem, a nie umieszczane w robots.txt.
Literówki i błędne ścieżki: Już mały błąd w pisowni może sprawić, że reguła nie zadziała lub zablokuje zbyt wiele.
Wielkość liter: Ścieżki w robots.txt rozróżniają wielkość liter. /Wewnetrzne/ i /wewnetrzne/ to nie to samo.

Praktyczne wskazówki

Wprowadź mapę strony: Odnośnik do mapy strony XML pomaga wyszukiwarkom znaleźć wszystkie ważne strony.
Sprawdź przed wdrożeniem: Szczególnie po relansie koniecznie należy sprawdzić, czy nie ma przypadkowej blokady.
Testuj za pomocą narzędzi: Google Search Console oferuje możliwości sprawdzania pliku robots.txt oraz testowania poszczególnych adresów URL.
Używaj oszczędnie: Plik robots.txt nie jest narzędziem uniwersalnym. W razie wątpliwości lepiej blokować tylko to, co konieczne.
Traktuj jako wskazówkę: Solidne wyszukiwarki przestrzegają robots.txt, ale technicznie nie można tego wymusić. Złośliwe boty ją ignorują. Nie jest to więc narzędzie bezpieczeństwa.

Podsumowanie

Plik robots.txt to proste, ale potężne narzędzie do przekazywania instrukcji robotom wyszukiwarek dotyczących crawlowania strony internetowej. Kluczowy punkt, który wielu przeocza: Zakaz crawlowania w robots.txt nie gwarantuje, że strona nie trafi do indeksu Google. Jeśli chcemy niezawodnie wykluczyć stronę z indeksu, musi ona pozostać dostępna do crawlowania, a zamiast tego należy użyć meta tagu noindex. Ponieważ małe błędy w robots.txt mogą mieć duży wpływ na widoczność, warto tu zachować szczególną staranność, przeprowadzić dokładne testy i stosować ją świadomie oraz oszczędnie.