Czym jest plik robots.txt i na co musisz uważać?

Rafał Majdan 6 września 2021

Szczegółowe objaśnienie funkcji pliku robots.txt oraz garść wskazówek, na które należy zwrócić uwagę przy jego konfiguracji.

Przyjęło się, że każda solidnie zoptymalizowana witryna internetowa powinna posiadać w swoim katalogu plik robots.txt, zawierający listę reguł dla potencjalnych gości, w postaci robotów indeksujących.

Omawianie wspomnianego wyżej pliku należy rozpocząć od opisania sposobu działania samych wyszukiwarek internetowych oraz innych robotów crawlujących w obrębie Twojej witryny. Przeszukują one każdą napotkaną stronę w poszukiwaniu treści, przemieszczając się z podstrony na podstronę za pomocą linków wewnętrznych lub mapy witryny. Właśnie ten proces potocznie nazywamy „crawlowaniem”. Każda witryna posiada swój ustalony dla Googlebota crawl budget, którym można w pewnym sensie zarządzać za pomocą piku robots.txt, jednak jest to temat na zupełnie inny artykuł.

Ostrzeżenie

Należy pamiętać, że instrukcje zawarte w pliku robots.txt nie są wiążące, tzn. renomowane roboty takie jak crawler Google prawdopodobnie będą ich przestrzegać, jednak istnieją również takie, które celowo skupią się na wykluczonych przez Ciebie obszarach strony. Zasadniczo więc nie możesz opierać się na pliku robots.txt, jeżeli Twoim zamiarem jest tylko ukrycie treści przed botami.

Uwaga

Nie używaj pliku robots.txt, aby uniemożliwić wyświetlanie swoich stron w wyszukiwarce Google. Wyszukiwarka może indeksować strony nawet bez ich odwiedzenia, na podstawie struktury linków wewnętrznych. W takim przypadku należy posłużyć się dyrektywą Noindex.

Gdzie umieścić plik robots.txt?

Plik ten musi znajdować się w głównym katalogu Twojej witryny oraz musi być dostępny za pomocą obsługiwanego przez roboty protokołu. W naszym przypadku można wywołać go po prostu przez wpisanie w pasek adresu https://rootbine.com/robots.txt.

Jak powinna wyglądać treść pliku robots.txt?

Według dokumentacji Google omawiany plik obsługuje następujące pola:

User-Agent – definiuje robota do którego chcesz zastosować obecny zestaw reguł

Allow – pozwala na zdefiniowanie katalogu, który może być odwiedzany przez roboty

Disallow – wskazuje robotom katalogi, które nie powinny być przez nie odwiedzane

Sitemap – możesz użyć tego pola, aby wskazać robotowi ścieżkę do mapy witryny

Należy pamiętać, iż pól możesz używać w dowolny sposób, definiując które roboty mogą odwiedzać określone miejsca, a które wchodzić tam nie powinny, np.

User-Agent: *
Disallow: /uploads/
Allow: /uploads/assets/

W powyższym zapisie * oznacza odniesienie do wszystkich robotów. Można również odnosić się do poszczególnych, wpisując ich nazwę, np. Googlebot, Bingbot itd. W kolejnej linii nakazuje się robotom nieodwiedzanie całego katalogu „/uploads/” oraz jego podkatalogów. W linii trzeciej natomiast zapisano wyjątek, który pozwala robotom na odwiedzanie ścieżki „/uploads/assets/” oraz katalogów wyżej. Należy pamiętać, iż wszystkie ścieżki nieuwzględnione w pliku robots.txt będą domyślnie indeksowane, nie ma potrzeby aby wymieniać je pojedynczo z dyrektywą „Allow”.

Ostrzeżenie

Należy zachować szczególną ostrożność przy operacjach na pliku robots.txt. Jeden drobny błąd lub niedopatrzenie może skutkować tym, że Twoja strona przestanie być indeksowana w wyszukiwarce Google, a wszystkie wysiłki włożone w SEO pójdą na marne. Dobrą zasadą jest wykorzystywanie dyrektywy „disallow” jak najrzadziej. Za wszelką cenę unikaj w swoim pliku poniższego zapisu, blokującego całą witrynę dla robotów crawlujących.

User-agent: *
Disallow: /

Uwaga

W przypadku pliku robots.txt wielkość liter ma znaczenie. Ścieżka „/uploads/” nie jest tożsama ze ścieżką „/UPLOADS/”.

Konfiguracja pliku robots.txt w przypadku WordPressa

Użytkownicy WordPressa mają znacznie ułatwione zadanie, ponieważ omawiany CMS sam automatycznie tworzy wirtualny plik robots.txt. Możesz zauważyć, że większość stron postawionych na wordpressie po wpisaniu adresu „nazwadomeny.pl/robots.txt” wyświetli poniższą zawartość:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Jest to jednak plik wirtualny, więc jeżeli chcesz go edytować będziesz musiał utworzyć robots.txt na nowo w katalogu swojej witryny. Dobrą praktyką będzie skopiowanie domyślnego zapisu oraz wprowadzenie własnych zmian.
Pamiętaj aby nie używać poleceń disallow zbyt agresywnie i nie blokować również dostępu do plików CSS oraz JavaScript. W dzisiejszych czasach wyszukiwarki sprawdzają wszystkie zakamarki Twojej witryny, a zablokowanie istotnych plików może skutkować błędnym odczytaniem zawartości całej strony.

Komentarze (0)