Strona główna Darmowe porady SEO Czym jest plik robots.txt i w jaki sposób wpływa na indeksowanie strony przez Google?

Czym jest plik robots.txt i w jaki sposób wpływa na indeksowanie strony przez Google?

Autor InClick

Chcesz, by Twoja strona zajmowała wysoką pozycję w przeglądarce Google? Nie możesz pomijać roli, jaką odgrywa robots.txt. Te niepozorny, mały plik tekstowy jest znakiem drogowym dla robotów skanujących Twoją witrynę. Za pomocą opcji „zablokuj” lub „zezwól” ułatwia im prawidłowe indeksowanie stron.

Jak poprawnie zbudować plik robots.txt?

Niektóre CMS tworzą robots.txt automatycznie. Jeśli chcesz sprawdzić, czy Twój system działa w podobny sposób, wystarczy, że dodasz w pasku /robots.txt na końcu domeny. Dowiedz się, jak poprawnie budować dokument tekstowy robots.txt od podstaw.

To, o czym musisz pamiętać, zanim przystąpisz do budowy pliku, to zasady dotyczące formatu oraz lokalizacji robots.txt:

  • nazwa musi zawierać „robots.txt”;
  • każda witryna może mieć tylko jeden plik „robots.txt”;
  • robots.txt powinien się znajdować w katalogu głównym Twojej strony: https://www/twojadomena.pl/robots.txt.;
  • mogą go zawierać także subdomeny i porty niestandardowe, ale nie może być umieszczony w podkatalogach, bo nie będzie widoczny dla botów wyszukiwarek;
  • musi być zakodowany w formacie UTF-8 ze względu na to, że Google może omijać znaki spoza tego zakresu, a w efekcie reguły zawarte w robots.txt nie będą działały prawidłowo.

Robots.txt najlepiej stworzyć w Notatniku lub dowolnym edytorze tekstowym, przez dopisanie do niego odpowiednich reguł (o tym więcej poniżej). Następnie przygotowany plik trzeba przesłać na serwer za pomocą klienta FTP, np. Total Commander. Warto jeszcze raz podkreślić, że robots.txt przesyłamy do głównego katalogu witryny. Po przesłaniu go na serwer można go dowolnie edytować z poziomu klienta FTP, a zmiany natychmiast pojawią się na serwerze.

Generowanie robots.txt

W zależności od Twoich umiejętności możesz wybrać odpowiednią konfigurację robots.txt, z którą poradzisz sobie samodzielnie. Dostępne są metody:

  • statyczna, która polega na ręcznym utworzeniu dokumentu tekstowego oraz wpisaniu konkretnych instrukcji i wrzuceniu go na serwer;
  • generatory robots.txt – jeżeli korzystasz z generatora, nie musisz tworzyć dokładnej składni tego dokumentu, ale powinieneś wykluczyć te adresy URL, które nie będą indeksowane;
  • dynamiczna, która polega na wygenerowaniu dokumentu robots.txt bezpośrednio przez aplikację lub stronę, której dotyczy. W tym punkcie można także ująć automatyczne tworzenie robots.txt za pomocą wbudowanej funkcji systemu CMS. Ta ostatnia opcja umożliwia automatyczne dodawanie poszczególnych reguł do robots.txt po wprowadzeniu zmian w indeksowaniu stron.

Jakie instrukcje utworzyć w robots.txt dla botów wyszukiwarek, by umożliwić im skanowanie strony przez Google?

Instrukcje, które może zawierać robots.txt, nie są skomplikowane. Warto je jednak znać, by poprawnie zbudować dokument tekstowy, który ułatwi poprawne indeksowanie Twojej strony. Instrukcje dla robotów wyszukiwarek to:

  • funkcja Disallow, która zabrania robotom indeksowania konkretnych stron i katalogów. Musi kończyć się i rozpoczynać znakiem /.;
  • funkcja Allow, która zezwala na indeksowanie stron, katalogów i wybranych folderów. Można nią zastąpić dyrektywę disallow i ponownie zezwolić na skanowanie stron robotom wyszukiwarek Google;
  • User-Agent, czyli polecenie, które wskazuje reguły botom poszczególnych wyszukiwarek: Google, Bing, Yahoo etc. Rozpoczyna się znakiem #, który wyznacza początek komentarza. Dodanie do User-Agent znaku * powoduje, że reguły zapisane w robots.txt odnoszą się do wszystkich botów indeksujących, z wyjątkiem wskazanych, których nazwy wpisuje się ręcznie.

Dyrektywa Allow jest ustawiona domyślnie w witrynie. Jeśli nie ma takiej konieczności, nie musisz jej zmieniać. Przyjrzyj się więc wybranym przykładom instrukcji dla konkretnych robotów:

  • pojedyncze zablokowanie strony przez skanowaniem:

User-agent: Google

Disallow: /

  • zablokowanie wszystkich stron:

User-agent: *

Disallow: /

W podobny sposób można zastosować dyrektywę Allow.

Jak sprawdzić nowo utworzony dokument robots.txt? Testowanie w Google Search Console

Pomocne będzie Google Search Console. Nowo utworzony dokument robots.txt można sprawdzić w testerze Google Search. Wybierz swoją stronę z panelu, w zakładce „Pobieranie” kliknij opcję „Tester robots.txt”. Na dole znajdziesz pasek URL, który można przesłać do testów. Jeśli nie określisz, która część witryny ma zostać przetestowana, narzędzie wybierze domyślnie stronę główną. GSC warto wykorzystać, gdy prowadzisz rozbudowany sklep e-commerce i masz dużo zawartości do przeskanowania.

Najczęściej spotykane błędy z dokumentem robots.txt

Najczęściej spotykanym błędem z dokumentem robots.txt jest jego zupełny brak w jakiejkolwiek części strony. Większość robotów Google, Yahoo, Bing oraz innych równie popularnych wyszukiwarek internetowych sprawdza, czy Twoja witryna posiada robots.txt. Jeśli nie znajdzie go, skanując stronę po stronie, to z pewnością odbije się to negatywnie na pozycji zajmowanej przez konkretną witrynę w wyszukiwarkach.

Brak instrukcji robots.txt na konkretnej podstronie spowoduje częste wyświetlanie po stronie serwera komunikatu 404, a w dalszej kolejności błędy w ważnych statystykach np. Google Analytics.

Kolejnym często pojawiającym się błędem jest nadmierne stosowanie dyrektywy Disallow, która skutecznie blokuje linki przychodzące. W tym momencie warto wspomnieć, że mimo włączonej funkcji Disallow roboty wyszukiwarek nadal mogą indeksować puste adresy URL (bez ich zawartości) i wykazywać je w wynikach wyszukiwania. Pamiętaj, że w razie jakichkolwiek problemów z konfiguracją robots.txt możesz skorzystać z pomocy specjalistów SEO.

Jak poprawnie skonfigurować robots.txt i sprawić, by Twój sklep był atrakcyjny dla wyszukiwarek internetowych? Dowiedz się, jak w łatwy sposób przygotować czytelną instrukcję dla robotów Google i uniknąć przy tym popularnych błędów.

Skomentuj

Inne ciekawe tematy

606 628 628