Robots.txt faylı barədə bilməli olduğunuz hər şey

Robots.txt - saytdakı ən sadə fayllardan biridir. Lakin səhv yazılmış bir simvol bütün SEO səylərinizi heçə endirə və axtarış sistemlərinə saytdakı kontenti indeksləməyə qadağa qoya bilər.

robots.txt faylının səhv konfiqurasiyası hətta təcrübəli SEO mütəxəssisləri arasında çox rast gəlinən haldır.

Robots.txt faylı nədir?

robots.txt faylı axtarış sistemlərinin saytdakı fəaliyyətini (hansı qovluq, fayllara qadağa qoyulmasını və ya icazə verilməsini) idarə etməyə imkan verir.

İlk növbədə, robots.txt faylında axtarış sistemlərindən (məsələn, "Google") gizlətmək istədiyiniz bütün kontent qeyd olunur.

Əksər axtarış sistemləri "sözəbaxandırlar". Onlar adətən sayta məcburi "soxulmurlar". Eyni zamanda, bəziləri "utancaq" deyillər və şərti qoyulmuş kilidləri dəf edirlər.

"Google" axtarış sistemi robots.txt faylında yazılmış təlimatlara əməl edir.

Sadəcə unutmayın ki, bəzi axtarış sistemləri həmin təlimatlara məhəl qoymurlar.

Robots.txt faylının formatı

robots.txt faylının standart formatı aşağıdakı kimidir:

Sitemap: [saytın xəritəsinin URL ünvanı]

User-agent: [bot identifikatoru]
[direktiv 1]
[direktiv 2]
[direktiv ...]

User-agent: [daha bir bot identifikatoru]
[direktiv 1]
[direktiv 2]
[direktiv ...]

Gəlin user-agent və direktivləri daha ətraflı araşdıraq.

User-agent-lər

Hər bir axtarış sisteminin xüsusi user-agent-i var. robots.txt faylında onların hər biri üçün təlimat yaza bilərsiniz. Yüzlərlə user-agent var. SEO üçün faydalı olanlar aşağıda göstərilib:

  • Google: Googlebot
  • Google Images: Googlebot-Image
  • Bing: Bingbot
  • Yahoo: Slurp
  • Baidu: Baiduspider
  • DuckDuckGo: DuckDuckBot

Bütün user-agent-lər üçün böyük/kiçik hərflərin həssaslığı nəzərə alınır.

Təlimatları bütün user-agent-lərə aid etmək üçün ulduz (*) işarəsindən istifadə edin.

Məsələn, saytın "Googlebot" istisna olmaqla bütün digər botlar tərəfindən skan edilməsinə qadağa qoymaq istəyirsinizsə, bunu aşağıdakı kimi edə bilərsiniz:

User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /

Direktivlər

Direktivlər - bu, user-agent-lərin riayət etməli olduğu qaydalardır.

Dəstəklənən direktivlər

Aşağıda "Google" tərəfindən dəstəklənən direktivlərin siyahısı və onlardan istifadə nümunələri göstərilib.

Disallow

Axtarış sistemlərinin müxtəlif URL ünvanda yerləşən fayl və səhifələrə girişini bloklamaq üçün bu direktivdən istifadə edin. Məsələn, bütün axtarış sistemlərinin /blog URL ünvanında yerləşən səhifələrə girişini bloklamaq istəyirsinizsə, robots.txt faylının tərkibi aşağıdakı kimi olmalıdır:

User-agent: *
Disallow: /blog

Allow

Axtarış sistemlərinə bloklanmış qovluqda alt qovluqları və səhifələri skan etməyə icazə vermək üçün bu direktivdən istifadə edin. Məsələn, əgər /blog URL ünvanında bir yazıdan başqa digərlərinin skan edilməsini bloklamaq istəyirsinizsə, robots.txt faylınən tərkibi aşağıdakı kimi olmalıdır:

User-agent: *
Disallow: /blog
Allow: /blog/allowed-post

Bu halda axtarış sistemləri /blog/allowed-post URL ünvanına daxil ola bilərlər. Lakin onların aşağıdakı URL ünvanlarına girişinə icazə yoxdur:

/blog/another-post
/blog/yet-another-post
/blog/download-me.pdf

Həm "Google", həm də "Bing" axtarış sistemləri bu direktivi dəstəkləyirlər.

Sitemap

Saytın xəritəsini axtarış sistemlərinə "tanıtmaq" üçün bu direktivdən istifadə edin. Axtarış sistemləri saytın xəritəsində (sitemap) göstərilmiş səhifələri skan edir və indeksləyir.

Aşağıda sitemap direktivindən istifadə edən robots.txt faylının nümunəsi göstərilib:

Sitemap: https://www.domain.com/sitemap.xml

User-agent: *
Disallow: /blog/
Allow: /blog/post-title/

robots.txt faylında saytın xəritəsini göstərmək nə qədər vacibdir? Əgər siz onu artıq "Search Console" üzərindən göndərmisinizsə, onda bu, "Google" üçün kifayətdir. Lakin, məsələn, "Bing" kimi digər axtarış sistemləri robots.txt faylında saytın xəritəsinin yerləşdiyi yerə baxırlar. Ona görə bu direktivi yazmağı unutmayın.

Nəzərə alın ki, sitemap direktivini müxtəlif user-agent-lər üçün təkrarlamaq lazım deyil. Bu direktiv bütün user-agent-lərə şamil olunur. Ona görə sitemap direktivini robots.txt faylının əvvəlinə və ya sonuna əlavə etmək tövsiyə edilir. Məsələn:

Sitemap: https://www.domain.com/sitemap.xml

User-agent: Googlebot
Disallow: /blog/
Allow: /blog/post-title/
User-agent: Bingbot
Disallow: /services/

"Google", "Ask", "Bing" və "Yahoo" kimi axtarış sistemləri sitemap direktivini dəstəkləyirlər.

robots.txt faylı sizə lazımdır?

Bir çox saytlar (xüsusən kiçikhəcmli saytlar) üçün robots.txt faylına ehtiyac yoxdur.

Lakin robots.txt faylından tamamilə imtina etmək üçün də heç bir səbəb yoxdur. O, axtarış sistemlərinin saytdakı fəaliyyətini (hansı qovluq, fayllara qadağa qoyulmasını və ya icazə verilməsini) idarə etməyə imkan verir və aşağıdakı hallarda kömək edə bilər:

  • Dublikat kontentin skan edilməsinin qarşısını almaqda
  • Saytın bəzi bölmələrinin məxfiliyinin qorunub saxlanılmasında
  • Serverin həddindən artıq yüklənməsinin qarşısını almaqda
  • Şəkil, video və sair faylların "Google" axtarış nəticələrində göstərilməsinin qarşısını almaqda

Nəzərə alın ki, "Google" axtarış sistemi adətən robots.txt faylı tərəfindən bloklanmış veb səhifələri indeksləməsə də, bu, həmin səhifələrin axtarış nəticələrində göstərilməyəcəyinə zəmanət vermir.

"Google"un məlumatına əsasən, əgər internetdə digər saytlar bloklanmış kontentə bağlantı yerləşdirsələr, onda həmin kontent "Google"un axtarış nəticələrində göstərilə bilər.

robots.txt faylını necə yaradaq?

robots.txt faylını yaratmaq asandır. Bu məqsədlə boş .txt sənədi açırıq və direktivləri yazmağa başlayırıq. Məsələn, /admin/ qovluğunun skan edilməsini bütün axtarış sistemləri üçün qadağan etmək istəyirsinizsə, bunu aşağıdakı kimi edə bilərsiniz:

User-agent: *
Disallow: /admin/

Faylı "robots.txt" kimi yadda saxlayın.

robots.txt faylını hara yerləşdirmək lazımdır?

Məsələn, domain.com domenində skan etməni idarə etmək üçün robots.txt faylı domain.com/robots.txt ünvanında əlçatan olmalıdır.

Əgər blog.domain.com alt domenində skan etməni idarə etmək istəyirsinizsə, onda robots.txt faylı blog.domain.com/robots.txt ünvanında əlçatan olmalıdır.

robots.txt - ən yaxşı təcrübələr

Geniş yayılmış səhvlərdən uzaq durmaq üçün aşağıdakı qaydalara riayət edin.

Hər bir direktiv yeni sətirdən yazılmalıdır

Hər bir direktivi yeni sətirdən yazın. Əks halda axtarış sistemləri nə baş verdiyini "anlamayacaqlar".

Pis:

User-agent: * Disallow: /directory/ Disallow: /another-directory/

Yaxşı:

User-agent: *
Disallow: /directory/
Disallow: /another-directory/

Təlimatları sadələşdirmək üçün ulduz (*) simvolundan istifadə edin

Məsələn, əgər axtarış sistemlərinin saytdakı məhsul kateqoriyalarının parametrlərdən ibarət olan URL ünvanlarının girişinə qadağa qoymaq istəyirsinizsə, onda robots.txt faylında həmin URL ünvanları aşağıdakı kimi bir-bir yaza bilərsiniz:

User-agent: *
Disallow: /products/t-shirts?
Disallow: /products/hoodies?
Disallow: /products/jackets?
…

Lakin bu, səmərəli deyil. ulduz (*) simvolunun köməyilə bu tapşırığı sadələşdirə bilərik:

User-agent: *
Disallow: /products/*?

URL ünvanın sonunu göstərmək üçün "$" simvolundan istifadə edin

Məsələn, əgər axtarış sistemlərinin saytınızdakı .pdf fayllarına girişinə qadağa qoymaq istəyirsinizsə, robots.txt faylının tərkibi aşağıdakı kimi olmalıdır:

User-agent: * 
Disallow: /*.pdf$

Yuxarıdakı nümunədə axtarış sistemlərinin sonu .pdf ilə bitən URL ünvanlarına girişinə qadağa qoyulub. Bu o deməkdir ki, axtarış sistemləri /file.pdf faylına giriş əldə edə bilməzlər, lakin /file.pdf?id=68937586 ünvanına giriş əldə edə bilərlər, çünki həmin ünvanın sonu ".pdf" ilə bitmir.

Hər bir user-agent-i yalnız bir dəfə istifadə edin

robots.txt faylında eyni user-agent-i bir neçə dəfə yazmısınızsa, "Google" bunu "başa düşəcək". O, sadəcə olaraq faylın müxtəlif hissələrində yazılmış bütün qaydaları bir yerə toplayacaq və onlara riayət edəcək. Məsələn, robots.txt faylında aşağıdakı user-agent və direktivlər yazılıbsa...

User-agent: Googlebot
Disallow: /a/

User-agent: Googlebot
Disallow: /b/

... Googlebot alt qovluqların heç birini skan etməyəcək.

Bununla belə, user-agent-i bir dəfə yazmaq tövsiyə edilir, çünki bu halda kritik səhvlər etmək ehtimalı azdır.

Təsadüfi səhvlərdən uzaq olmaq üçün konkret olun

robots.txt faylında direktivlərin yazılması vaxtı qeyri-dəqiqliyə yol verilməsi SEO üçün böyük problemlər yarada bilər. Məsələn, çoxdilli saytınız var və /de/ alt qovluğunda mövcud olacaq alman versiyası üzərində işləyirsiniz.

Tərcümə hələ tam hazır olmadığı üçün axtarış sistemlərinin həmin qovluğa girişinə qadağa qoymaq istəyirsiniz.

Aşağıdakı robots.txt faylı axtarış sistemlərinə /de/ alt qovluğuna daxil olmağa və onun içindəki hər şeyi skan etməyə qadağa qoyur:

User-agent: *
Disallow: /de

Lakin bu halda siz həm də /de ilə başlayan bütün səhifə və faylların skan edilməsinə qadağa qoymuş olursunuz. Məsələn:

/designer-dresses/

/delivery-information.html

/depeche-mode/t-shirts/

/definitely-not-for-public-viewing.pdf

Buna görə sonda sləş (/) simvolu yazmaq lazımdır:

User-agent: *
Disallow: /de/
0

Şərh yazmaq üçün hesabınıza daxil olun.