Webmaster

Robots.txt nedir? Ne işe yarar?

robots.txt nedir ne işe yarar

Robots.txt, uzantısından da anlaşılacağı üzere bir text (metin) dosyasıdır. Bir web sitesinde hangi sayfaların ya da dizinlerin indekslenip hangilerinin indekslenmeyeceği gibi önemli bilgileri arama motorlarının örümcek (crawler) olarak adlandırılan küçük robot yazılımlarına tabiri caiz ise, söyleyen dosyadır.

Robots.txt dosyasının içeriği, sadece düz metinden oluşmalı ve sadece UTF-8 karakter kodlaması ile yazılmış olmalıdır. Bu dosya, web sitesinin kök yani ana dizininde bulunmalıdır. Arama motorları örümcekleri siteyi taramadan önce bu dosyaya bakar ve siteyi ona göre indeksler. Robots.txt dosyası, tüm arama motorlarını kapsayacak şekilde ya da tek bir arama motoruna göre de düzenlenebilir.

Güncellenebilir nitelikte bir sitemiz olduğunu düşünelim. Bu durumda bir yönetim panelimiz olacaktır. Bizim ya da editörlerimiz haricinde kimsenin bu panele giriş yapması gerekmeyeceğini düşünürsek panele giriş sayfamızın, ya da panelimizden ulaşılabilen diğer yönetim sayfalarının ve bunlarda yer alabilecek görsellerin de arama motorlarınca indekslenmesi (kayda alınması) gereksiz olacaktır. Bu durumda site yönetim panelimizin olduğu klasörün arama motorlarında indekslenmesini, robots.txt dosyamıza ekleyeceğimiz bir satır ile kolayca engelleyebiliriz.

Robots.txt dosyası nasıl oluşturulur?

Boş bir text dosyası (not defteri) oluşturup, içine yazıp/kopyalayıp ve dosyanın adını robots.txt olarak kaydedin ve sonra bu dosyayı sitenizin ana dizinine yükleyin.

Robots.txt dosyası için örnek kullanımlar şu şekildedir:

User-agent: user-agent komutunu kullanarak bütün arama motorlarının sitenizi taramasını engellemek istiyorsanız robots.txt dosyasını aşağıdaki gibi düzenlemeniz gerekir:

user-agent: *
disallow: /

Ya da tüm arama motoru robotlarının sitenizi indekslemesine izin vermek istiyorsanız şu şekilde kullanabilirsiniz.

user-agent: *

Sayfa Engelleme ya da izin verme: allow veya disallow komutlarını kullanarak sitemizdeki belirli sayfaların indekslenmesine izni verebilir ya da engelleyebiliriz. Örneğin alışveriş sitemizdeki sepetim.php sayfasının indexlenmesini istemiyorsak robots.txt dosyamız aşağıdaki gibi olmalı.

user-agent: *
disallow: /sepetim.php

Özellikle belirli bir dosya tipine yönelik engelleme yapmak istiyorsanız. Örneğin; Dosya adı ne olursa olsun resimler dizininde bulunan .gif uzantılı dosyalar indexlenmesin istiyorsak aşağıdaki kullanım işimizi görecektir.

User-agent: *
Disallow: /resimler/*.gif

Dizin Engelleme ya da izin verme: allow veya disallow komutlarını kullanarak sitenizde bulunan bazı dizinlerin indekslenmesine izin verirken bazılarının indekslenmesini engelleyebilirsiniz. Örneğin sitemizdeki yonetimpaneli klasörünün indekslenmesini engellemek için robots.txt dosyamız aşağıdaki gibi olmalı.

user-agent: *
disallow: /yonetimpaneli/

Önemli açıklama; Robots.txt dosyasında belirtilen kurallar sadece arama motoru örümceklerinin uyması içindir. Bir sayfa ya da dizin robots.txt dosyası ile engellenmiş olsa dahi, herhangi bir internet kullanıcısı adres çubuğuna söz konusu adresi yazarak o sayfaya ya da dizine, dizinin altındaki bir sayfaya, görsele v.b. erişebilir. Kısaca robots.txt dosyası erişimi değil, indekslenmeyi engelleyebilir.

Robots.txt doyası ile ayrıca, tarama gecikmesi belirtilebilir. Sitenin bulunduğu sunucu aşırı yüklüyse ve indirme isteklerini işlemeye yetişemiyorsa, “Crawl-delay” komutu kullanılır. Bu komut, bir sayfayı indirme işleminin bitmesi ile sonraki sayfayı indirmeye başlama arasında geçmesi gereken minimum süreyi (saniye olarak) arama robotuna belirtmeye imkan verir.

User-agent: Yandex
Crawl-delay: 3 # 3 saniyelik zaman aşımı belirtir

Yukarıdaki örnekte; # 3 saniyelik zaman aşımı belirtir yazan bölüm açıklamadır. Komut olarak algılanmaz.

Önemli not: Crawl-delay komutu Google tarafından göz ardı edilir, bir nevi yok sayılır.
Robots.txt dosyasında, istenirse site haritasının konumu da belirtilebilir. Bunu aşağıdaki şekilde kolayca yapabilirsiniz.

user-agent: *
Sitemap: http://www.siteadresiniz.com/sitemap.xml

Kaynak:
https://support.google.com/webmasters/answer/6062596?hl=tr
https://yandex.com.tr/support/webmaster/controlling-robot/robots-txt.xml?lang=tr

1 Comment

  1. Çok teşekkür ederim.Şuan yaşadığımız bir sorunla ilgili çözümü buldum.Elinize sağlık.

Leave a Reply

Theme by Anders Norén