Robots.txt dosyası, bir sitenin kök dizininde bulunan ve arama motoru tarayıcılarına yönelik olarak hangi URL’lerin taranması ve hangilerinin taranmaması gerektiği hakkında bilgiler içeren bir metin belgesidir. Bu dosyanın varlığı web sitesinin çalışması için zorunlu değildir, ancak SEO için çok önemlidir.
Robots.txt kullanma kararı, Robot Exclusion Standard’ın bir parçası olarak 1994 yılında kabul edildi. Google Yardım Merkezi‘ne göre dosyanın temel amacı, web sayfalarının arama sonuçlarında gösterilmesini engellemek değil, robotların sitelere yaptığı istek sayısını sınırlamak ve sunucu yükünü azaltmaktır.
Genel olarak robots.txt dosyasının içeriği, web sitesi taramasına ilişkin kuralları tanımlayan arama tarayıcıları için bir öneri olarak görülmelidir. Herhangi bir sitenin robots.txt dosyasının içeriğine erişmek için yapmanız gereken tek şey, tarayıcıdaki alan adından sonra “/robots.txt” yazmaktır.
Robots.txt Ne İçin Kullanılır?
Robots.txt dosyasının birincil amacı, tarama bütçesinin (bir arama robotunun tarayabileceği web sayfalarının sayısıdır) daha verimli bir şekilde tahsis edilmesi için sayfaların ve kaynak dosyalarının taranmasını önlemektir. Çoğu durumda robots.txt dosyası, web sitesi ziyaretçilerine herhangi bir değer sağlamayan ve SERP sıralamasını etkilemeyen bilgileri gizler.
Robots.txt avantajlarını daha detaylı anlatmak gerekirse:
1. Botları Özel Klasörlerden Uzak Tutma
Botların özel klasörlerinizi kontrol etmesini önlemek, onları bulmayı ve indekslemeyi çok daha zor hale getirecektir.
2. Kaynakları Kontrol Altında Tutma
Bir bot sitenizde her gezindiğinde, bant genişliğini ve diğer sunucu kaynaklarını emer. Örneğin, e-ticaret siteleri gibi tonlarca içeriğe ve çok sayıda sayfaya sahip siteler için, bu kaynaklar gerçekten hızlı bir şekilde tüketilebilir. Robotların bağımsız komut dosyalarına ve görüntülere erişmesini zorlaştırmak için robots.txt dosyasını kullanabilirsiniz; bu, gerçek ziyaretçiler için değerli kaynakları koruyacaktır.
3. Site Haritanızın Konumunu Belirtme
Bu oldukça önemli bir noktadır. Tarayıcılara site haritanızın nerede olduğunu bildirmek istersiniz, böylece site haritanızı tarayabilirler.
4. Yinelenen İçeriği SERP’lerden Uzak Tutma
Kuralı robotlarınıza ekleyerek, tarayıcıların yinelenen içeriğin bulunduğu sayfaları endekslemesini önleyebilirsiniz.
Doğal olarak, arama motorlarının web sitenizdeki en önemli sayfalara giden yolu bulmasını isteyeceksiniz. Belirli sayfaları belirli kurallarla kontrol altına alarak, hangi sayfaların arama yapanların önüne konulacağını kontrol edebilirsiniz.
Robots.txt Aracılığıyla Genellikle Hangi Sayfalar ve Dizinler Engellenebilir?
1. Kişisel veriler içeren sayfalar
Kişisel veriler, ziyaretçilerin kayıt sırasında belirttikleri isimleri ve telefon numaralarını, kişisel gösterge tablolarını ve profil sayfalarını, ödeme kartı numaralarını içerebilir. Güvenlik nedeniyle, bu tür bilgilere erişim ek olarak bir parola ile korunmalıdır.
2. Yalnızca belirli kullanıcı eylemlerinden sonra görünen yardımcı sayfalar
Bu tür eylemler tipik olarak müşterilerin bir siparişi, müşteri formlarını, yetkilendirme veya şifre kurtarma sayfalarını başarıyla tamamladıktan sonra aldıkları mesajları içerir.
3. Yönetici kontrol paneli ve sistem dosyaları
Web sitesi yöneticilerinin veya web yöneticisinin etkileşimde bulunduğu dahili dosyalar ve hizmet dosyalarını içerir.
4. Arama ve kategori sıralama sayfaları
Bir web sitesi ziyaretçisi sitenin arama kutusuna bir sorgu girdikten sonra görüntülenen sayfalar genellikle arama motoru tarayıcılarına kapatılır. Aynı şey, kullanıcıların ürünleri fiyat, derecelendirme ve diğer kriterlere göre sıralarken elde ettiği sonuçlar için de geçerlidir.
5. Belirli bir formattaki dosyalar
Bu tür dosyalar fotoğrafları, videoları, .PDF belgelerini, JS dosyalarını içerebilir. Robots.txt yardımıyla, tek tek veya uzantıya özgü dosyaların taranmasını kısıtlayabilirsiniz.
Robots.txt Dosyası Nasıl Oluşturulur ve Nereye Yerleştirilir?
1. Robots.txt kurulumu için araçlar
Belgenin bir .txt uzantısı olduğundan, UTF-8 kodlamasını destekleyen herhangi bir metin düzenleyici uygun olacaktır. En kolay seçenek Notepad (Windows) veya TextEdit’tir (Mac).
Ayrıca, belirtilen bilgilere dayanarak bir robots.txt dosyası oluşturacak bir robots.txt oluşturma aracı da kullanabilirsiniz.
2. Belge başlığı ve boyutu
robots.txt dosyasının adı, büyük harf kullanılmadan tam olarak böyle görünmelidir. Google’ye göre, izin verilen belge boyutu 500 KB’dir. Bu sınırın aşılması, arama robotunun belgeyi kısmen işlemesine, web sitesini hiç taramamasına veya tersine, bir web sitesinin içeriğini tamamen taramasına neden olabilir.
3. Dosya nereye yerleştirilir?
Belge, web sitesi ana bilgisayarının kök dizininde bulunmalıdır (FTP yoluyla erişilebilir). Herhangi bir değişiklik yapmadan önce, robots.txt dosyasını orijinal biçiminde indirmeniz önerilir.
Robots.txt Dosyanıza Neler Koymalısınız?
Tamam, artık sunucunuzda gerektiğinde düzenleyebileceğiniz fiziksel bir robots.txt dosyanız var. Ama o dosyayla gerçekte ne yaparsınız? İlk bölümde öğrendiğiniz gibi robots.txt, robotların sitenizle nasıl etkileşim kurduğunu kontrol etmenizi sağlar. Bunu iki temel komutla yaparsınız:
User-agent: Bu, belirli botları hedeflemenizi sağlar. User-agent, botların kendilerini tanımlamak için kullandıkları şeydir. Bunlarla, örneğin Bing için geçerli olan ancak Google için geçerli olmayan bir kural oluşturabilirsiniz.
Disallow: Bu, robotlara sitenizin belirli alanlarına erişmemelerini söylemenizi sağlar.
Niş durumlarda kullanacağınız bir Allow komutu da vardır. Varsayılan olarak, sitenizdeki her şey Allow olarak işaretlenmiştir, bu nedenle genellikle Allow komutunun kullanılması gerekli değildir. Ancak, bir klasöre ve alt klasörlerine erişime izin vermemek, ancak belirli bir alt klasöre erişime izin vermek istediğinizde işe yarar.
İlk olarak kuralın hangi User-agent uygulanması gerektiğini belirleyip ardından Disallow ve Allow seçeneklerini kullanarak hangi kuralların uygulanacağını listeleyerek kurallar eklersiniz. Crawl-delay ve Site Haritası gibi başka komutlar da vardır, ancak bunlar:
Çoğu tarayıcı tarafından yok sayılır veya çok farklı şekillerde yorumlanır (tarama gecikmesi durumunda)
Google Arama Konsolu gibi araçlar tarafından gereksiz hale getirildi (site haritaları için)
Yararlı robots.txt Kuralları
Kural | |
Web sitesinin taranmasını tümüyle reddetme. Bazı durumlarda web sitesindeki URL’lerin, taranmamış olsalar bile yine de dizine eklenebileceklerini unutmayın.Not: Bu kural, bazı AdsBot tarayıcılarıyla eşleşmez. Bu tarayıcıların adlarının açıkça belirtilmesi gerekir. | User-agent: *Disallow: / |
Dizin adından sonra düz eğik çizgi ekleyerek bir dizin ve içeriğin taranmasına izin vermeme. Gizli içeriğe erişimi engellemek için robots.txt dosyasını kullanmamanız gerektiğini unutmayın. Bunun yerine uygun kimlik doğrulama yöntemini kullanın. Robots.txt dosyasıyla taranmasına izin verilmeyen URL’ler, taranmadan dizine eklenebilir ve robots.txt dosyası başkaları tarafından görüntülenerek gizli içeriğinizin yerinin ortaya çıkmasına neden olabilir. | User-agent: *Disallow: /yonetim/Disallow: /izin/ |
Tek bir tarayıcının erişimine izin verme | User-agent: Googlebot-newsAllow: / User-agent: *Disallow: / |
Bir tarayıcı dışında tüm tarayıcıların erişimine izin verme | User-agent: UnnecessarybotDisallow: / User-agent: *Allow: / |
Eğik çizgiden sonra sayfayı listeleyerek tek bir web sayfasının taranmasına izin vermeme. | User-agent: *Disallow: /ozel-dosya.html |
Google Görseller’den belirli bir görseli engelleme: | User-agent: Googlebot-ImageDisallow: /gorsel/urun-12.jpg |
Google Görseller’den sitenizdeki tüm görselleri engelleme | User-agent: Googlebot-ImageDisallow: / |
Belirli türdeki dosyaların taranmasına izin vermeme (örneğin, .gif): | User-agent: GooglebotDisallow: /*.gif$ |
Sitenizin tamamının taranmasına izin vermeme; ancak bu sayfalarda AdSense reklamları gösterme ve Mediapartners-Google dışındaki hiçbir web tarayıcısına izin vermeme. Bu uygulama, sayfalarınızı arama sonuçlarından gizler. Ancak Mediapartners-Google web tarayıcısı, sitenizin ziyaretçilerine hangi reklamların görüntüleneceğine karar vermek üzere sayfaları analiz etmeye devam eder. | User-agent: *Disallow: / User-agent: Mediapartners-GoogleAllow: / |
Belirli bir dize ile biten URL’leri eşleştirme; $ kullanın. Örneğin, bu örnek kod .xls ile biten tüm URL’leri engeller: | User-agent: GooglebotDisallow: /*.xls$ |