Google’ın ana amacı kullanıcıya aradığı bilgiyi en iyi şekilde sunmaktır. Herhangi bir konu ile ilgili internette milyarlarca sayfa olduğundan Googlebot bu sayfaları her saniye tarayamaz. Dolayısıyla Google her websitesi için bir tarama bütçesi yani crawl budget ayırır.
Google’ın taraması gereken url sayısı arttıkça altyapısında iyileştirmeler yapması gerekir. Bu iyileştirmelerin hepsi bir bütçe gerektirdiği için, tarama bütçesi kavramı aslında buradan gelir. Websitenizin bu bütçeden aldığı pay ise tarama bütçesi olarak adlandırılır.
Tarama bütçeniz bir bakıma Googlebot’un websitenizde tarayabileceği veya taramayı tercih edeceği url’lerin sayısı olarak tanımlanabilmekle birlikte tam olarak anlayabilmek için göz atmamız gereken iki önemli kavram vardır: tarama hızı sınırı ve tarama talebi
Tarama hızı sınırı: Tarama hızı yani crawl rate, tarama esnasında Googlebot’un sitenize saniyede kaç istek gönderdiğidir. Tarama hızı iki faktöre bağlı olarak değişir:
Crawl health: Siteniz tarama isteklerine hızlı bir şekilde yanıt verirse, taranan bağlantı sayısı artar ancak sitenizin yanıt verme süresi uzar veya sunucunuzda bir hata meydana gelirse bu sınır düşer, Googlebot da bu durumda daha az sayıda sayfa tarar. Aynı durum toplam dosya boyutu, yani Googlebot’un bir sayfayı indirip işlemesi için geçen süre için de geçerlidir.
Google Search Console’da belirlenen sınır: Eğer isterseniz Search console üzerinden arama botlarının sayfanızı taramasını azaltabilirsiniz. Ayarladığınız yüksek limitler ise otomatik olarak taranmayı arttırır.
Tarama hızı limiti temelde Google’ın web sitenizi çok fazla tarayarak, sitenizi yavaşlatmak istememesi ve kullanıcı deneyimini düşünmesinden gelir. Googlebot’un çok fazla istek yapması sitenizi yavaşlatabilir. Tarama hızı limiti bunu önler.
Tarama talebi(Crawl demand): Websiteniz tarama hızı sınırına ulaşmadıysa bile siteniz popüler, sık güncellenen bir site değilse Googlebot’un sitenizi tarama süresi azalabilir. Google’a göre popüler ve taze içerik daha yüksek taranma talebine sahiptir.
Yani Google tarama bütçesini, tarama oranı limiti ve tarama talebini birlikte alarak tarayabileceği Url sayısı olarak tanımlar.
Tarama Bütçesi Nasıl Hesaplanır?
Tarama bütçesini belirli sayısal değerlerle veya formüllerle ifade edemeyiz ancak Googlebot’un siteyi ziyaretine dayanan verilere buradan ulaşabilir, bu veriler üzerinden çıkarımlar yapabilirsiniz. Tarama bütçemizi verimli kullanarak sayfalarımızın daha sık taranmasını ve dizine eklenmesini sağlayabiliriz.
Tarama Bütçesini Etkileyen Faktörler Nelerdir?
Google Dizinine Eklenen Toplam Sayfa Sayısı
Googlebot düzenli olarak sitenizi ziyaret eder. Öncelikli olarak site haritanızı ve indekslenmiş dosyalarınızı inceler, bunun sonucunda yeni eklenmiş sayfalarınız varsa bunu dizinine ekler ve arama sonuçlarında gösterir. İndekslenen sayfalarınız belli aralıklarla Googlebot tarafından tekrar tekrar ziyaret edilir ve varsa değişiklikler indekse işlenir.
Dosya Boyutu ve Site Hızı
Sitenizin hızı hem kullanıcı deneyimi hem de Googlebot için oldukça önemli bir faktördür. Sayfalar ne kadar hızlı yükleniyorsa Googlebot sayfanızı o kadar hızlı tarayacaktır, böylece botların daha fazla sayfanızı ziyaret etmek için vakti olur. Buradaki bir diğer önemli faktör ise sitenizde yer alan dosyaların boyutudur. Html, görsel, css ve javascript dosyalarınız ne kadar büyükse Googlebot’un tarama için ayırması gereken süre o kadar artar. Yani site hızınız düşük ayrıca dosyalarınızın boyutu büyükse Googlebot’un harcaması gereken süre artacağından sitenizi ziyaret sıklığı azalabilir.
Yönlendirmeler
Googlebot çok sayıda yapılmış yönlendirmeler ile karşılaştığında URL’leri takip etmeyi bırakabilir, çünkü bot ne kadar fazla yönlendirme ile karşılaşırsa o kadar boşa zaman ve kaynak harcayacaktır. Yönlendirmeler mümkün olduğunca minimize edilmelidir. Buradaki en önemli nokta Googlebot’un gittiği sayfada yönlenen link bulunmaması veya linkin 404 kodu veren sayfalara verilmemesidir. 404 sayfalara verilen linkler de botu gereksiz yere meşgul edeceğinden bundan kaçınılmalıdır.
İçerik Optimizasyonu
İçeriklerinizin kaliteli ve özgün olması tarama bütçesini etkileyen önemli faktörlerdendir. Websitenizde yer alan duplicate yani yinelenen içerikler tarama bütçesine zarar verebilir. Eğer websitenizde birden fazla sayfada aynı içerik yer alıyorsa Google aynı içeriği tarayarak kaynaklarını israf etmek istemez. Eğer kaçınılamayan duplicate sayfalar varsa bu sayfaların canonical etiketleri asıl versiyonlarına verilmeli ve bu sayfalara verilen linkler mümkün olduğunca nofollow olarak verilmelidir.
Soft 404 Hatası Veren Sayfalar
Soft 404 hatası 404 hatalarının bir alt kategorisidir diyebiliriz. Kullanıcı siteye giriş yapmak istediğinde sunucuya bir talep gönderilir, eğer standart bir 404 sayfa bulunamadı hatası var ise sunucudan 404 durum kodu gönderilir. Ancak soft 404 hatalarında daha farklı bir durum yaşanır. Kullanıcı sayfaya gelir, 404 sayfasıyla karşılaşır ancak sunucudan gelen kod 200, yani “Sayfa Başarıyla Yüklendi”kodudur. Soft 404 durum kodlu sayfalar boş yere botu meşgul ettiği için tarama bütçenizi etkileyebilir. Bu hataları Google Search Console üzerinden kontrol edebilirsiniz.
URL Parametreleri
Url parametreleri ile url’lerin bir tıklamaya ait bilgilerini izleyebilirsiniz. Url parametreleri genellikle sitede yer alan aynı veya benzer içeriğe sahip sayfanın farklı varyasyonlarını oluşturmak için kullanılır.
Birinci parametre soru işaretinden(?) sonra gelir ve eşittir(=) işaretinden sonra bu parametrenin değeri yazılır. Diğer parametre-değer çiftleri de aynı şekilde yazılır ve bunlar birbirinden ve(&) işaretiyle ayrılır.
Kaynak: https://www.searchenginejournal.com/technical-seo/url-parameter-handling/
Google “Fazlasıyla karışık URL’ler, özellikle birden çok parametre içerenler, sitenizdeki özdeş veya benzer içeriğe götüren çok sayıda URL oluşturarak tarayıcılar açısından sorun yaratabilir. Bunun sonucunda, Googlebot gerekenin çok üstünde bant genişliği kullanabilir veya sitenizdeki içeriğin tamamını dizine eklemeyebilir” der. Yani, gereksiz parametre sayfalarını taramak tarama bütçenizi doldurabilir veya parametre kullanılan sayfalardaki içeriklerde duplicate yani yinelenen içerik durumu varsa Googlebot bu sayfaları tarayarak zamanını ve kaynaklarını boşa harcamak istemeyebilir.
Böyle bir durumun önüne geçmek için Google Search Console’dan yinelenen sayfaların taranmasını engelleyebilirsiniz.
Ancak Google Url Parametreleri aracının sadece sitenin gerekli şartların hepsini karşıladığı durumlarda kullanılması gerektiğini söyler. Yani sitenizde 1.000’den fazla sayfa varsa ve önemli sayıda yinelenen sayfanın Googlebot tarafından dizine eklendiğini ve yinelenen sayfalarda yalnızca URL parametrelerinin değiştiğini görüyorsanız bu aracı kullanmalısınız. (Kaynak: https://support.google.com/webmasters/answer/6080548?hl=tr )
Robots.txt ve Sitemap Dosyaları
Robots.txt dosyası arama motoru botlarına sitenizde hangi sayfaları tarayabileceğini söyleyen bir dosyadır. Arama motoru botları sitenize geldiğinde ilk olarak robots.txt dosyasını ziyaret eder.Robots.txt dosyasına yazılacak komutlarla Googlebot’un istenmeyen sayfaları taramasının önüne geçip tarama bütçenizden tasarruf edebilirsiniz. Ayrıca Robots.txt dosyası içinde bulunması gereken sitemap’iniz yani site haritanız arama motoru botları için bir navigasyon görevi görür, hangi sayfaların sizin için önemli olduğunu arama motoru botlarına söyler. Sitemap ile Googlebot’un iç bağlantıların nereye gittiğini anlaması çok daha kolay ve hızlı olacaktır.
Kaynak:
https://webmasters.googleblog.com/2017/01/what-crawl-budget-means-for-googlebot.html