Sıkça Sorulan Sorular
SSS
Web botları, robots.txt, AI crawler'ları ve SEO hakkında en çok sorulan sorular ve detaylı cevaplar.
Genel
Web botu (crawler) nedir?+
Web botu veya crawler, internet üzerindeki web sayfalarını otomatik olarak ziyaret eden ve içeriklerini indeksleyen yazılımlardır. Arama motorları bu botları kullanarak web sayfalarının içeriğini analiz eder ve arama sonuçlarında listelemek üzere veritabanlarına kaydeder. Googlebot, Bingbot ve Yandex Bot en bilinen arama motoru botlarına örnektir. Bu botlar belirli kurallara göre çalışır ve genellikle robots.txt dosyasındaki talimatlara uyarlar. Web botları olmadan arama motorları web sitelerini keşfedip kullanıcılara sunamazdı.
User-Agent nedir?+
User-Agent, bir web tarayıcısının veya botun kendisini tanıtmak için kullandığı kimlik bilgisidir. Her HTTP isteğinde User-Agent başlığı sunucuya gönderilir ve bu sayede sunucu, isteğin hangi yazılımdan geldiğini anlayabilir. Örneğin Googlebot'un User-Agent dizesi 'Googlebot/2.1' şeklindedir. Web sitesi yöneticileri bu bilgiyi kullanarak belirli botları tanıyabilir, erişim izinlerini düzenleyebilir veya farklı içerik sunabilir. robots.txt dosyasında da User-Agent satırları ile hangi botlara hangi kuralların uygulanacağı belirlenir.
Bot trafiği nasıl tespit edilir?+
Bot trafiğini tespit etmenin birçok yolu vardır. Sunucu erişim loglarında User-Agent başlıklarını inceleyerek bilinen bot imzalarını arayabilirsiniz. Google Analytics gibi analitik araçları genellikle bot trafiğini otomatik olarak filtreler, ancak sunucu logları daha doğru sonuç verir. Anormal trafik kalıpları (çok kısa aralıklarla yapılan istekler, tek bir IP'den yoğun trafik) bot aktivitesine işaret edebilir. Ayrıca IP adreslerini ters DNS sorgusu ile doğrulayarak botun gerçek sahipliğini kontrol edebilirsiniz. Cloudflare veya benzeri CDN/WAF hizmetleri de bot trafiğini otomatik olarak sınıflandırır ve raporlar.
Crawl budget nedir ve neden önemlidir?+
Crawl budget (tarama bütçesi), bir arama motoru botunun belirli bir zaman diliminde sitenizde tarayabileceği maksimum sayfa sayısını ifade eder. Google, her site için sunucu kapasitesine ve sitenin önemine göre bir tarama bütçesi belirler. Büyük sitelerde (on binlerce sayfa) tarama bütçesi kritik bir faktör haline gelir, çünkü tüm sayfalar taranamayabilir. Gereksiz sayfaları robots.txt ile engellemek, yinelenen içerikleri canonical etiketleriyle işaretlemek ve site hızını artırmak tarama bütçesinin verimli kullanılmasına yardımcı olur. Küçük siteler (birkaç yüz sayfa) için crawl budget genellikle sorun oluşturmaz.
robots.txt
robots.txt dosyası nedir ve ne işe yarar?+
robots.txt, web sitenizin kök dizininde bulunan ve arama motoru botlarına hangi sayfaları tarayıp hangilerini tarayamayacağını söyleyen bir metin dosyasıdır. Bu dosya Robot Exclusion Protocol (REP) standardına dayanır ve tüm büyük arama motorları tarafından desteklenir. robots.txt dosyası bir güvenlik aracı değildir; yalnızca iyi niyetli botlara yol gösterir. Kötü niyetli botlar bu dosyadaki kuralları görmezden gelebilir. Dosya her zaman sitenin kök dizininde (örneğin sitebotlari.com/robots.txt) bulunmalıdır ve düz metin formatında yazılmalıdır.
robots.txt dosyası nasıl oluşturulur?+
robots.txt dosyası basit bir metin editörü ile oluşturulabilir. Dosya, User-agent ve Disallow/Allow direktiflerinden oluşur. Örneğin tüm botlara /admin klasörünü yasaklamak için 'User-agent: *' ve 'Disallow: /admin/' satırlarını yazmanız yeterlidir. Dosyayı sitenizin kök dizinine yüklemeniz gerekir. Birden fazla bot için ayrı kurallar tanımlayabilir ve Sitemap direktifi ile site haritanızın konumunu belirtebilirsiniz. SiteBotları'nın ücretsiz Robots.txt Generator aracını kullanarak bu dosyayı kolayca oluşturabilirsiniz.
meta robots etiketi nedir?+
meta robots etiketi, HTML sayfasının head bölümüne eklenen ve arama motoru botlarına sayfa düzeyinde direktifler veren bir meta etikettir. robots.txt dosyasından farklı olarak sayfa bazında kontrol sağlar. En yaygın değerleri 'noindex' (sayfayı indeksleme), 'nofollow' (sayfadaki bağlantıları takip etme), 'noarchive' (önbellek kaydetme) ve 'nosnippet' (arama sonuçlarında metin parçası gösterme) şeklindedir. Birden fazla değer virgülle birleştirilebilir. X-Robots-Tag HTTP başlığı ile de aynı direktifler verilebilir ve bu yöntem PDF, resim gibi HTML olmayan dosyalar için kullanışlıdır.
Sitemap ve robots.txt arasındaki fark nedir?+
robots.txt ve sitemap birbirini tamamlayan ancak farklı işlevlere sahip dosyalardır. robots.txt botlara hangi sayfaları taramaması gerektiğini söylerken, sitemap (site haritası) botlara sitenizde hangi sayfaların bulunduğunu ve hangilerinin öncelikli olduğunu bildirir. Sitemap XML formatında yazılır ve sayfaların URL'lerini, son değiştirilme tarihlerini ve öncelik bilgilerini içerir. robots.txt dosyasına Sitemap direktifi ekleyerek site haritanızın konumunu botlara bildirebilirsiniz. İkisini birlikte kullanmak, arama motorlarının sitenizi daha verimli taramasına yardımcı olur.
AI Botları
AI botları (GPTBot, ClaudeBot) nedir?+
AI botları, yapay zeka şirketlerinin web içeriklerini toplamak için kullandığı özel tarayıcılardır. GPTBot OpenAI tarafından ChatGPT ve diğer modellerin eğitimi için kullanılırken, ClaudeBot Anthropic'in Claude modeli için veri toplar. Google-Extended ise Google'ın Gemini modeli için içerik tarar. Bu botlar geleneksel arama motoru botlarından farklı olarak içerikleri yapay zeka modellerinin eğitim verisi olarak kullanmak amacıyla toplar. Her birinin kendine özgü User-Agent dizesi vardır ve robots.txt üzerinden kontrol edilebilirler.
AI botlarını neden engellemeliyim?+
AI botlarını engellemenin birkaç önemli nedeni olabilir. Birincisi, içerik haklarınızı korumak isteyebilirsiniz; ürettiğiniz özgün içeriklerin yapay zeka modeli eğitiminde ücretsiz kullanılmasını istemeyebilirsiniz. İkincisi, AI botları sunucunuzda ek yük oluşturabilir ve crawl budget'ınızı tüketebilir. Üçüncüsü, yapay zeka modelleri içeriğinizi kullanarak sizinle rekabet eden çıktılar üretebilir, bu da organik trafiğinizi azaltabilir. Ancak engelleme kararı sitenizin amacına ve iş modelinize bağlıdır; bazı siteler AI botlarına açık olmayı tercih edebilir.
robots.txt ile AI botları nasıl engellenir?+
AI botlarını robots.txt ile engellemek oldukça basittir. Her AI botu için ayrı bir User-agent bloğu oluşturmanız gerekir. Örneğin GPTBot'u engellemek için 'User-agent: GPTBot' ve 'Disallow: /' satırlarını eklersiniz. ClaudeBot için 'User-agent: ClaudeBot' ve 'Disallow: /' yazarsınız. Google-Extended, CCBot, Bytespider gibi diğer AI botları da aynı yöntemle engellenebilir. Tüm bilinen AI botlarını tek seferde engellemek için SiteBotları'nın Robots.txt Generator aracını kullanabilirsiniz. Unutmayın ki robots.txt bir öneri niteliğindedir ve kötü niyetli botlar bu kuralları görmezden gelebilir.
SEO ve Botlar
Googlebot nedir ve nasıl çalışır?+
Googlebot, Google'ın web sayfalarını tarayarak dizinine ekleyen resmi botudur. İki ana versiyonu vardır: Googlebot Desktop ve Googlebot Smartphone. Günümüzde Google, mobil öncelikli indeksleme (mobile-first indexing) politikası gereği öncelikli olarak mobil versiyonu kullanır. Googlebot bir sayfayı ziyaret ettiğinde HTML içeriğini indirir, JavaScript'i çalıştırır, sayfadaki bağlantıları keşfeder ve bu bilgileri Google'ın indeksleme sistemine gönderir. Googlebot'un davranışını robots.txt, meta robots etiketleri ve Google Search Console üzerinden kontrol edebilirsiniz.
AI botlarını engellemek SEO'yu etkiler mi?+
AI botlarını engellemek genel olarak SEO performansınızı doğrudan etkilemez, çünkü GPTBot, ClaudeBot gibi AI botları arama motoru indeksleme sürecinde rol oynamaz. Google'ın arama sonuçlarındaki sıralamanız Googlebot tarafından belirlenir ve AI botlarının engellenmesinden bağımsızdır. Ancak Google-Extended'ı engellerseniz bu sadece Gemini AI eğitimini etkiler, Google aramasını etkilemez. Dikkat edilmesi gereken nokta, Googlebot veya Bingbot gibi arama motoru botlarını yanlışlıkla engellememenizdir. robots.txt kurallarınızı dikkatlice yazarak sadece AI botlarını hedef alabilirsiniz.
SEO botlarını engellemeli miyim?+
Googlebot, Bingbot veya Yandex Bot gibi arama motoru botlarını engellemek genellikle önerilmez, çünkü bu botlar sitenizin arama sonuçlarında görünmesi için gereklidir. Bu botları engellerseniz siteniz ilgili arama motorunun dizininden çıkarılır ve organik trafiğinizi kaybedersiniz. Ancak bazı özel durumlar vardır: hazırlık aşamasındaki sayfaları, yönetim panellerini veya özel içerikleri engellemek mantıklı olabilir. Ayrıca SemrushBot, AhrefsBot gibi SEO analiz araçlarının botlarını engellemek isteyebilirsiniz; bu durum arama motoru sıralamalarınızı etkilemez ancak rakiplerinizin site analizinizi görmesini zorlaştırır.
WAF ile bot engelleme nasıl yapılır?+
WAF (Web Application Firewall), web uygulamalarını kötü niyetli trafikten koruyan bir güvenlik katmanıdır. Cloudflare, AWS WAF veya Sucuri gibi WAF hizmetleri gelişmiş bot yönetimi özellikleri sunar. WAF ile botları User-Agent, IP adresi, istek sıklığı ve davranış kalıplarına göre engelleyebilirsiniz. robots.txt'den farklı olarak WAF zorlayıcıdır; kurallara uymayan botların erişimi sunucu düzeyinde kesilir. Rate limiting (istek sınırlama) ile belirli bir IP'den gelen aşırı istekleri otomatik olarak engelleyebilirsiniz. Cloudflare'in Bot Management özelliği makine öğrenimi kullanarak iyi ve kötü botları otomatik olarak ayırt edebilir.