Googlebot IP Doğrulama: Sahte Bot Trafiğini Tespit Etme
Googlebot olarak görünen sahte botları tespit etmek için ters DNS doğrulama, Google'ın resmi IP aralıkları ve sunucu logu analiz yöntemlerini öğrenin.
Sunucu loglarınızda Googlebot user-agent'ı ile gelen isteklerin tamamının gerçekten Google'a ait olduğunu düşünüyor musunuz? Gerçek şu ki, web trafiğinin önemli bir bölümü kendini Googlebot olarak tanıtan sahte botlardan oluşmaktadır. Bu sahte botlar, güvenlik açıklarını taramak, içerik çalmak veya sunucunuza yük bindirmek amacıyla Googlebot kimliğine bürünür. Gerçek Googlebot trafiğini sahte olanlardan ayırt etmek, hem güvenlik hem de doğru trafik analizi için kritik öneme sahiptir.
Neden Googlebot Doğrulaması Yapmalısınız?
Sahte Googlebot trafiği birçok sorun yaratabilir. Sunucu kaynaklarınızı gereksiz yere tüketebilir, güvenlik açıklarını tarayarak saldırı vektörü oluşturabilir ve analiz verilerinizi yanıltabilir. Ayrıca sahte botlar, crawl budget'ınızı (tarama bütçenizi) olumsuz etkileyerek gerçek Googlebot'un sitenizi verimli taramasını engelleyebilir. Google'ın kendisi de web yöneticilerine bot trafiğini doğrulamalarını önerir.
Ters DNS (Reverse DNS) Doğrulama Yöntemi
Google'ın resmi olarak önerdiği doğrulama yöntemi ters DNS sorgusudur. Bu yöntem iki adımdan oluşur:
Adım 1: İstek yapan IP adresine ters DNS sorgusu yapın. Linux veya macOS terminalinde şu komutu kullanabilirsiniz:
host 66.249.66.1
Bu komut size IP adresinin ait olduğu alan adını gösterecektir. Gerçek Googlebot IP'leri "googlebot.com" veya "google.com" ile biten bir hostname döndürür, örneğin: crawl-66-249-66-1.googlebot.com
Adım 2: Dönen hostname'e ileri DNS sorgusu yaparak IP adresinin doğruluğunu teyit edin:
host crawl-66-249-66-1.googlebot.com
Eğer dönen IP adresi, orijinal istekteki IP ile eşleşiyorsa, bu isteğin gerçek Googlebot'tan geldiğini doğrulamış olursunuz. Bu iki adımlı doğrulama, DNS spoofing saldırılarına karşı da koruma sağlar.
Google'ın Resmi IP Aralıkları
Google, Googlebot'un kullandığı IP aralıklarını herkese açık JSON dosyaları ile yayınlamaktadır. Bu dosyalara şu adreslerden ulaşabilirsiniz:
Googlebot IP aralıkları: https://developers.google.com/search/apis/ipranges/googlebot.json
Genel Google IP aralıkları: https://www.gstatic.com/ipranges/goog.json
Bu JSON dosyaları, IPv4 ve IPv6 CIDR bloklarını içerir. Sunucu yapılandırmanızda bu IP aralıklarını beyaz listeye (allowlist) ekleyerek yalnızca gerçek Google botlarına erişim izni verebilirsiniz. Ancak Google bu IP aralıklarını zaman zaman güncellediğinden, listeyi düzenli olarak yenilemeniz önemlidir.
Sunucu Loglarını Analiz Etme
Googlebot doğrulamasını sunucu logları üzerinden sistematik olarak yapabilirsiniz. Apache veya Nginx access loglarında Googlebot user-agent'ı içeren satırları filtreleyin:
Bu satırlardaki IP adreslerini çıkarın ve toplu olarak ters DNS sorgusuna tabi tutun. Googlebot.com veya google.com ile bitmeyen hostname döndüren IP'ler sahte bot trafiğidir.
Log analizi sırasında dikkat etmeniz gereken diğer işaretler şunlardır: Gerçek Googlebot genellikle HTTP/1.1 veya HTTP/2 kullanır. İstek sıklığı makul düzeydedir; saniyede yüzlerce istek yapan bir "Googlebot" büyük olasılıkla sahtedir. Ayrıca gerçek Googlebot, robots.txt dosyanıza saygı gösterir.
Otomatik Doğrulama Yöntemleri
Manuel doğrulama küçük siteler için uygun olsa da, yüksek trafikli siteler için otomatik çözümler gerekir. Bunu sağlamanın birkaç yolu vardır:
Fail2ban kuralları: Sahte Googlebot trafiğini tespit edip IP'leri otomatik olarak engelleyen kurallar yazabilirsiniz.
Özel script'ler: Python veya Bash ile yazılmış script'ler, log dosyalarını periyodik olarak tarayarak sahte botları tespit edebilir ve güvenlik duvarı kurallarına ekleyebilir.
WAF kuralları: Cloudflare veya benzeri WAF hizmetlerinde, bilinen Google IP aralıkları dışından gelen Googlebot user-agent'lı istekleri engelleyen kurallar oluşturabilirsiniz.
CDN düzeyinde doğrulama: Cloudflare gibi CDN sağlayıcıları, "Verified Bot" özelliği ile bilinen botları otomatik olarak doğrulama imkanı sunar. Bu özellik aktif edildiğinde, sahte botlar otomatik olarak engellenir veya captcha sayfasına yönlendirilir.
Sonuç olarak Googlebot doğrulaması, web güvenliği ve SEO stratejiniz için ihmal edilmemesi gereken bir adımdır. Ters DNS yöntemi, Google'ın resmi IP aralıkları ve düzenli log analizi kombinasyonu ile sahte bot trafiğini etkili bir şekilde tespit edip engelleyebilirsiniz. Sunucu kaynaklarınızı korumak ve analiz verilerinizin doğruluğunu sağlamak için bu doğrulama sürecini otomatikleştirmeniz önerilir.