AI Botlarını Nasıl Engellersiniz? GPTBot, ClaudeBot ve Diğerleri
AI botlarını (GPTBot, ClaudeBot, CCBot, Bytespider) robots.txt, WAF ve sunucu yapılandırması ile engelleme yöntemlerini adım adım öğrenin.
Yapay zeka modellerinin eğitim verisi toplamak amacıyla web sitelerini taraması, son yıllarda web yöneticileri arasında önemli bir tartışma konusu haline geldi. OpenAI'ın GPTBot'u, Anthropic'in ClaudeBot'u, Common Crawl'un CCBot'u ve ByteDance'in Bytespider'ı gibi botlar, web içeriklerini büyük dil modellerinin (LLM) eğitimi için toplamaktadır. İçerik üreticileri ve site sahipleri olarak bu botları engelleme hakkına sahipsiniz.
Neden AI Botlarını Engellemelisiniz?
AI botlarını engellemenin birkaç geçerli nedeni vardır. Birincisi, telif hakları meselesidir: içeriğinizin izniniz olmadan yapay zeka modellerini eğitmek için kullanılmasını istemeyebilirsiniz. İkincisi, bant genişliği tüketimi; özellikle yoğun tarayan botlar sunucu kaynaklarınızı ciddi şekilde kullanabilir. Üçüncüsü, ticari kaygılar; içeriğiniz AI yanıtlarında doğrudan sunulduğunda sitenize gelen organik trafik düşebilir.
Öte yandan engellemenin dezavantajları da vardır. AI destekli arama sonuçlarında görünmemek, gelecekteki trafik kaynaklarınızı sınırlayabilir. Bu kararı verirken kendi iş modelinizi ve önceliklerinizi değerlendirmeniz önemlidir.
Hangi AI Botları Var?
Şu anda aktif olan başlıca AI botları şunlardır:
GPTBot (OpenAI): ChatGPT ve GPT modellerinin eğitimi için veri toplar. User-agent değeri "GPTBot"dur.
ChatGPT-User (OpenAI): ChatGPT'nin Browse with Bing özelliği için kullanılan bottur. GPTBot'tan farklı bir user-agent kullanır.
ClaudeBot (Anthropic): Claude AI modellerinin eğitimi için veri toplar. User-agent değeri "ClaudeBot"dur.
CCBot (Common Crawl): Açık kaynak bir web arşivi projesidir. Toplanan veriler birçok AI şirketi tarafından model eğitiminde kullanılır.
Bytespider (ByteDance): TikTok'un ana şirketi ByteDance'in AI projeleri için veri toplayan botudur.
Google-Extended: Google'ın Gemini (eski adıyla Bard) AI modeli için veri toplayan botudur.
Meta-ExternalAgent: Meta'nın AI modelleri için içerik toplayan botudur.
Robots.txt ile Engelleme
En yaygın ve basit yöntem robots.txt dosyanızı düzenlemektir:
User-agent: GPTBot Disallow: /
User-agent: ChatGPT-User Disallow: /
User-agent: ClaudeBot Disallow: /
User-agent: CCBot Disallow: /
User-agent: Bytespider Disallow: /
User-agent: Google-Extended Disallow: /
User-agent: Meta-ExternalAgent Disallow: /
Bu yöntem basit ve etkilidir, ancak yalnızca kurallara uyan botlar için geçerlidir. User-agent kimliğini gizleyen veya taklit eden botlar bu kuralları atlayabilir.
WAF (Web Application Firewall) ile Engelleme
Cloudflare, Akamai veya AWS WAF gibi hizmetler kullanıyorsanız, AI bot trafiğini doğrudan güvenlik duvarı seviyesinde engelleyebilirsiniz. Cloudflare, 2024 yılından bu yana tek tıkla AI bot engelleme özelliği sunmaktadır. Bu yöntem robots.txt'den daha güçlüdür çünkü trafik sunucunuza ulaşmadan engellenir.
WAF kurallarında genellikle user-agent başlığına göre filtreleme yapılır. Bilinen AI bot IP aralıklarını da bloklayarak daha katı bir koruma sağlayabilirsiniz.
Sunucu Tarafında Engelleme
Nginx kullanıyorsanız, yapılandırma dosyanıza şu kuralları ekleyebilirsiniz:
if ($http_user_agent ~* "(GPTBot|ClaudeBot|CCBot|Bytespider)") { return 403; }
Apache kullanıyorsanız .htaccess dosyanıza benzer kurallar ekleyebilirsiniz. Bu yöntem, botlara doğrudan 403 (Yasaklanmış) yanıtı döndürür.
Engellemenin Artıları ve Eksileri
Artıları: İçerik kontrolünü elinizde tutarsınız, bant genişliği tasarrufu sağlarsınız ve telif haklarınızı korursunuz.
Eksileri: AI destekli arama sonuçlarında görünürlüğünüzü kaybedebilirsiniz, tüm botları yakalamak zor olabilir ve gelecekte AI entegrasyonlu hizmetlerden dışlanma riski taşırsınız.
En etkili strateji, katmanlı bir yaklaşım benimsemektir: robots.txt ile temel kuralları belirleyin, WAF ile ek koruma sağlayın ve sunucu loglarınızı düzenli olarak inceleyerek yeni botları tespit edin. Böylece içeriğiniz üzerinde maksimum kontrol sağlayabilirsiniz.