CCBot
Common Crawl projesi tarafından kullanılan açık web tarayıcısı. Birçok AI modelinin eğitim verisinin kaynağıdır.
User-Agent
CCBotIP Aralığı
Resmi dokümantasyon üzerinden doğrulanmalı.
İlk Görülme
2011yılından bu yana aktif
Tarama Sıklığı
Periyodik — aylık büyük ölçekli taramalar
Ne yapar?
Web'in büyük bir bölümünü tarayarak açık veri seti oluşturur.
Detaylı Bilgi
CCBot, Common Crawl vakfı tarafından işletilen ve web'in kapsamlı bir arşivini oluşturmak amacıyla çalışan açık kaynaklı bir web tarayıcısıdır. 2011 yılından bu yana aktif olan Common Crawl projesi, internet'in büyük bir bölümünü düzenli olarak tarayarak petabaytlarca veriyi ücretsiz ve açık erişimli olarak sunmaktadır. Bu veri seti, akademik araştırmalardan yapay zeka model eğitimine kadar geniş bir alanda kullanılır.
CCBot'un topladığı veriler, GPT, LLaMA, BLOOM ve diğer büyük dil modellerinin eğitim verilerinin temelini oluşturur. Bu nedenle CCBot'u engellemek, birçok farklı AI projesinin eğitim verilerine erişimini dolaylı olarak kısıtlar. Common Crawl veri seti, her ay güncellenen ve milyarlarca web sayfasını içeren devasa bir arşivdir.
CCBot, taramalarını genellikle aylık periyotlarla gerçekleştirir ve her tarama döneminde milyarlarca URL'yi ziyaret eder. Bot, robots.txt kurallarına saygı gösterir ve engellendiğinde sitenizi taramaz. Tarama sırasında sunucu yükünü dengeli tutmak için hız sınırlandırması uygular.
Common Crawl vakfı, kâr amacı gütmeyen bir kuruluş olarak şeffaf bir şekilde çalışır. Toplanan veriler Amazon S3 üzerinde ücretsiz olarak erişime sunulur. Araştırmacılar, gazeteciler ve geliştiriciler bu veri setini web analizi, dil araştırmaları ve veri madenciliği gibi amaçlarla kullanır. İçerik üreticiler, CCBot'u engelleme kararı alırken verilerinin hangi projelerde kullanılabileceğini göz önünde bulundurmalıdır.
Engellemeli miyim?
CCBot'un topladığı veriler birçok AI modelinin eğitiminde kullanılır. İçeriklerinizin açık veri setlerinde yer almasını istemiyorsanız engelleyin. Ancak CCBot engellemek, dolaylı olarak birçok AI projesini etkiler.
Nasıl engellenir?
- robots.txt
Robots.txt örneği
User-agent: CCBot Disallow: /