GPT-4、ChatGPT 等強(qiáng)大模型能即時智能回答，AI 爬蟲卻在肆意抓取威脅原創(chuàng)內(nèi)容價值

2024-8-31

新用戶專享：「香港/美國云服務(wù)器」新購6折低至9元/月！點(diǎn)擊查看活動介紹>>>

好嘛,AI爬蟲就像隱形殺手，悄悄鉆進(jìn)我們的網(wǎng)站偷走東西。日以繼夜、疲勞算什么，就為了給大牛的AI模型做培訓(xùn)資料。你會樂意這樣？我說不會吧!今天咱們來聊聊，作為站長,咋樣保護(hù)自己的原創(chuàng)內(nèi)容，別讓它們變成AI的盤中餐。

AI爬蟲的威脅

首先，咱們得知道，AI爬蟲真叫人頭疼。它會讓我們辛辛苦苦做出來的東西變得一文不值，甚至影響到我們的收入。想想看，要是人家想了解什么都直接找AI就能搞定，那誰還愿意來你這兒？這不就是在糟蹋我們的心血和原創(chuàng)精神嗎？

何況，這幫AI爬蟲的行蹤還不太明朗。有的公司會大方承認(rèn)自己的爬蟲，但還有些公司卻悶聲不響，像賊似的悄悄收集我們的信息。這種行為就像藏在黑暗里的鬼祟之手，讓人大吃一驚！

保護(hù)措施之一：robots.txt

咋整？那咱們就來對付這些不打招呼就上門的'朋友們'！最常用的方法之一就是讓robots.txt出馬。這個小文件能告訴爬蟲啥東西能抓，啥不能碰。只要設(shè)定好規(guī)矩，就能把那些討厭的爬蟲擋在門外了。

但光靠robots.txt是遠(yuǎn)遠(yuǎn)不夠的，有些爬蟲就是不怕你的規(guī)矩，照樣偷你家東西。所以咱們得用點(diǎn)兒狠招兒，比如說Cloudflare的自動WAF規(guī)則，這樣才能讓咱們的防護(hù)更給力！

GPT-4、ChatGPT 等強(qiáng)大模型能即時智能回答，AI 爬蟲卻在肆意抓取威脅原創(chuàng)內(nèi)容價值插圖

CloudFlare的自動化WAF規(guī)則

用上Cloudflare的自動WAF規(guī)則，網(wǎng)站安全性猛增！有了這些規(guī)則，黑客們的爬蟲都無處可藏！就是這么簡單，像給網(wǎng)站加了個圍墻，不讓壞心眼兒的爬蟲隨便進(jìn)來。

還有，用Cloudflare那個自動化WAF規(guī)則的超贊之處在于，它能夠科技升級，時刻準(zhǔn)備著應(yīng)對那些翻天覆地的爬蟲行為！所以不管是什么時候，我們都不用再緊張兮兮的監(jiān)視自己的網(wǎng)站，就不怕突然冒出啥新爬蟲了。

AI爬蟲的現(xiàn)狀與未來

User-agent: Baiduspider
Allow: / 
User-agent: Mediapartners-Google
Allow: /
User-agent: Google-Display-Ads-Bot
Allow: /
User-agent: Googlebot
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Sogou
Allow: /
User-agent: DotBot
Disallow: /
User-agent: DataForSeoBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: Feedly
Disallow: /
User-agent: YandexBot
Disallow: /
User-agent: ias-ir
Disallow: /
User-agent: adsbot
Disallow: /
User-agent: barkrowler
Disallow: /
User-agent: Mail.RU_Bot
Disallow: /
User-agent: SEOkicks
Disallow: /
User-agent: ias-va
Disallow: /
User-agent: proximic
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: grapeshot
Disallow: /
User-agent: BLEXBot
Disallow: /
#禁止 AI 爬蟲
User-agent: Bytespider
Disallow: /
User-agent: Amazonbot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: ImagesiftBot
Disallow: /
User-agent: GoogleOther
Disallow: /
User-agent: Applebot
Disallow: /
User-agent: GPTBot
Disallow: /
User-agent: DataForSeoBot
Disallow: /
User-agent: peer39 crawler
Disallow: /
User-agent: FriendlyCrawler
Disallow: /
User-agent: magpie-crawler
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: omgili
Disallow: /
User-agent: Meltwater
Disallow: /
User-agent: AwarioSmartBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: img2dataset
Disallow: /
User-agent: YouBot
Disallow: /
User-agent: PipiBot
Disallow: /
User-agent: Seekr
Disallow: /
User-agent: scoop.it
Disallow: /
User-agent: AwarioRssBot
Disallow: /
User-agent: Diffbot
Disallow: /
User-agent: Claude-Web
Disallow: /
User-agent: FacebookBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: *
Allow: /robots.txt
Allow: /ads.txt
Allow: /*.ico$
Aloow: /*.webp$
Allow: /*.png$
Allow: /*.jpg$
Allow: /*.jpeg$
Allow: /*.gif$
Allow: /*.bmp$
Allow: /wp-admin/admin-ajax.php
Allow: /timthumb/
Allow: /wp-content/uploads/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /cdn-cgi/
Disallow: /*?replytocom=*
Disallow: /?s=*
Disallow: /redirect*
Sitemap: https://www.imydl.com/wp-sitemap.xml

盡管已經(jīng)有些應(yīng)對方法了，但是AI爬蟲的問題可不會就這么過去了。因?yàn)榭萍荚谶M(jìn)步，它們也會變得越發(fā)精明，防不勝防。所以，我們得時刻警覺著，升級保護(hù)自己的招數(shù)。

GPT-4、ChatGPT 等強(qiáng)大模型能即時智能回答，AI 爬蟲卻在肆意抓取威脅原創(chuàng)內(nèi)容價值插圖1

好消息是，我們得拉攏更多網(wǎng)站管理員一起搞防抄襲大戰(zhàn)了。只要大家齊心協(xié)力，就能給肆無忌憚爬我們網(wǎng)頁的人工智能制裁。

站長的選擇：允許還是拒絕？

總的來說，做網(wǎng)站的人得面對這個抉擇：讓人工智能訪問我們的內(nèi)容，還是強(qiáng)烈反對？我的看法很簡單：就是不能讓他們隨便摸我們的東西！我們辛辛苦苦寫出來的原創(chuàng)內(nèi)容，可不能就這么被別人拿走了。

而且，要是我們不管不顧，那些爬蟲亂扒來扒去的話，咱們的網(wǎng)站可就沒啥吸引力了。那用戶就不愿上來看了，廣告費(fèi)肯定也少很多。這可不只是我們自己吃虧還影響了整個互聯(lián)網(wǎng)環(huán)境。

GPT-4、ChatGPT 等強(qiáng)大模型能即時智能回答，AI 爬蟲卻在肆意抓取威脅原創(chuàng)內(nèi)容價值插圖2

結(jié)語：保衛(wèi)原創(chuàng)，從我做起

總的來說，AI爬蟲這個問題得重視起來。當(dāng)網(wǎng)站管理員，我們當(dāng)然要保護(hù)好自己的原創(chuàng)內(nèi)容，不能讓它變成AI的“盤中餐”。用一個robots.txt文件，再加上Cloudflare的自動WAF規(guī)則，就能有效防止那些討厭的爬蟲了。

GPT-4、ChatGPT 等強(qiáng)大模型能即時智能回答，AI 爬蟲卻在肆意抓取威脅原創(chuàng)內(nèi)容價值插圖3