你的网站被镜像了?教你如何处理(lǐ)
最近有(yǒu)读者提问,怎么知道自己被镜像了,网站被镜像又(yòu)改怎么处理(lǐ)。今天我们来聊一下。
一、什么是恶意镜像网站?
镜像网站指的是和你的网站基本一样、并且实时同步的其它网站。就像照镜子一样,所以名(míng)為(wèi)镜像。
有(yǒu)的镜像网站是没有(yǒu)恶意的,很(hěn)可(kě)能(néng)是你自己设置的,為(wèi)了方便用(yòng)户能(néng)从多(duō)个域名(míng)访问网站,被封了一个,还有(yǒu)其它的域名(míng)。比如****的草(cǎo)榴社區(qū),好像就有(yǒu)很(hěn)多(duō)镜像可(kě)以访问。有(yǒu)的镜像,也就是这里讨论的镜像,是不怀好意的,通常是别人设置的,要么為(wèi)了负面SEO你的网站,要么為(wèi)了利用(yòng)你的内容获得排名(míng),然后把用(yòng)户转向到敏感、非法内容网站上去。
网上有(yǒu)的文(wén)章把采集和镜像混在一起。虽然表现形式差不多(duō),但严格来说,采集和镜像实现方法、表现形式是有(yǒu)區(qū)别的。
采集的网站一般是提前抓取别人网站的内容,放入自己数据库,再用(yòng)程序调用(yòng)到页(yè)面上。被采集网站有(yǒu)新(xīn)内容时,采集网站并不能(néng)实时同步更新(xīn),要再采集之后才能(néng)出现。一旦被采集,内容已经在对方数据库里了,从技(jì )术上是无法阻止采集网站显示这些内容的。这篇帖子说的不是这种。
镜像网站并不事先抓取内容,而是有(yǒu)人访问网站时,实时从被镜像的网站调取内容,做些处理(lǐ)(替换URL、文(wén)字,加文(wén)字、加JS等),然后实时显示。被镜像的网站有(yǒu)任何更新(xīn),镜像网站是实时同步的。
网上有(yǒu)卖用(yòng)于镜像网站的小(xiǎo)偷程序的。小(xiǎo)偷程序通常也可(kě)以用(yòng)来做采集。為(wèi)了不给他(tā)们做宣传,就不提名(míng)字了。从他(tā)们的官网摘取几条程序功能(néng),有(yǒu)助于理(lǐ)解后面的内容:
(1)、全自动分(fēn)析,内外链接自动转换、图片地址、css、js,自动分(fēn)析CSS内的图片
(2)、内置强大替换和过滤功能(néng),标签过滤、站内外过滤、字符串替换、等等
(3)、伪原创,近义词替换有(yǒu)利于seo
(4)、增加URL路由,实现全站URL变换,个性化本站URL地址
(5)、超级模板增加移动模板、自定义栏目功能(néng)
(6)、增加自动获取301、302重定向的采集,解决跳WWW,跳https采集
(7)、代理(lǐ)IP、伪造IP、随机IP、伪造user-agent、伪造referer来路、自定义cookie,以便应对防采集措施
二、网站被恶意镜像带来的危害
从SEO角度看,权重不高的小(xiǎo)站、新(xīn)站,被镜像意味着有(yǒu)其它网站和你的网站内容基本一样,搜索引擎有(yǒu)可(kě)能(néng)认為(wèi)你的网站不是原版,镜像网站才是,所以把排名(míng)、流量给了镜像网站。
对有(yǒu)一定历史、权重的网站,镜像网站取代原版网站的可(kě)能(néng)性微乎其微。但从心情角度考虑,被别人镜像,内容被别人偷走,即使没有(yǒu)其它明显后果,也还是挺烦人的一件事。另一个烦人的事是,镜像网站一般来说并不是要和你提供同样的产(chǎn)品或服務(wù),而是把用(yòng)户转到赌博、色情等服務(wù)上去。有(yǒu)的是通过JS把赌博、色情内容显示给用(yòng)户,有(yǒu)的直接把用(yòng)户转向到另外的网站上去。
(1)、网站流量明显减少,关键词排名(míng)逐渐降低;
(2)、当网站被镜像后,不及时处理(lǐ),时间一長(cháng)很(hěn)容易被降权,如果再想恢复就要花(huā)更多(duō)的时间与精(jīng)力;
三、怎样发现自己网站是被镜像了
有(yǒu)时候注意到被镜像了是因為(wèi)自己网站排名(míng)下降,怀疑有(yǒu)人负面SEO。有(yǒu)时候是搜索品牌名(míng)称,看到镜像网站。已经知道自己被镜像了好办(bàn),直接看下面怎么处理(lǐ)部分(fēn)。
很(hěn)多(duō)站長(cháng)则完全不知道自己网站是否被镜像了。有(yǒu)几个我常用(yòng)的检查方法。
(1)、是百度统计后台:
受访域名(míng)部分(fēn)列出了使用(yòng)相同百度统计代码的域名(míng)。其中(zhōng)出现快照、百度/谷歌翻译等是正常的,但出现一些奇奇怪怪的域名(míng)就要查看一下了。
(2)、是搜索网站的特征句子。最容易想到的是网站品牌名(míng)称、首页(yè)标题等,确实可(kě)以发现一些镜像网站。但有(yǒu)时品牌名(míng)绝大多(duō)数是会被替换的。
四、网站被镜像了怎么办(bàn)?网站被恶意镜像该怎么处理(lǐ)?
首先,一些在网上提到的解决办(bàn)法其实并没有(yǒu)什么用(yòng)。
比如有(yǒu)的说页(yè)面上的链接用(yòng)****地址有(yǒu)帮助,其实小(xiǎo)偷程序都会自动替换网址,用(yòng)相对地址还是****地址没什么差别。
还有(yǒu)的说页(yè)面上加上网站链接、网站名(míng)称、版权声明之类的,搜索引擎会识别哪个是正版。但镜像小(xiǎo)偷程序连链接带文(wén)字都可(kě)以全部自动替换,这么做并没有(yǒu)用(yòng)。
发现镜像网站后的处理(lǐ)原则就是让镜像网站不能(néng)在镜像域名(míng)上显示你的内容。考虑到镜像网站是要实时访问和调用(yòng)被镜像的页(yè)面的,所以可(kě)以考虑几个方法:
(1)、比如用(yòng)JS检测一下正在被打开的页(yè)面是不是在自己的域名(míng)上,是的话正常显示,不是的话(域名(míng)是镜像网站时)强迫转向到自己域名(míng):
if (window.location.hostname !== 'bj.youhuabaidu.com‘){
window.top.location.href = 'http://bj.youhuabaidu.com/’;
}
(声明:我对程序不熟,代码只是简单举例,具(jù)體(tǐ)怎么写,请问你的程序员。)
不过这种方法只对用(yòng)户有(yǒu)效,搜索引擎不执行JS,还是会抓取到镜像内容。也可(kě)以用(yòng)PHP写脚本判断和转向。
有(yǒu)时候由于种种原因,程序不起作(zuò)用(yòng)。
(2)、另一个直接的方法是屏蔽镜像网站来访问的IP地址。先查一下镜像网站服務(wù)器IP。把对方主机IP先屏蔽了。不过镜像网站来实时抓取用(yòng)的IP大部分(fēn)情况下不是域名(míng)主机IP,可(kě)能(néng)是CDN,可(kě)能(néng)是伪造IP,也可(kě)能(néng)是多(duō)IP的服務(wù)器。要发现必须屏蔽的IP,需要查看网站原始日志(zhì)。我的一个小(xiǎo)窍门是,访问镜像网站上一个很(hěn)少人会访问的页(yè)面,比如翻页(yè)第70页(yè),然后马上查看日志(zhì),这个页(yè)面被访问的IP就是应该屏蔽的IP:
屏蔽了这个IP,再访问镜像网站就变成403错误了:
不知道页(yè)脚的友情链接是镜像网站自己加的?还是卖程序的人强制加的?
镜像网站经常是会伪造或实时轮换IP地址的,如果屏蔽一个IP网站还能(néng)访问,就再访问翻页(yè)69页(yè)、68页(yè)等等,找到更多(duō)IP。屏蔽也可(kě)以屏蔽IP段。我的经验是,通常镜像网站不会使用(yòng)超过10个IP地址。
当然也可(kě)以写个简单的脚本放自己网站上,比如bj.youhuabaidu.com/mirror.php:
echo $_SERVER['REMOTE_ADDR'];
?>
脚本****功能(néng)就是显示访问的IP,然后自己访问一下小(xiǎo)偷镜像网站的脚本网址,页(yè)面上就直接显示镜像网站访问你服務(wù)器时的IP了。如果镜像网站替换了URL,这个方法就不好用(yòng)了。无论怎样,日志(zhì)中(zhōng)是一定有(yǒu)的。
(3)、通过域名(míng)、title即轻松判断為(wèi)镜像的恶劣站群,如果依然在各关键词下获得排名(míng),可(kě)以通过站長(cháng)平台进行反馈:https://ziyuan.baidu.com/feedback/
(4)、无法快速區(qū)分(fēn)真假的站点,需要保护自我权益的站点可(kě)以向百度投诉:https://www.baidu.com/duty/right.html 提供各种资质(zhì)证明,会有(yǒu)百度法務(wù)部的员工(gōng)审核处理(lǐ)。在这里提醒各位站長(cháng),请尽可(kě)能(néng)提供最全最有(yǒu)说服力资质(zhì)证明,包括且不限于网站备案证明、品牌营业证明等,以帮助工(gōng)作(zuò)人员快速判断。
(5)、如果站長(cháng)发现镜像站点同时做恶劣赌博、色情内容,站長(cháng)可(kě)以投诉(http://jubao.baidu.com/jubao/),百度公(gōng)司相关员工(gōng)会进行处理(lǐ)。
总结:处理(lǐ)网站被镜像的方法基本就是这些,如果被镜像的网站站已经死链或者在相关关键词下没有(yǒu)排名(míng),那证明镜像站点已被反作(zuò)弊策略识别并处理(lǐ),被镜像的站長(cháng)也就不用(yòng)担心了。