将本站设为首页
收藏机遇官网,记住:www.jymeet.com
账号:
密码:

机遇书屋:看啥都有、更新最快

机遇书屋:www.jymeet.com

如果你觉得好,恳请收藏

您当前的位置:机遇书屋 -> 此生应无憾 -> 第279章 未雨绸缪

第279章 未雨绸缪

温馨提示:如果本章属于内容错误等情况,请点击下面的按钮发送报告,我们会在一分钟内纠正,谢谢

盛在国内面对的搜索引擎除了自家的寻知,就剩下百度,未来可能会有360搜索引擎,如果自己没来得及彻底剿灭周教主的话。

不论是百度搜索引擎还是360搜素引擎,在陆道升看来都不是什么好鸟,提前防范一下很有必要。

要提供搜索引擎服务,需要解决数据的搜集和数据的组织两个大问题。

其中数据的搜集即指的是使用爬虫来对互联网网站内容进行爬取,搜集到自家的后台中。

数据的组织即如何将爬取下的海量数据进行处理,以使得用户能通过搜索快速获得高相关性的结果。

陆道升要提前做好针对准备的就是百度的数据搜集过程,即通过反爬虫机制来限制百度对嘉盛旗下网站的内容爬取。

这并不是对百度的进攻性策略,而是一种自保的防御手段。

前世曾爆出国内某搜索引擎大量采用快照的形式来承接用户的点击跳转,大量屏蔽了用户对原网站的访问的事件。

快照本来是搜索引擎为了应对一些网络连接或是网站失效等问题,将网站内容缓存在搜索引擎服务器上提供给用户,以保障用户搜索体验的方式。

但是刻意的滥用,就会变成对原网站的剥削吸血,用了你的内容还不给你流量,把流量带来的各类收益(例如业务推广、广告收入等)全部拦截。

也许有人会问,那既然这样,能不能就不让搜索引擎爬取网站内容,这样就没有快照,用户也只能来到网站进行访问。

这么干不是不行,可以采取robots协议实现。

简单来说,在搜索行业里存在一种robots协议,按照协议规范在网站的目录下部署xt文件,告知搜索引擎的爬虫哪些内容不应被爬取。

即便有robots协议,爬虫还是可以爬取网站内容,但是搜索引擎服务却不能将爬取到的内容进行展现,否则就可以直接去法院把搜索引擎公司告得灰头土脸。

但由于在PC互联网时代的中后期,搜索引擎就是最大的互联网流量入口,拥有互联网上最强大的话语权。

中小网站如果拒绝搜索引擎的爬取,其实和自绝于互联网没啥两样。

如果网站的拥有者还希望网站能被人们访问到的话,就只能乖乖接受搜索引擎的爬取,并祈祷搜索引擎公司足够讲道理,不过分使用快照等方式进行截流。

其实robots协议里存在白名单的机制,看上去嘉盛可以只允许自家的搜索引的爬虫


  本章未完,请点击下一页继续阅读!

看了《此生应无憾》的书友还喜欢看

陆逢时
作者:悠然南菊
简介: 一睁眼,顶级风水师陆逢时,成了北宋山沟里声名狼藉的

“陆逢...
更新时间:2026-01-25 06:01:00
最新章节:第419章 主动吸收灵髓
官道危途
作者:任语丁
简介: 李威从部队转到红山县做县委书记的第一天就被人设局,当晚一个女人进了他的房间。
更新时间:2026-01-25 07:21:28
最新章节:第1792章 试探齐磊
资质平平?我靠融合武学卷死全宗
作者:随便都行吧
简介: (武学融合+系统+萌娃捡漏+马甲+猥琐发育)\n胎穿武侠,资质平平?
更新时间:2026-01-25 07:01:41
最新章节:第376章 吓破蛮兵胆!这八百里路是活人禁区
归国神豪之人在八零发展家乡致富
作者:粤瓜
简介: 【年代+系统+爽文+大佬+神豪+夫妻+搞事业+温馨日常】\n带着去世爷爷的遗愿,归国...
更新时间:2026-01-25 07:00:24
最新章节:第238章 不行
十日终焉我成魔
作者:梁灼安
简介: 同学聚会,得知妻子与男闺蜜勾搭成奸,我不能自控……十日豪赌,败光积蓄,遭出轨妻子及她...
更新时间:2026-01-25 07:06:00
最新章节:第八十章 星尘归寂,余念长存
直播鉴宝:开局被绿,觉醒SSS透视眼
作者:云游山海
简介: 【都市+鉴宝+多女主+爽文】林枫本是考古专业毕业,奈何母亲重病,做起鉴宝主播,却在直...
更新时间:2026-01-25 07:08:39
最新章节:第135章 我会成为掀翻棋盘的人