Misskey 防搜索引擎抓取
之前已经在个人页面上设置了阻止搜索引擎建立索引,今天有其他人提醒通过 tag
也会搜到相关内容。虽然说想要搜索有一百种方法,但我也不想因为关键词扫描被搜索出来。
看了一下 Misskey 的 robots.txt
,是允许搜索引擎搜索任何内容的,想着改一下就好了。先是找到了 robots.txt
的存放路径:Misskey/packages/assets/backend/
,修改了内容,重启容器,无事发生。
又经网友提醒可以直接在 Nginx
增加规则,我就去改了。
Robots协议
Robots协议
是搜索引擎蜘蛛爬行的一种标准,当蜘蛛来访的时候会首先检测网站根目录下是否存在 robots.txt
这个文件。robots.txt
文本文件带有 Robots协议
,该协议告诉所有搜索引擎该网站的哪些页面可以被抓取,哪些页面禁止被抓取。
Robots.txt
robots.txt
的写法:
User-agent: * #对所有搜索引擎生效
Disallow: #不允许抓取
Allow: #允许抓取
Nginx 配置
打开 Misskey 的 Nginx 配置文件,在最后的花括号前加上以下内容:
1location =/robots.txt {
2 default_type text/html;
3 add_header Content-Type "text/plain; charset=UTF-8";
4 return 200 "User-agent: *\nDisallow: /\n";
5}
事后谈
Nginx 生效也要等挺久的样子,这段时候我又想了一下,我的做法有什么意义吗?似乎是没有。
按照Fedi宇宙的逻辑,搜索引擎不会从我的站点抓取帖子,但是可以从别的站点抓取。按理说我们不是要隐藏自己的表达,而是要隐藏我们现实中的身份。
不过做也做了,就留个记录吧。