Misskey 防搜索引擎抓取

2 minute read

之前已经在个人页面上设置了阻止搜索引擎建立索引,今天有其他人提醒通过 tag 也会搜到相关内容。虽然说想要搜索有一百种方法,但我也不想因为关键词扫描被搜索出来。

看了一下 Misskey 的 robots.txt,是允许搜索引擎搜索任何内容的,想着改一下就好了。先是找到了 robots.txt 的存放路径:Misskey/packages/assets/backend/,修改了内容,重启容器,无事发生。

又经网友提醒可以直接在 Nginx 增加规则,我就去改了。

Robots协议

Robots协议 是搜索引擎蜘蛛爬行的一种标准,当蜘蛛来访的时候会首先检测网站根目录下是否存在 robots.txt 这个文件。robots.txt 文本文件带有 Robots协议,该协议告诉所有搜索引擎该网站的哪些页面可以被抓取,哪些页面禁止被抓取。

Robots.txt

robots.txt 的写法:

User-agent: * #对所有搜索引擎生效
Disallow: #不允许抓取
Allow: #允许抓取

Nginx 配置

打开 Misskey 的 Nginx 配置文件,在最后的花括号前加上以下内容:

1location =/robots.txt {
2    default_type text/html;
3    add_header Content-Type "text/plain; charset=UTF-8";
4    return 200 "User-agent: *\nDisallow: /\n";
5}

事后谈

Nginx 生效也要等挺久的样子,这段时候我又想了一下,我的做法有什么意义吗?似乎是没有。

按照Fedi宇宙的逻辑,搜索引擎不会从我的站点抓取帖子,但是可以从别的站点抓取。按理说我们不是要隐藏自己的表达,而是要隐藏我们现实中的身份。

不过做也做了,就留个记录吧。

参考


The Web Robots Pages

What is robots.txt? How to add robots.txt on Nginx?