Misskey 防搜索引擎抓取

2022-05-08

2 minute read

之前已经在个人页面上设置了阻止搜索引擎建立索引，今天有其他人提醒通过 tag 也会搜到相关内容。虽然说想要搜索有一百种方法，但我也不想因为关键词扫描被搜索出来。

看了一下 Misskey 的 robots.txt，是允许搜索引擎搜索任何内容的，想着改一下就好了。先是找到了 robots.txt 的存放路径：Misskey/packages/assets/backend/，修改了内容，重启容器，无事发生。

又经网友提醒可以直接在 Nginx 增加规则，我就去改了。

Robots协议

Robots协议 是搜索引擎蜘蛛爬行的一种标准，当蜘蛛来访的时候会首先检测网站根目录下是否存在 robots.txt 这个文件。robots.txt 文本文件带有 Robots协议，该协议告诉所有搜索引擎该网站的哪些页面可以被抓取，哪些页面禁止被抓取。

Robots.txt

robots.txt 的写法：

User-agent: * #对所有搜索引擎生效
Disallow: #不允许抓取
Allow: #允许抓取

Nginx 配置

打开 Misskey 的 Nginx 配置文件，在最后的花括号前加上以下内容：

1location =/robots.txt {
2    default_type text/html;
3    add_header Content-Type "text/plain; charset=UTF-8";
4    return 200 "User-agent: *\nDisallow: /\n";
5}

事后谈

Nginx 生效也要等挺久的样子，这段时候我又想了一下，我的做法有什么意义吗？似乎是没有。

按照Fedi宇宙的逻辑，搜索引擎不会从我的站点抓取帖子，但是可以从别的站点抓取。按理说我们不是要隐藏自己的表达，而是要隐藏我们现实中的身份。

不过做也做了，就留个记录吧。

参考

The Web Robots Pages

What is robots.txt? How to add robots.txt on Nginx?