Python爬虫实战：爬取小红书去水印图片-新动力营销圈

最近想换一张和女朋友的情侣头像。经过一番查找，终于在小红书里找到了几款让我感兴趣的。保存图片的时候，我搜了半天，发现没有下载按钮！！！

你能分享一下吗？复制并分享链接，然后在浏览器中打开它来尝试一下。这样可以保存图片，但是图片有水印。

可以下载无水印的图片吗？

我在网上简单搜索了一下，发现有很多去除水印的小程序，但几乎都是有免费使用次数限制的。爬虫程序员，这能忍吗？

既然他们可以通过小红书的分享链接直接分析无水印的图片，理论上来说，我也可以！

话不多说，按你说的去做。

1、思维分析

首先，在小红书APP中点击分享，获取其分享链接，如：…

然后在浏览器中打开（我用的是浏览器）。

按F12或者Ctrl+shift+i打开开发者工具，切换到type，选择Img作为过滤器，如图，

刷新网页，就可以轻松提取出我们想要的图片的链接了。

您可以在中预览图片，并且可以在中查看图片的请求头等信息。

如上图，可以知道图片的下载链接。

/-92…

简单分析一下，该链接由以下几部分组成：域名()+图片id(-92c9-4e0b-5408-)+? + 压缩格式（/2/w/100/h/100/q/75）。

温馨提示：在浏览器中直接访问会弹出下载界面；去掉?后面的部分，访问就会在浏览器中打开图片。

我们发现通过上面的链接直接下载的图片有水印，那么如何获取无水印的图片呢？

我们继续分析。

我们已经知道图片的链接是由域名+ID+压缩格式组成的，而后面的压缩格式字段只影响图片的大小和质量，并不影响是否有水印。是压缩前的原始图像）。

因此，无水印的图片必须通过ID来控制。并且作为程序员的直觉，这个无水印的图片ID（如果有的话）必须与有水印的图片ID放在一起。

接下来我们复制-92c9-4e0b-5408-（带水印的图片ID）到网页源码中搜索小红书网址，看看有没有收获。

经过一番查找，终于发现了一个非常可疑的地方。它是 json 格式的文本。下面有很多元素，每一项都有url、宽高、信息。

我们发现url就是我们刚刚找到的图片链接（里面的u002F是slash/的URL编码），是我们找到的图片的ID。

此时，有一个领域非常可疑。它是什么？

抱着尝试的心态，我将url中的图片id替换为值小红书网址，复制到浏览器查看

/-81…

嘿，你猜怎么着？水印没了！！哈哈哈哈

这样我们就完成了对图像去水印的思路的解析，并成功提取出无水印的图像链接。

接下来，我们使用爬虫来实现这一点。

2. 编码

梳理一下我们的提取思路：

Python爬虫实战：爬取小红书去水印图片