在网上搜小姐姐照片养养眼的时候发现了半次元这个网站,这里面有 cos、jk、绘图等板块,觉得不错,就用爬虫下载下来了。
获取列表数据
从搜索框中搜索 jk,进入 jk 页面。
选择关注人数最多的点进去。
要获取 url 地址就得打开 F12 控制面板,找到一条 https://bcy.net/apiv3/common/circleFeed?circle_id=492&since=0&sort_type=2&grid_type=10
看它的数据集包含了 uid、昵称、头像等数据。再加上进入详情页面的 item_id。这个链接就是获取最新的 jk 列表的地址。
1 |
|
提取返回值里面的 item_id 就很简单,它就是个 json 串。
1 |
|
示例结果:
获取 jk 图
从上面获取到 item_id 后,将它拼入到 https://bcy.net/item/detail/{item_id}?_source_page=hashtag
中。在 F12 中的结果集不是 json 串,而是一个页面。搜索发现 jk 图片的数据在 javascript 中。
用截取字符串的方式将数据提取出来,最后将 jk 图下载下来慢慢看。
1 |
|
最后在提取图片的url 的时候没有使用 json 串是因为,它的json串中有特殊的字符,有些转换不了。
总结
爬虫千万条,安全最重要。