Frederick

Welcome to my Alter Ego's site!

Mar 23, 2025 - 1 minute read - Comments

NKUwiki爬虫说明

小红书爬虫

python main.py --paltform xhs --lt qrcode --type search

修改了config下的配置文件,最好不要开并发,会发现爬了一段时间爬不了,修改keywords为实体清单,db_config为nkuwiki数据库配置,使用GET_IMAGES和GET_COMMENT,分两次爬取,一次导入数据库,一次导入本地以json格式,改START_DAY和END_DAY

知乎爬虫

python main.py --platform zhihu --lt qrcode --type search

同上,图片和评论不开,可以并发爬取,最多爬取页数1000

QA:如何处理数据,渲染s?

泪了,utools下自己加了个脚本

python utools/xhs_to_md.py

输出在docs/xhs下

python scripts/zhihu_json_to_md.py

输出在data/zhihu/markdown下

数据结构与算法 常用板子

comments powered by Disqus