小红书爬虫
python main.py --paltform xhs --lt qrcode --type search
修改了config下的配置文件,最好不要开并发,会发现爬了一段时间爬不了,修改keywords为实体清单,db_config为nkuwiki数据库配置,使用GET_IMAGES和GET_COMMENT,分两次爬取,一次导入数据库,一次导入本地以json格式,改START_DAY和END_DAY
知乎爬虫
python main.py --platform zhihu --lt qrcode --type search
同上,图片和评论不开,可以并发爬取,最多爬取页数1000
QA:如何处理数据,渲染s?
泪了,utools下自己加了个脚本
python utools/xhs_to_md.py
输出在docs/xhs下
python scripts/zhihu_json_to_md.py
输出在data/zhihu/markdown下