NKUwiki爬虫说明

小红书爬虫

python main.py --paltform xhs --lt qrcode --type search

修改了config下的配置文件，最好不要开并发，会发现爬了一段时间爬不了，修改keywords为实体清单，db_config为nkuwiki数据库配置，使用GET_IMAGES和GET_COMMENT，分两次爬取，一次导入数据库，一次导入本地以json格式，改START_DAY和END_DAY

python main.py --platform zhihu --lt qrcode --type search

同上，图片和评论不开,可以并发爬取，最多爬取页数1000

QA：如何处理数据，渲染s？

泪了，utools下自己加了个脚本

python utools/xhs_to_md.py

输出在docs/xhs下

python scripts/zhihu_json_to_md.py

输出在data/zhihu/markdown下