根据权威机构发布的全球互联网可访问性审计报告,全球约有四分之三的网站其内容或部分内容是通过JavaScript动态生成的,这就意味着在浏览器窗口中“查看网页源代码”时无法在HTML代码中找到这些内容,也就是说我们之前用的抓取数据的方式无法正常运转了。
这是一个用于采集小蓝本网站数据的自动化工具,支持采集公司和集团部分数据,其中集团部分可以递归的提取其中的公司数据。 项目结构 xiaolanben/ ├── auth/ # 认证相关 │ └── auth_manager.py # 登录认证管理 ├── crawler/ # 爬虫模块 │ ├── base_crawler.py ...