在学爬虫前,我学习过使用go获取网页数据,感觉差不多,当时用go获取的大概思路就是:

先使用goquery获取网页内容,然后用一个类似于DOM树定位的方式,获取到所需数据,最后再对自己需要的数据处理即可

和这种方法不同的是,爬虫因为是专业获取数据的,会有调度器和URL管理器,用来管理不同组件之间的工作,比如网页获取器,网页解析器

python爬虫的基本流程

  1. 在spiders文件夹里面去创建爬虫文件(貌似不需要在spdider里面,在它的上一级也可以)
    1. scrapy genspider 爬虫文件的名字 要爬取的网页
      1. scrapy genspider baidu www.baidu.com(不需要加http,1因为scrapy很贴心,会帮你补全,就算你加了,他也会帮你加,double http(scrapy有点傻))
      2. 如果网页时html结尾,start_urls不需要加/
  2. scrapy crawl 爬虫的名字
    1. scrapy crawl baidu
  3. 反爬 robot.txt
    1. settings.py里面注释掉ROBOTTXT_OBEY = True