web_retile_01

通过几天的学习基本了解了Python的函数结构,为了能加快速度决定直接跳过基本从爬虫方面入手,然后再着手分析数据。

检索了关于Python爬虫的资料,最终决定从requests库与bs4库的配合学习。

至于后期对于爬虫的延伸有更多的想法比如搞个分布式(一台master+N台slave一起工作),多线程爬虫等等什么的后期考虑。

对此我便觉得采取以下步骤:

环境配置安装相印库

原先的Python27默认不带pip。出于不想在win下选择琐碎的操作的目的我选择的是Win+Python36环境下。

默认自带pip库,于是经过简单的path环境变量后直接可以在win command下打出Linux下一句shell就解决的事情:

  • pip install beautifulsoup4
  •  
  • pip install requests
  •  
  • pip install htmllib5
  • 这是最简单的方式安装对应库,或者你也可以选择下载库文件解压后直接cd安装目录:
  • python setup.py instll
  • 解决三个必要的库后让我们来试试看requests库能否工作:
    import requests
    r =requests.get("http://www.11ri.net")
    r.text
    返回正常

    添加新评论

    | 7个评论