發布時間:2021-10-28 15:58:02來源:有考培訓網綜合
杭州火星時代python培訓怎么樣?Python中爬蟲框架或模塊的區別,我們在Python的學習過程中,需要不斷的總結知識點,這樣我們才能進步的更快一些。
杭州火星時代python培訓怎么樣?
火星時代于1994年出版CG教材——《三維動畫速成》,創辦“火星人”品牌,成立“王琦電腦動畫工作室”,秉承“分享”的理念,把更多的CG技術分享給其他人,開啟了中國CG教育元年。火星時代教育是較早進入中國數字藝術領域的企業。27年來,火星時代教育攜手眾多國內外知名企業,大力培養數字藝術設計人才,共同推動了中國數字藝術創意產業的發展。
(1)爬蟲框架或模塊
Python自帶爬蟲模塊:urllib、urllib2;
第三方爬蟲模塊:requests,aiohttp;
爬蟲框架:Scrapy、pyspider。
(2)爬蟲框架或模塊的優缺點
urllib和urllib2模塊都用于請求URL相關的操作,但他們提供了不同的功能。urllib2模塊中urllib2.urlopen可以接受一個Request對象或者url,(在接受Request對象時候,并以此可以來設置一個URL的headers),且只接收一個url;urllib中有urlencode,而urllib2中沒有。因此,開發人員在實際開發中經常會將urllib與urllib2一起使用。
requests是一個HTTP庫,它僅僅用于發送請求。對于HTTP請求而言,request是一個強大的庫,可以自己處理下載、解析,靈活性更高,高并發與分布式部署也非常靈活,對于功能可以更好實現。
aiohttp是一個基于python3的asyncio攜程機制實現的一個http庫。相比requests,aiohttp自身就具備了異步功能。但只能在python3環境中使用。
Scrapy是封裝起來的框架,它包含了下載器、解析器、日志及異常處理,是基于多線程的,采用twisted的方式處理。對于固定單個網站的爬取開發,Scrapy具有優勢;對于多網站爬取,并發及分布式處理方面,Scrapy不夠靈活,不便調整與擴展。
Scrapy是基于python實現的爬蟲框架,擴展性比較差。
Pyspider是一個重量級的爬蟲框架。我們知道Scrapy沒有數據庫集成、分布式、斷點續爬的支持、UI控制界面等等,若Scrapy想要實現這些功能,需要自行開發。Pyspider已經集成了前面這些功能,也正因如此,Pyspider的擴展性太差,學習難度較大。