一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

腳本之家,腳本語言編程技術(shù)及教程分享平臺!
分類導(dǎo)航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務(wù)器之家 - 腳本之家 - Python - Python爬蟲工程師面試問題總結(jié)

Python爬蟲工程師面試問題總結(jié)

2021-01-24 00:34segmentfault Python

本篇文章給大家總結(jié)了關(guān)于Python爬蟲工程師面試問題總結(jié),希望我們整理的內(nèi)容能夠幫助到大家。

注:答案一般在網(wǎng)上都能夠找到。

1.對if __name__ == 'main'的理解陳述

2.python是如何進(jìn)行內(nèi)存管理的?

3.請寫出一段Python代碼實(shí)現(xiàn)刪除一個list里面的重復(fù)元素

4.Python里面如何拷貝一個對象?(賦值,淺拷貝,深拷貝的區(qū)別)

5.介紹一下except的用法和作用?

6.Python中__new__與__init__方法的區(qū)別

7.常用的網(wǎng)絡(luò)數(shù)據(jù)爬取方法

8.遇到過得反爬蟲策略以及解決方法

9.urllib 和 urllib2 的區(qū)別

10.設(shè)計一個基于session登錄驗證的爬蟲方案

11.列舉網(wǎng)絡(luò)爬蟲所用到的網(wǎng)絡(luò)數(shù)據(jù)包,解析包

12.熟悉的爬蟲框架

13.Python在服務(wù)器的部署流程,以及環(huán)境隔離

14.Django 和 Flask 的相同點(diǎn)與不同點(diǎn),如何進(jìn)行選擇?

15.寫一個Python中的單例模式

16.Linux部署服務(wù)腳本命令(包括啟動和停止的shell腳本)

17.你用過多線程和異步嘛?除此之外你還用過什么方法來提高爬蟲效率?

18.POST 與 GET的區(qū)別

1)對if __name__ == 'main'的理解陳述

__name__是當(dāng)前模塊名,當(dāng)模塊被直接運(yùn)行時模塊名為__main__,也就是當(dāng)前的模塊,當(dāng)模塊被導(dǎo)入時,模塊名就不是__main__,即代碼將不會執(zhí)行。

2)python是如何進(jìn)行內(nèi)存管理的?

a、對象的引用計數(shù)機(jī)制
python內(nèi)部使用引用計數(shù),來保持追蹤內(nèi)存中的對象,Python內(nèi)部記錄了對象有多少個引用,即引用計數(shù),當(dāng)對象被創(chuàng)建時就創(chuàng)建了一個引用計數(shù),當(dāng)對象不再需要時,這個對象的引用計數(shù)為0時,它被垃圾回收。

b、垃圾回收

1>當(dāng)一個對象的引用計數(shù)歸零時,它將被垃圾收集機(jī)制處理掉。

2>當(dāng)兩個對象a和b相互引用時,del語句可以減少a和b的引用計數(shù),并銷毀用于引用底層對象 的名稱。然而由于每個對象都包含一個對其他對象的應(yīng)用,因此引用計數(shù)不會歸零,對象也不會銷毀。(從而導(dǎo)致內(nèi)存泄露)。為解決這一問題,解釋器會定期執(zhí)行一個循環(huán)檢測器,搜索不可訪問對象的循環(huán)并刪除它們。

c、內(nèi)存池機(jī)制

Python提供了對內(nèi)存的垃圾收集機(jī)制,但是它將不用的內(nèi)存放到內(nèi)存池而不是返回給操作系統(tǒng)。

1>Pymalloc機(jī)制。為了加速Python的執(zhí)行效率,Python引入了一個內(nèi)存池機(jī)制,用于管理 對小塊內(nèi)存的申請和釋放。

2>Python中所有小于256個字節(jié)的對象都使用pymalloc實(shí)現(xiàn)的分配器,而大的對象則使用 系統(tǒng)的malloc。

3>對于Python對象,如整數(shù),浮點(diǎn)數(shù)和List,都有其獨(dú)立的私有內(nèi)存池,對象間不共享他們的內(nèi)存池。也就是說如果你分配又釋放了大量的整數(shù),用于緩存這些整數(shù)的內(nèi)存就不能再分配給浮點(diǎn)數(shù)。

3)請寫出一段Python代碼實(shí)現(xiàn)刪除一個list里面的重復(fù)元素

?
1
2
3
4
5
6
7
8
9
# 1.使用set函數(shù)
list = [1, 3, 4, 5, 51, 2, 3]
set(list)
# 2.使用字典函數(shù),
>>> a = [1, 2, 4, 2, 4, 5, 6, 5, 7, 8, 9, 0]
>>> b = {}
>>> b = b.fromkeys(a)
>>> c = list(b.keys())
>>> c

4)Python里面如何拷貝一個對象?(賦值,淺拷貝,深拷貝的區(qū)別)

賦值(=),就是創(chuàng)建了對象的一個新的引用,修改其中任意一個變量都會影響到另一個。

淺拷貝:創(chuàng)建一個新的對象,但它包含的是對原始對象中包含項的引用(如果用引用的方式修改其中一個對象,另外一個也會修改改變){1,完全切片方法;2,工廠函數(shù),如list();3,copy模塊的copy()函數(shù)}

深拷貝:創(chuàng)建一個新的對象,并且遞歸的復(fù)制它所包含的對象(修改其中一個,另外一個不會改變){copy模塊的deep.deepcopy()函數(shù)}

5)介紹一下except的用法和作用?

try…except…except…else…

執(zhí)行try下的語句,如果引發(fā)異常,則執(zhí)行過程會跳到except語句。對每個except分支順序嘗試執(zhí)行,如果引發(fā)的異常與except中的異常組匹配,執(zhí)行相應(yīng)的語句。如果所有的except都不匹配,則異常會傳遞到下一個調(diào)用本代碼的最高層try代碼中。

try下的語句正常執(zhí)行,則執(zhí)行else塊代碼。如果發(fā)生異常,就不會執(zhí)行如果存在finally語句,最后總是會執(zhí)行。

6)Python中__new__與__init__方法的區(qū)別

__new__:它是創(chuàng)建對象時調(diào)用,會返回當(dāng)前對象的一個實(shí)例,可以用__new__來實(shí)現(xiàn)單例

__init__:它是創(chuàng)建對象后調(diào)用,對當(dāng)前對象的一些實(shí)例初始化,無返回值

7)常用的網(wǎng)絡(luò)數(shù)據(jù)爬取方法

  • 正則表達(dá)式
  • Beautiful Soup
  • Lxml

8)遇到過得反爬蟲策略以及解決方法

1.通過headers反爬蟲

2.基于用戶行為的發(fā)爬蟲:(同一IP短時間內(nèi)訪問的頻率)

3.動態(tài)網(wǎng)頁反爬蟲(通過ajax請求數(shù)據(jù),或者通過JavaScript生成)

4.對部分?jǐn)?shù)據(jù)進(jìn)行加密處理的(數(shù)據(jù)是亂碼)

解決方法:

對于基本網(wǎng)頁的抓取可以自定義headers,添加headers的數(shù)據(jù)

使用多個代理ip進(jìn)行抓取或者設(shè)置抓取的頻率降低一些,動態(tài)網(wǎng)頁的可以使用selenium + phantomjs 進(jìn)行抓取

對部分?jǐn)?shù)據(jù)進(jìn)行加密的,可以使用selenium進(jìn)行截圖,使用python自帶的pytesseract庫進(jìn)行識別,但是比較慢最直接的方法是找到加密的方法進(jìn)行逆向推理。

9)urllib 和 urllib2 的區(qū)別

urllib 和urllib2都是接受URL請求的相關(guān)模塊,但是urllib2可以接受一個Request類的實(shí)例來設(shè)置URL請求的headers,urllib僅可以接受URL。urllib不可以偽裝你的User-Agent字符串。

urllib提供urlencode()方法用來GET查詢字符串的產(chǎn)生,而urllib2沒有。這是為何urllib常和urllib2一起使用的原因。

10)設(shè)計一個基于session登錄驗證的爬蟲方案

11)列舉網(wǎng)絡(luò)爬蟲所用到的網(wǎng)絡(luò)數(shù)據(jù)包,解析包

網(wǎng)絡(luò)數(shù)據(jù)包 urllib、urllib2、requests

解析包 re、xpath、beautiful soup、lxml

12)熟悉的爬蟲框架

Scrapy框架 根據(jù)自己的實(shí)際情況回答

13)Python在服務(wù)器的部署流程,以及環(huán)境隔離

14)Django 和 Flask 的相同點(diǎn)與不同點(diǎn),如何進(jìn)行選擇?

15)寫一個Python中的單例模式

?
1
2
3
4
5
6
7
8
9
10
11
12
class Singleton(object):
_instance = None
def __new__(cls, *args, **kw):
if not cls._instance:
cls._instance = super(Singleton, cls).__new__(cls, *args, **kw)
return cls._instance
class MyClass(Singleton):
a = 1
one = MyClass()
two = MyClass()
id(one) = id(two)
>>> True

16)Linux部署服務(wù)腳本命令(包括啟動和停止的shell腳本)

17)你用過多線程和異步嘛?除此之外你還用過什么方法來提高爬蟲效率?

  • scrapy-redis 分布式爬取
  • 對于定向爬取可以用正則取代xpath

18)POST與 GET的區(qū)別

  • GET數(shù)據(jù)傳輸安全性低,POST傳輸數(shù)據(jù)安全性高,因為參數(shù)不會被保存在瀏覽器歷史或web服務(wù)器日志中;
  • 在做數(shù)據(jù)查詢時,建議用GET方式;而在做數(shù)據(jù)添加、修改或刪除時,建議用POST方式;
  • GET在url中傳遞數(shù)據(jù),數(shù)據(jù)信息放在請求頭中;而POST請求信息放在請求體中進(jìn)行傳遞數(shù)據(jù);
  • GET傳輸數(shù)據(jù)的數(shù)據(jù)量較小,只能在請求頭中發(fā)送數(shù)據(jù),而POST傳輸數(shù)據(jù)信息比較大,一般不受限制;
  • 在執(zhí)行效率來說,GET比POST好

19)什么是lambda函數(shù)?它有什么好處?

lambda 表達(dá)式,通常是在需要一個函數(shù),但是又不想費(fèi)神去命名一個函數(shù)的場合下使用,也就是指匿名函數(shù)

lambda函數(shù):首要用途是指點(diǎn)短小的回調(diào)函數(shù)

?
1
2
3
lambda [arguments]:expression
>>> a=lambdax,y:x+y
>>> a(3,11)

原文鏈接:https://segmentfault.com/a/1190000013874845

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 四缺一的小说 | 91看片淫黄大片.在线天堂 | 国产成人看片免费视频观看 | 亚洲天天综合 | 三级视频中文字幕 | 精品国产91久久久久久久 | 欧美一区二区三区视视频 | 深夜福利免费在线观看 | 国产精品制服丝袜白丝www | 久久水蜜桃亚洲AV无码精品偷窥 | 99人中文字幕亚洲区 | 国产va免费精品高清在线观看 | 91麻豆精品激情在线观看最新 | 亚洲AV无码专区国产精品麻豆 | 亚洲国产精品无码中文字满 | 国产福利资源 | 不良研究所地址一 | 男女男精品视频 | 亚洲福利精品电影在线观看 | 9966国产精品视频 | 黄绝一级 | 国产精品久久现线拍久青草 | 精品在线播放视频 | 九9热这里只有真品 | 久久99热在线观看7 久久99精品涩AV毛片观看 | 果冻传媒 天美 麻豆 | a看片 | 久久sese| 34看网片午夜理 | 1986葫芦兄弟全集免费观看第十集 | 国内激情自拍 | 99热这里只有精品一区二区三区 | 成人猫咪maomiav永久网址 | 亚洲精品九色在线网站 | 国产高清国内精品福利 | 5x视频在线观看 | 亚洲精品久久久久福利网站 | 亚洲午夜久久久久影院 | 国内视频一区二区 | 精品久久综合一区二区 | 美女脱小内内给男生摸j |