不管你是待業(yè)還是失業(yè),在這個(gè)被互聯(lián)網(wǎng)圍繞的時(shí)代里,選擇python3爬蟲一,就多了一項(xiàng)技能,還怕找不到工作?,還怕不好找工作?小編就來告訴你這個(gè)專業(yè)的優(yōu)勢(shì)到底體現(xiàn)在哪里:python3爬蟲爬取視頻(一)??。
1.python3爬蟲爬取視頻(一)
一轉(zhuǎn)眼,我已經(jīng)工作一個(gè)多月了,就想著閑的時(shí)候爬取一些視頻,網(wǎng)站上的視頻有好多種,有的是flv格式的,然后被分成一段一段的,一段大概是3-10秒,通過js動(dòng)態(tài)。(這部分還不會(huì),以后弄成了的話會(huì)更新的)有的是在網(wǎng)站則是比較容易來爬取的,飯一口一口吃,那就先從簡(jiǎn)單的開始爬取吧。這類網(wǎng)站的源碼里面就有視頻的url爬取的視頻網(wǎng)站叫梨視頻(大型網(wǎng)站的反扒機(jī)制是留給大佬們爬的,我等萌新就先不要去嘗試爬取什么別的大型網(wǎng)站了)順便吐槽一下,現(xiàn)在是北京時(shí)間2018年6月15日14:38:26B站的python爬取視頻的視頻我看到的全部都是去年爬取百思不得姐的教學(xué)視頻,然后今年百思不得姐因?yàn)槟承┰蛞呀?jīng)被某部勒令整改了,但是那些視頻我還是推薦可以去學(xué)習(xí)一下的,畢竟網(wǎng)站不在,思路仍在。吐槽的是*的視頻是18年4月份的吧,然而還是去年的教學(xué)視頻,只是再剪輯重新發(fā)布了一下Chrome瀏覽器,右鍵檢查,然后播放,然后點(diǎn)擊選取鍵,對(duì)視頻源進(jìn)行固定src=........,打開一下,看看是不是成了,確實(shí)是視頻。好了,視頻url已經(jīng)找到了,那接下來就是爬取了下面是代碼import requests import re import urllib URL = ' hd = {'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} def main(): root = r'd:/自媒體配圖/' html = requests.get(URL,headers = hd).text #匹配大盒子 視頻URL url_MP4 = re.compile(r'( #正則匹配 url_MP4s = re.findall(url_MP4,html) print(url_MP4s) for i in url_MP4s: print(i) urllib.request.(i,'haha.mp4') print('下載成功') if __name__ == '__main__': main()相比較爬取圖片來說,比較有新意的就是urllib.request.()方法了吧,這個(gè)是下載的方法,兩個(gè)參數(shù)分別為url,要存儲(chǔ)的文件名然后就文件已出來,可以觀看了下一步要做的就是找到規(guī)律,然后大批量的下載了,萌新一枚,寫的也是基礎(chǔ)文章。歡迎交流
就拿大數(shù)據(jù)說話,優(yōu)勢(shì)一目了然,從事IT行業(yè),打開IT行業(yè)的新大門,找到適合自己的培訓(xùn)機(jī)構(gòu),進(jìn)行專業(yè)和系統(tǒng)的學(xué)習(xí)。