欧美麻豆久久久久久中文_成年免费观看_男人天堂亚洲成人_中国一级片_动漫黄网站免费永久在线观看_国产精品自产av一区二区三区

中培偉業IT資訊頻道
您現在的位置:首頁 > IT資訊 > 軟件研發 > 使用Python進行Web爬取和數據提取

使用Python進行Web爬取和數據提取

2020-07-28 15:48:06 | 來源:中培企業IT培訓網

  今天為大家介紹的是關于使用Python進行Web爬取和數據提取的內容。我們首先是要清楚地了解任務。他們希望我們從中抓取數據,然后將其保存在CSV文件中,其中上面列出的我們將抓取信息:日期(“以下信息反映了終止{日期}的FMCSA管理信息系統的內容”),運行狀態,合法名稱,DBA名稱,實際地址,郵寄地址,USDOT號,動力單元,車手。

  步驟1:了解任務

  我們可以提供100個DOT號碼的初始設置,以確保可以輕松地刮除上面的信息,從那里我們可以提供每天要刮擦的所有DOT號碼。

  報告頁面可以通過點或其他名稱ID進行訪問。每個頁面都有自己的ID(點)。因此,這些點位于Excel文件中。我們必須閱讀此文件并從中提取點,然后將其傳遞到URL以訪問報告頁面。

  第2步:創建環境并安裝依賴項

  現在,我們知道了客戶希望從我們這里得到什么,因此讓我們創建虛擬環境,然后檢查將要爬網的元素。

  要創建virtualenv,請在終端中運行以下命令:

  虛擬環境

  然后安裝BeautifulSoup(這是一個用于解析HTML和XML文檔的Python包)和xlrd(這是一個用于從Excel文件讀取數據并設置信息格式的庫):

  pip install beautifulsoup4 xlrd

  步驟3:檢索數據

  好了,開發人員!讓我們從打開項目描述的示例URL開始,剎車可以看到細分。

  提示以查看示例URL

  我們的第一個目標是查找-日期(“以下信息反映了終止{日期}的FMCSA管理信息系統的內容”)

  以下信息反映了截止日期01/01/2020的FMCSA管理信息系統的內容。

  事實是,我們無法通過特定的類名或ID來檢索此元素。不幸的是,此報告頁面隱藏混亂。

  但是,我們可以將它們全部作為文本進行爬網,并使用RegEx提取所需的數據。

  正則表達式(RegEx)是特殊的字符序列,可使用模式中保留的特殊語法來幫助您匹配或查找其他字符串或字符串集。

  日期位于之間。以下信息反映了FMCSA管理信息系統的開始日期,以及..(點)。因此,要輸入日期正則表達式將在這些字符串之間查找。

  import re#regeximport urllib.request from urllib.request import urlopen,Requestfrom bs4 import BeautifulSoupdef crawl_data(url):

  req = Request(URL,標頭= {'User-Agent':'Mozilla / 5.0'})

  html = urlopen(req).read()

  bs = BeautifulSoup(html,'html.parser')

  #查找所有粗體文本

  bold_texts = bs.find_all('b')

  對于b在bold_texts中:

  嘗試:

  #在這些字符串之間看

  date = re.search('以下信息反映了FMCSA管理信息系統自(。*)起的內容。',b.get_text(strip = True,分隔符=''))。group(1).strip( )

  #如果正則表達式找到多個點,則在第一個點之前提取字符串

  如果len(date)> 11:

  日期= date.split(“。”,1)[0]

  打印(日期)

  除了AttributeError:

  通過

  好吧,如果您運行該程序,您將看到它正在打印日期。快速向您展示正則表達式的工作原理,因為我有些人想了解。

  考慮以下代碼:

  匯入

  #我們需要從字符串中提取“ coderasha”

  data =“您好,我叫Coderasha。”

  名稱= re.search('你好我的名字是(。*)。',數據)

  打印(名稱)

  #輸出:<_sre.SRE_Match對象;span =(0,27),match ='你好,我叫Coderasha。'>

  group(1)將其中正則表達式匹配的文本捕獲到一個編號組中,該編號組可以與編號后向引用一起重用

  匯入

  #我們需要從字符串中提取“ coderasha”

  data =“您好,我叫Coderasha。”

  名稱= re.search('你好我的名字是(。*)。',數據).group(1)

  打印(名稱)

  #輸出:coderasha

  因此,我正在應用相同的邏輯來查找爬網的串行中的日期。

  但是,我們必須使用RegEx再次查找數據,因為表元素沒有任何特殊屬性。

  #獲取表格內的所有文本

  信息= bs.find('中心').get_text(strip =真,分隔符='')#使用RegEx查找字段

  Operating = re.search('Operating Status:(。*)Out',information).group(1).strip()

  legal_name = re.search('法律名稱:(。*)DBA',信息).group(1).strip()

  physical_address = re.search('Physical Address:(。*)Phone',information).group(1).strip()

  mailing_address = re.search('郵件地址:(。*)USDOT',信息).group(1).strip()

  usdot_address = re.search('USDOT號:(。*)國家運營商ID號',信息).group(1).strip()

  power_units = re.search('Power Units:(。*)Drivers',information).group(1).strip()

  drivers = re.search('Drivers:(。*)MCS-150表格日期',信息).group(1).strip()

  步驟4:以CSV格式寫入資料

  抓取數據后,就該創建新的csv文件鏈接數據寫入其中了。我更喜歡創建另一個函數來處理此操作。

  導入csvdef write_csv(日期,運行,legal_name,物理地址,mailing_address,usdot_address,power_units,驅動程序):

  使用open(usdot_address +'.csv',mode ='w',newline ='',encoding =“ utf-8”)作為csv_file:

  字段名稱= [“日期”,“運行狀態”,“法律名稱”,“物理地址”,“郵寄地址”,“動力裝置”,“驅動程序”]

  writer = csv.DictWriter(csv_file,fieldnames = fieldnames)

  writer.writeheader()

  writer.writerow({''Date':date,'Operating Status':Operating,'Legal_Name':legal_name,'Physical Address':physical_address,'Mailing Address':mailing_address,'Power Units:power_units,'Drivers':drivers })

  CSV名稱必須唯一,因此我用usdot_address或使用已抓取數據的報告頁面的其他名稱ID。

  步驟5:讀取Excel文件以抓取每個點的數據

  最后一步是讀取excel文件,將這些點傳遞到URL的末尾以訪問頁面。我們可以用xlrd讀取Excel文件。

  導入xlrd

  點= [] def read_excel_file():

  loc =(“ dots.xls”)

  wb = xlrd.open_workbook(loc)

  工作表= wb.sheet_by_index(0)

  sheet.cell_value(0,0)

  #Excel中的前五個點

  對于我在范圍(1,5)中:

  #將浮點數轉換為字符串并從.0清除

  點= str(sheet.cell_value(i,0))。replace('。0','')

  dots.append(dot)

  xlrd將數字讀取為浮點數,因此最好的解決方案是將數字轉換為字符串并使用

  更換()

  刪除字符串.0結尾將這些點傳遞到url中的方法:

  對于點中的點:

  crawl_data

  #睡眠5秒,避免任何錯誤

  time.sleep(5)

  這是完整代碼:

  導入重新導入csv導入urllib.request從urllib.request導入urlopen,Requestfrom bs4導入BeautifulSoupimport xlrd導入時間

  點= [] def read_excel_file():

  loc =(“ dots.xls”)

  wb = xlrd.open_workbook(loc)

  工作表= wb.sheet_by_index(0)

  sheet.cell_value(0,0)

  對于我在范圍(1,5)中:

  點= str(sheet.cell_value(i,0))。replace('。0','')

  dots.append(dot)def crawl_data(url):

  req = Request(URL,標頭= {'User-Agent':'Mozilla / 5.0'})

  html = urlopen(req).read()

  bs = BeautifulSoup(html,'html.parser')

  bold_texts = bs.find_all('b')

  對于b在bold_texts中:

  嘗試:

  date = re.search('以下信息反映了FMCSA管理信息系統自(。*)起的內容。',b.get_text(strip = True,分隔符=''))。group(1).strip( )

  如果len(date)> 11:

  日期= date.split(“。”,1)[0]

  打印(日期)

  除了AttributeError:

  通過

  信息= bs.find('中心').get_text(strip =真,分隔符='')

  Operating = re.search('Operating Status:(。*)Out',information).group(1).strip()

  legal_name = re.search('法律名稱:(。*)DBA',信息).group(1).strip()

  physical_address = re.search('Physical Address:(。*)Phone',information).group(1).strip()

  mailing_address = re.search('郵件地址:(。*)USDOT',信息).group(1).strip()

  usdot_address = re.search('USDOT號:(。*)國家運營商ID號',信息).group(1).strip()

  power_units = re.search('Power Units:(。*)Drivers',information).group(1).strip()

  drivers = re.search('Drivers:(。*)MCS-150表格日期',信息).group(1).strip()

  def write_csv(日期,運作,法定名稱,物理地址,mailing_address,usdot_address,power_units,驅動程序)def write_csv(日期,運作,合法名稱,物理地址,mailing_address,usdot_address,power_units,驅動程序):

  使用open(usdot_address +'.csv',mode ='w',newline ='',encoding =“ utf-8”)作為csv_file:

  字段名稱= [“日期”,“運行狀態”,“法律名稱”,“物理地址”,“郵寄地址”,“動力裝置”,“驅動程序”]

  writer = csv.DictWriter(csv_file,fieldnames = fieldnames)

  writer.writeheader()

  writer.writerow({''Date':date,'Operating Status':Operating,'Legal_Name':legal_name,'Physical Address':physical_address,'Mailing Address':mailing_address,'Power Units:power_units,'Drivers':drivers })

  read_excel_file()

  以點為單位打印(點):

  crawl_data

  time.sleep(5)

  任務完成!

  以上就是關于使用Python進行Web爬取和數據提取的全部內容,想了解更多關于Python的信息,請繼續關注我們吧。

標簽: Python Web爬取
主站蜘蛛池模板: 亚洲一区自拍高清亚洲精品 | 精品久久久久久无码不卡 | 在线观看亚洲AV日韩AV | A毛片终身免费观看网站 | 国产 国语对白 露脸 | 美国一级在线观看 | 欧美日韩久久久久久 | 东北女人啪啪对白 | 7788色淫网站免费 | 成人涩涩网 | 中文字幕人妻被公上司喝醉在线 | 欧美精品国产一区二区三区 | 18出禁止看的啪视频网站 | 亚洲成A∨人片在线观看无码 | 午夜精品人妻无码一区二区三区 | 国产毛片女人高潮叫声 | 熟妇与小伙子露脸对白 | 亚洲一区无码中文字幕乱码 | 亚洲国产精品久久久久婷婷图片 | 极品少妇被后入内射视 | 好大好深好猛好爽视频免费 | 亚洲AV综合日韩 | 永久免费无码日韩视频 | 综合毛片免费视频 | 国产成人精选视频在线观看 | 人人妻人人澡人人爽人人精品 | 成人无码精品1区2区3区免费看 | 亚洲一区二区三区四区五区高 | 久久久视频在线观看 | 日韩人妻无码免费视频一区二区 | 午夜射精日本三级 | 巨茎爆乳无码性色福利 | 亚洲精品国产9999久久久久 | 国产白嫩护士被弄高潮 | 精品国产福利久久久 | 国产成人精品日本亚洲一区 | 男男调教网站 | 老师掀起裙子让我把j放进去视频 | 亚洲国产综合精品2020 | 小荡货好紧好爽奶头大视频 | 精品久久久无码专区中文字幕 |