您現在的位置：首頁 > IT資訊 > 軟件研發 > 使用Python進行Web爬取和數據提取

使用Python進行Web爬取和數據提取

2020-07-28 15:48:06　|　來源：中培企業IT培訓網

　　今天為大家介紹的是關于使用Python進行Web爬取和數據提取的內容。我們首先是要清楚地了解任務。他們希望我們從中抓取數據，然后將其保存在CSV文件中，其中上面列出的我們將抓取信息：日期（“以下信息反映了終止{日期}的FMCSA管理信息系統的內容”），運行狀態，合法名稱，DBA名稱，實際地址，郵寄地址，USDOT號，動力單元，車手。

　　步驟1：了解任務

　　我們可以提供100個DOT號碼的初始設置，以確保可以輕松地刮除上面的信息，從那里我們可以提供每天要刮擦的所有DOT號碼。

　　報告頁面可以通過點或其他名稱ID進行訪問。每個頁面都有自己的ID（點）。因此，這些點位于Excel文件中。我們必須閱讀此文件并從中提取點，然后將其傳遞到URL以訪問報告頁面。

　　第2步：創建環境并安裝依賴項

　　現在，我們知道了客戶希望從我們這里得到什么，因此讓我們創建虛擬環境，然后檢查將要爬網的元素。

　　要創建virtualenv，請在終端中運行以下命令：

　　虛擬環境

　　然后安裝BeautifulSoup（這是一個用于解析HTML和XML文檔的Python包）和xlrd（這是一個用于從Excel文件讀取數據并設置信息格式的庫）：

　　pip install beautifulsoup4 xlrd

　　步驟3：檢索數據

　　好了，開發人員！讓我們從打開項目描述的示例URL開始，剎車可以看到細分。

　　提示以查看示例URL

　　我們的第一個目標是查找-日期（“以下信息反映了終止{日期}的FMCSA管理信息系統的內容”）

　　以下信息反映了截止日期01/01/2020的FMCSA管理信息系統的內容。

　　事實是，我們無法通過特定的類名或ID來檢索此元素。不幸的是，此報告頁面隱藏混亂。

　　但是，我們可以將它們全部作為文本進行爬網，并使用RegEx提取所需的數據。

　　正則表達式（RegEx）是特殊的字符序列，可使用模式中保留的特殊語法來幫助您匹配或查找其他字符串或字符串集。

　　日期位于之間。以下信息反映了FMCSA管理信息系統的開始日期，以及..（點）。因此，要輸入日期正則表達式將在這些字符串之間查找。

　　import re＃regeximport urllib.request from urllib.request import urlopen，Requestfrom bs4 import BeautifulSoupdef crawl_data（url）：

　　req = Request（URL，標頭= {'User-Agent'：'Mozilla / 5.0'}）

　　html = urlopen（req）.read（）

　　bs = BeautifulSoup（html，'html.parser'）

　　＃查找所有粗體文本

　　bold_texts = bs.find_all（'b'）

　　對于b在bold_texts中：

　　嘗試：

　　＃在這些字符串之間看

　　date = re.search（'以下信息反映了FMCSA管理信息系統自（。*）起的內容。'，b.get_text（strip = True，分隔符=''））。group（1）.strip（）

　　＃如果正則表達式找到多個點，則在第一個點之前提取字符串

　　如果len（date）> 11：

　　日期= date.split（“。”，1）[0]

　　打印（日期）

　　除了AttributeError：

　　通過

　　好吧，如果您運行該程序，您將看到它正在打印日期。快速向您展示正則表達式的工作原理，因為我有些人想了解。

　　考慮以下代碼：

　　匯入

　　＃我們需要從字符串中提取“ coderasha”

　　data =“您好，我叫Coderasha。”

　　名稱= re.search（'你好我的名字是（。*）。'，數據）

　　打印（名稱）

　　＃輸出：<_sre.SRE_Match對象；span =（0，27），match ='你好，我叫Coderasha。'>

　　group（1）將其中正則表達式匹配的文本捕獲到一個編號組中，該編號組可以與編號后向引用一起重用

　　匯入

　　＃我們需要從字符串中提取“ coderasha”

　　data =“您好，我叫Coderasha。”

　　名稱= re.search（'你好我的名字是（。*）。'，數據）.group（1）

　　打印（名稱）

　　＃輸出：coderasha

　　因此，我正在應用相同的邏輯來查找爬網的串行中的日期。

　　但是，我們必須使用RegEx再次查找數據，因為表元素沒有任何特殊屬性。

　　＃獲取表格內的所有文本

　　信息= bs.find（'中心'）.get_text（strip =真，分隔符=''）＃使用RegEx查找字段

　　Operating = re.search（'Operating Status：（。*）Out'，information）.group（1）.strip（）

　　legal_name = re.search（'法律名稱：（。*）DBA'，信息）.group（1）.strip（）

　　physical_address = re.search（'Physical Address：（。*）Phone'，information）.group（1）.strip（）

　　mailing_address = re.search（'郵件地址：（。*）USDOT'，信息）.group（1）.strip（）

　　usdot_address = re.search（'USDOT號：（。*）國家運營商ID號'，信息）.group（1）.strip（）

　　power_units = re.search（'Power Units：（。*）Drivers'，information）.group（1）.strip（）

　　drivers = re.search（'Drivers：（。*）MCS-150表格日期'，信息）.group（1）.strip（）

　　步驟4：以CSV格式寫入資料

　　抓取數據后，就該創建新的csv文件鏈接數據寫入其中了。我更喜歡創建另一個函數來處理此操作。

　　導入csvdef write_csv（日期，運行，legal_name，物理地址，mailing_address，usdot_address，power_units，驅動程序）：

　　使用open（usdot_address +'.csv'，mode ='w'，newline =''，encoding =“ utf-8”）作為csv_file：

　　字段名稱= [“日期”，“運行狀態”，“法律名稱”，“物理地址”，“郵寄地址”，“動力裝置”，“驅動程序”]

　　writer = csv.DictWriter（csv_file，fieldnames = fieldnames）

　　writer.writeheader（）

　　writer.writerow（{''Date'：date，'Operating Status'：Operating，'Legal_Name'：legal_name，'Physical Address'：physical_address，'Mailing Address'：mailing_address，'Power Units：power_units，'Drivers'：drivers }）

　　CSV名稱必須唯一，因此我用usdot_address或使用已抓取數據的報告頁面的其他名稱ID。

　　步驟5：讀取Excel文件以抓取每個點的數據

　　最后一步是讀取excel文件，將這些點傳遞到URL的末尾以訪問頁面。我們可以用xlrd讀取Excel文件。

　　導入xlrd

　　點= [] def read_excel_file（）：

　　loc =（“ dots.xls”）

　　wb = xlrd.open_workbook（loc）

　　工作表= wb.sheet_by_index（0）

　　sheet.cell_value（0，0）

　　＃Excel中的前五個點

　　對于我在范圍（1,5）中：

　　＃將浮點數轉換為字符串并從.0清除

　　點= str（sheet.cell_value（i，0））。replace（'。0'，''）

　　dots.append（dot）

　　xlrd將數字讀取為浮點數，因此最好的解決方案是將數字轉換為字符串并使用

　　更換（）

　　刪除字符串.0結尾將這些點傳遞到url中的方法：

　　對于點中的點：

　　crawl_data

　　＃睡眠5秒，避免任何錯誤

　　time.sleep（5）

　　這是完整代碼：

　　導入重新導入csv導入urllib.request從urllib.request導入urlopen，Requestfrom bs4導入BeautifulSoupimport xlrd導入時間