Cấp bậc tác giả:

TRAINING

Sử dụng Google Colab để Crawl dữ liệu với Selenium

Được viết bởi webmaster vào ngày 09/08/2020 lúc 10:21 AM

Việc quét dữ liệu từ trang web là một việc cần thiết trong các hoạt động machine learning nói chung và train model nói riêng. Selenium là một công cụ đa năng cung cấp đầy đủ việc quét dữ liệu từ trang web. Việc kết hợp với google colab cho phép bạn quét song song nhiều trang web bằng việc mở nhiều tab google colab mà không ảnh hưởng tới hiệu năng cũng như không cần tới sức mạnh máy tính.

0
6063

Sử dụng Google Colab để Crawl dữ liệu với Selenium

Cài đặt thư viện:

!apt install chromium-chromedriver
!cp /usr/lib/chromium-browser/chromedriver /usr/bin
!pip install selenium

Import thư viện:

from selenium import webdriver
import pandas as pd
from bs4 import BeautifulSoup
from selenium import webdriver
import re
options = webdriver.ChromeOptions()
options.add_argument('-headless')
options.add_argument('-no-sandbox')
options.add_argument('-disable-dev-shm-usage')

Chúng ta thử mình quét dữ liệu từ trang web: avito.ru

Dữ liệu thường được tổ chức theo dạng thẻ: trong mỗi thẻ có các feauture cần thiết:

Chúng ta chỉ cần tìm phần tử của thẻ div với class item_table-wrapper:

items = soup.find_all('div', {'class','item_table-wrapper' })

Sau đó, chúng ta tìm metro là phần tử của thẻ span với item-address-georeferences-item__after

metro_dis = item.find('span',{'class','item-address-georeferences-item__after'})

Code full:

def parse_page(search, page):
  url = "https://www.avito.ru/moskva?q="+ search+"&p="+ str(page)
  wd = webdriver.Chrome('chromedriver',options=options)
  wd.get(url)
  soup = BeautifulSoup(wd.page_source)
  items = soup.find_all('div', {'class','item_table-wrapper' })
  df_data =  []
  for item in items:
  metro_dis = item.find('span',{'class','item-address-georeferences-item__after'})
metro_name = item.find('span',{'span','item-address-georeferences-item__content'})
item_name = item.find('a',{'class','snippet-link'}).text
item_price  = item.find('span',{'class','snippet-price'}).text
link = item.find('a',{'class','snippet-link'})
urls = re.findall(r'href=[\'"]?([^\'" >]+)', str(link))
urls = ', '.join(urls)
metro_name= metro_name.text if metro_name else None
metro_dis = metro_dis.text if metro_dis else None
data = {'название объявления':item_name,'ссылка на объявление':(str('https://www.avito.ru')+urls),
'цена':item_price.replace('\n ', ''),'метро':metro_name,'расстояние':metro_dis}
df_data.append(data)
dataframe = pd.DataFrame(data=df_data)
return dataframe
df = parse_page('гречка', 4)

Kết quả sẽ hiển thị như bên dưới

Tương tự với những Website khác.

Nguồn bài viết: Medium

Bài viết tương tự

BÌNH LUẬN BÀI VIẾT

Bài viết mới nhất

Lộ trình học Lập trình .NET Tóm tắt về JDK 8 đến JDK 21 Xác thực Facebook and Google sử dụng passport trong Node.js Quan hệ 1-1 (One-to-One) trong Dapper ASP.NET Core Razor Pages - Hướng dẫn tạo Project mới Hướng dẫn cách xoá khoảng trắng không mong muốn trong Microsoft Word Tìm hiểu về SOLID - Giải pháp trong phát triển phần mềm Sử dụng xác thực cookie mà không cần ASP.NET Core Identity Hướng dẫn sử dụng ckeditor5 miễn phí trong ASP.NET MVC Core Hướng dẫn Xây dựng Hệ thống Quản lý Tin tức kết hợp giữa ASP.NET MVC Core và Ajax

Xem tất cả

LIKE BOX

Bài viết được xem nhiều nhất

[TUT]Xây dựng Website Bán Hàng - Hướng dẫn tạo DataBase (91267) LẤY LẠI MẬT KHẨU SA TRONG SQL SERVER 2005 2008 (88200) Một số bài tập mẫu SQL(Phân I) (85854) CSS cho các thẻ theo trạng thái (link, hover, visited, active, focus) (79930) Các kiểu dữ liệu SQL (70810) Chuyển đổi giữa các hệ cơ số (70722) Kiểu dữ liệu Array và List trong C# (65459) Xây dựng Lớp Phân Số. Tính toán Cộng, trừ, nhân, chia (58483) Hướng dẫn khắc phục lỗi không tạo được Diagrams(sơ đồ quan hệ) trong SQL 2005/2008 (49824) [Java] Kết nối CSDL từ NetBean (39134)

Xem tất cả

HỌC HTML

Xem tất cả

Học Hệ thống Mạng

Xem tất cả

Điểm nhấn

Thủ thuật

TRAINING

Sử dụng Google Colab để Crawl dữ liệu với Selenium

Sử dụng Google Colab để Crawl dữ liệu với Selenium

Bài viết tương tự

Bài viết mới nhất

LIKE BOX

Bài viết được xem nhiều nhất

HỌC HTML

Học Hệ thống Mạng

DotNet Group - Chia sẻ & Kết nối

kiểm tra