Cách lấy dữ liệu trên website bằng Python
Để lấy dữ liệu từ một trang web trong Python, chúng ta có thể sử dụng thư viện requests để gửi yêu cầu HTTP đến trang web và thư viện beautifulsoup4 để phân tích cú pháp HTML của trang web. Dưới đây là một ví dụ đơn giản về cách lấy dữ liệu từ một trang web trong Python:
import requests
from bs4 import BeautifulSoup
# Gửi yêu cầu HTTP đến trang web
url = 'https://www.example.com'
response = requests.get(url)
# Kiểm tra trạng thái phản hồi
if response.status_code == 200:
# Phân tích cú pháp HTML của trang web
soup = BeautifulSoup(response.content, 'html.parser')
# Lấy tiêu đề của trang web
title = soup.title.string
print('Tiêu đề:', title)
# Lấy toàn bộ nội dung của thẻ div có class là "content"
content_div = soup.find('div', class_='content')
content = content_div.get_text()
print('Nội dung:', content)
else:
print('Không thể kết nối đến trang web')
Ở đây, chúng ta gửi yêu cầu HTTP đến trang web bằng phương thức requests.get() và kiểm tra trạng thái phản hồi bằng thuộc tính status_code. Nếu phản hồi có trạng thái là 200, chúng ta phân tích cú pháp HTML của trang web bằng BeautifulSoup và sử dụng phương thức find() để tìm thẻ HTML có class là “content”. Sau đó, chúng ta lấy nội dung của thẻ HTML đó bằng phương thức get_text().