Dự án này cào dữ liệu điểm thi THPTQG 2024 từ trang web chính thức. Nó giúp bạn thu thập dữ liệu, phân tích và xử lý để có được cái nhìn rõ hơn về kết quả thi.
- Cài đặt phiên bản Python mới nhất
- Các thư viện cần thiết (cài bằng
pip install -r requirements.txt
):- requests
- pandas
git clone https://github.com/lequangkhai06/crawl-diem-thptqg.git
cd crawl-diem-thptqg
pip install -r requirements.txt
Chỉnh sửa file config.json
để thay đổi các thông tin:
cityCode
: Mã tỉnh.year
: Năm.maxRange
: Giới hạn tối đa.fileName
: Tên file đầu ra lưu điểm (CSV).
python main.py
Kết quả sẽ được lưu trong file CSV mà bạn cấu hình ở bước trước.
crawl-diem-thptqg/
├── main.py # File chính để chạy chương trình
├── sort.py # Hàm sắp xếp dữ liệu
├── config.json # File cấu hình
├── requirements.txt# Danh sách các thư viện cần thiết
├── README.md # File hướng dẫn (file này)
- Hãy đảm bảo rằng bạn tuân thủ các quy định pháp luật và chính sách bảo mật của trang web mà bạn cào dữ liệu.
- Đề xuất dùng với mục đích học thuật hoặc phân tích cá nhân, không sử dụng cho mục đích thương mại.
Nếu bạn muốn đóng góp vào dự án, hãy tạo Pull Request hoặc gửi issue để trao đổi ý kiến.