Giới thiệu
Trong Chương 3, bạn sẽ lần đầu được trải nghiệm thư viện 🤗 Datasets và thấy rằng có ba bước chính khi tinh chỉnh một mô hình:
- Tải tập dữ liệu từ Hugging Face Hub.
- Tiền xử lý dữ liệu với
Dataset.map()
. - Tải và tính toán các chỉ số.
Nhưng đây chỉ là bề nổi của những gì 🤗 Datasets có thể làm! Trong chương này, chúng ta sẽ đi sâu vào thư viện. Trong hành trình này, chúng ta sẽ tìm câu trả lời cho những câu hỏi sau:
- Bạn làm gì khi bộ dữ liệu của bạn không có trên Hub?
- Làm thế nào bạn có thể chia một bộ dữ liệu? (Và điều gì sẽ xảy ra nếu bạn thực sự cần sử dụng Pandas?)
- Bạn sẽ làm gì khi bộ dữ liệu của bạn rất lớn và sẽ làm tràn RAM của máy tính xách tay của bạn?
- “Bản đồ bộ nhớ” và Apache Arrow là cái quái gì vậy?
- Làm cách nào bạn có thể tạo bộ dữ liệu của riêng mình và đẩy nó lên Hub?
Các kỹ thuật bạn học được ở đây sẽ giúp bạn chuẩn bị cho các tác vụ tinh chỉnh và tokenize nâng cao trong Chương 6 và Chương 7 - vì vậy hãy uống một ly cà phê và bắt đầu thôi!