NLP Course documentation

本章簡介

Hugging Face's logo
Join the Hugging Face community

and get access to the augmented documentation experience

to get started

本章簡介

Ask a Question

第三章第一次體驗了 🤗Datasets 庫,並發現在微調模型時有三個主要步驟:

  1. 從 Hugging Face Hub 加載一個數據集。
  2. 使用 Dataset.map() 對數據進行預處理。
  3. 載入和計算指標(特徵)。

但這只是🤗 Datasets的表面功能而已!在本章中,我們將深入瞭解這個庫。在此過程中,我們將找到以下問題的答案:

  • 當數據集不在 hub 上時,您該怎麼做?
  • 如何對數據集進行切片?(如果你真正的特別需要使用pandas的時候該怎麼辦?)
  • 當你的數據集很大,會撐爆你筆記本電腦的RAM時,你會怎麼做?
  • 「內存映射」和 Apache Arrow 到底是什麼?
  • 如何創建自己的數據集並將其推送到中心?

您在這裡學到的技術將為您在第6章第7章中的高級標記化和微調任務做好準備——所以,喝杯咖啡,讓我們開始吧!