LLM Course

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

Introducción

En el Capítulo 3 tuviste tu primer acercamiento a la librería 🤗 Datasets y viste que existían 3 pasos principales para ajustar un modelo:

Cargar un conjunto de datos del Hub de Hugging Face.
Preprocesar los datos con Dataset.map().
Cargar y calcular métricas.

¡Esto es apenas el principio de lo que 🤗 Datasets puede hacer! En este capítulo vamos a estudiar a profundidad esta librería y responderemos las siguientes preguntas:

¿Qué hacer cuando tu dataset no está en el Hub?
¿Cómo puedes subdividir tu dataset? (¿Y qué hacer si realmente necesitas usar Pandas?)
¿Qué hacer cuando tu dataset es enorme y consume toda la RAM de tu computador?
¿Qué es la proyección en memoria (memory mapping) y Apache Arrow?
¿Cómo puedes crear tu propio dataset y subirlo al Hub?

Las técnicas que aprenderás aquí te van a preparar para las tareas de tokenización avanzada y ajuste que verás en el Capítulo 6 y el Capítulo 7. ¡Así que ve por un café y arranquemos!

Update on GitHub

←Quiz de final de capítulo ¿Y si mi dataset no está en el Hub?→