Glossary Model Training 1 min read

Training Data

Also known as: Training Dataset, Training Corpus, Training Set

The curated dataset used to train machine learning models, whose quality, diversity, size, and representativeness directly determine the model's capabilities and limitations.

Dataset, training set, labeled data, data collection, data preprocessing, data augmentation, data quality, data curation, synthetic data, benchmark dataset, data bias, data annotation, data pipeline, corpus, data governance

Sources & References

Scaling Data-Constrained Language Models

Hugging Face / EleutherAI

Research

Datasheets for Datasets

Microsoft Research

Research

The Foundation Model Transparency Index

Stanford HAI

Research

Related Terms

Bias in AI

Systematic errors in AI system outputs that create unfair outcomes for certain groups, typically arising from biased training data, flawed model design, or biased evaluation metrics.

Fine-Tuning

The process of further training a pre-trained AI model on a specialized dataset to adapt its behavior, knowledge, or output style for a specific domain or task.

Machine Learning

A subset of artificial intelligence that enables systems to learn and improve from experience without being explicitly programmed, using algorithms that identify patterns in data.

Supervised Learning

A machine learning paradigm where models are trained on labeled datasets containing input-output pairs, learning to map inputs to correct outputs for prediction and classification tasks.

Previous Tokens

Next Transformer

Back to Glossary

MCP Tutorials

RAG Cookbook

Library Integrations

Context Window Engineering

Embeddings & Retrieval

Tool Use & Function Calling

Training Data

Sources & References

Related Terms

Bias in AI

Fine-Tuning

Machine Learning

Supervised Learning