Glossaryarrow
학습 데이터
학습 데이터

Training data는 AI 모델이 학습 과정에서 노출되는 기존 콘텐츠(이미지, 비디오, 텍스트, 오디오, 기타 미디어)의 모음으로, 모델이 패턴, 스타일, 관계, 시각 개념에 대한 이해를 도출하는 소스입니다. Training data의 특성이 모델이 아는 것, 생성할 수 있는 것, 출력에 담아 가는 편향이나 공백을 직접 형성합니다.

이미지·비디오 생성 모델의 training data는 일반적으로 이미지-텍스트 쌍 수백만~수십억 개로, 이미지가 설명 캡션 또는 메타데이터와 짝을 이루어 모델이 시각 콘텐츠와 언어를 연관 짓게 가르칩니다. 이 데이터셋의 다양성, 품질, 구성이 모델의 강점과 한계를 결정합니다. 서양 시각 문화에 주로 트레이닝된 모델은 다른 미학 전통에서 어려움을 겪을 수 있고, 고품질 전문 사진에 트레이닝된 모델은 저품질 인터넷 이미지에 트레이닝된 모델보다 더 좋아 보이는 출력을 낼 수 있으며, 특정 피사체나 스타일 예시가 충분하지 않게 트레이닝된 모델은 그 피사체를 불일치하게 생성하거나 전혀 생성하지 못합니다. Training data의 큐레이션·소싱은 AI 개발에서 가장 중요한 기술·윤리·법적 논의 중 하나입니다.

Training data를 이해하면 크리에이터가 특정 콘텐츠 유형에서는 잘하고 다른 유형에서는 어려워하는 이유를 밝혀 AI 도구를 더 효과적으로 다루는 데 도움이 됩니다. 모델이 특정 스타일, 피사체, 맥락을 설득력 있게 생성하는 데 일관되게 실패할 때, 가장 그럴듯한 설명은 해당 콘텐츠가 training data에서 과소 대표되었거나 없었다는 것이며, 이는 모델을 바꿀 때, 프롬프트 전략을 조정할 때, 파인튜닝으로 공백을 채울 때 유용한 진단이 됩니다.

Can't find what you are looking for?
Contact us and let us know.
bg