Question 1

AI에서 데이터셋이란 무엇입니까?

Accepted Answer

데이터셋은 AI 모델이 학습하는 예시의 모음입니다. 이미지 및 영상 생성에서 데이터셋은 텍스트 설명과 짝지어진 이미지나 영상으로 구성되며, 모델은 이로부터 언어와 시각 콘텐츠 사이의 관계를 이해하도록 학습합니다.

Question 2

데이터셋은 AI 생성 품질에 왜 중요합니까?

Accepted Answer

데이터셋은 모델이 무엇을 학습했는지를 결정하며, 여기에는 어떤 주제, 스타일, 시나리오를 다룰 수 있는지, 어떤 편향을 반영할 수 있는지, 능력이 어디서 끝나는지가 포함됩니다. 모델의 결과물은 근본적으로 학습 데이터의 콘텐츠, 다양성, 품질에 의해 형성됩니다.

Question 3

주요 AI 이미지 모델을 학습시키는 데 쓰이는 데이터셋은 얼마나 큽니까?

Accepted Answer

이미지 생성을 위한 파운데이션 모델은 보통 수억에서 수십억 개의 이미지-텍스트 쌍으로 학습됩니다. 이 규모는 사용자가 프롬프트로 묘사할 수 있는 막대한 다양성의 주제, 스타일, 조합을 다루는 데 필요한 폭을 제공합니다.

Question 4

파인튜닝 데이터셋이란 무엇입니까?

Accepted Answer

파인튜닝 데이터셋은 이미 학습된 모델을 특정 주제, 스타일, 또는 도메인에 특화시키는 데 쓰이는 더 작고 큐레이션된 모음입니다. 예를 들어 특정 캐릭터의 이미지 10~30장을 사용해 모델이 그 캐릭터를 일관되게 생성하도록 파인튜닝할 수 있습니다.

Question 5

데이터셋 구성은 모델 편향에 어떻게 영향을 줍니까?

Accepted Answer

모델은 데이터셋에 내재된 문화적, 인구학적, 미적 편향을 포함해 학습 데이터에 존재하는 통계적 패턴을 학습합니다. 특정 주제, 문화적 맥락, 또는 시각 스타일이 데이터에 잘 표현되지 않으면 모델은 그것들을 덜 안정적으로 다룹니다.

Question 6

합성 데이터셋이란 무엇입니까?

Accepted Answer

합성 데이터셋은 실세계 데이터가 아니라 인위적으로 생성된 예시로 구성됩니다. 합성 데이터셋은 필요한 규모로 실제 예시를 수집하는 것이 비현실적이거나, 특정 유형의 학습 예시를 실세계에서 조달하기 어려울 때 쓰입니다.

Question 7

맞춤 파인튜닝 모델을 위한 데이터셋을 어떻게 만듭니까?

Accepted Answer

다양한 각도, 조명, 거리를 포함한 여러 조건에서 피사체의 고품질 이미지 집합을 큐레이션하세요. 양보다 변이와 품질을 우선하세요. 거의 동일한 이미지를 더 많이 모으는 것보다 다양하고 잘 큐레이션된 이미지 10~30장이 보통 더 나은 파인튜닝 모델 결과를 산출합니다.

Question 8

학습 데이터와 테스트 데이터의 차이는 무엇입니까?

Accepted Answer

학습 데이터는 모델을 학습시키는 데 쓰이는 데이터셋의 일부로, 모델이 이로부터 매개변수를 학습합니다. 테스트 데이터는 학습 중에 보지 못한 보류된 부분으로, 모델이 새 예시에 얼마나 잘 일반화하는지 평가하는 데 쓰입니다. 이 두 집합을 분리해 두면 평가가 암기가 아니라 실세계 성능을 반영하게 됩니다.

데이터셋 (Dataset)

데이터셋 (Dataset)이란?

장면을 연출하고, 캐릭터를 디자인하고, 한 편의 영화까지 완성하세요

유형과 변형

Morphic에서 첫 장면을 만들어 볼까요?

주요 활용 사례

장면을 연출하고, 캐릭터를 디자인하고, 한 편의 영화까지 완성하세요

FAQ