메뉴얼
Model Compare → Train

학습 연동

비교 엔진에서 쌓인 Judge·별점 기반을 SFT/DPO 샘플로 묶어 데이터셋 레지스트리에 넣고, 파인튜닝 잡으로 이어집니다. 통계 그래프는 비교 화면에 두고, 반복 작업·등록은 이 메뉴에서 처리합니다.

Leaf Model Factory

비교 결과 → 파인튜닝 잡

별점·Judge가 붙은 응답만 학습 데이터로 모읍니다. 아래에서 데이터셋 레지스트리에 바로 등록한 뒤, 파인튜닝 잡 관리에서 베이스 모델·레시피를 골라 학습하세요.

라벨 분포

SFT는 ★4–5, DPO는 같은 프롬프트에 good vs bad 페어가 필요합니다.

0
chosen (★4–5)
0
neutral (★3)
0
rejected (★1–2)

데이터셋 등록

서버에 JSONL 파일로 저장되고 datasets.json에 메타가 추가됩니다.

SFT
★4–5 응답 0건 → instruction / output
DPO
chosen vs rejected 페어 0