워크스페이스를 만들고 목적을 정하면 Leaf가 나머지를 안내합니다.
팀/프로젝트 단위로 독립된 작업 공간을 만듭니다. 모델·데이터·평가 이력이 모두 이 워크스페이스에 쌓입니다.
leaf workspace create --name my-project어떤 일을 시키려는지 선택합니다. Leaf는 목적에 따라 권장 모델·학습 방식·Capability를 자동으로 제안합니다.
Qwen, Gemma, Llama 등 오픈소스 모델 중 하나를 선택합니다. 모를 경우 '비교 워크벤치'에서 먼저 테스트해보세요.
Mac (Apple Silicon + MLX) 또는 클라우드 GPU 중 선택합니다. 로컬은 프라이버시, 클라우드는 대용량 학습에 유리합니다.
처음 시작한다면
목적을 "고객 응대 / CS"로 설정하면 Leaf가 Qwen2.5-3B 기반의 SFT + DPO 레시피와 샘플 데이터셋을 자동으로 준비해줍니다. 데이터가 없어도 바로 학습 흐름을 체험할 수 있습니다.
목적을 입력하면 Leaf가 최적의 모델 조합과 학습 방식을 추천합니다.
빠른 응답이 중요한 CS·채팅·간단한 분류 업무. Mac M1에서도 실시간 추론 가능.
긴 문서 요약, RAG 연동, 계약서 분석 등 컨텍스트가 중요한 업무.
코드 생성·리뷰·디버깅 전문. 사내 코드 컨벤션과 패턴을 학습시킬 수 있습니다.
멀티스텝 작업 자동화, 외부 API 호출, 조건 분기 처리. Harness Loop 필수.
같은 프롬프트로 여러 모델을 동시에 테스트하고 수치로 비교합니다.
토큰/초 기준 추론 속도 비교
KoBenchmark 기반 자연어 이해도
함수 호출 성공률 및 파라미터 정확도
32K+ 컨텍스트에서의 정답률
추론 시 GPU/메모리 점유
비교할 모델 2~4개 선택 (예: Qwen2.5-3B vs Gemma3-4B vs Llama3.2-3B)
테스트 프롬프트 세트 업로드 또는 기본 제공 세트 선택
실행 버튼 — 동일 프롬프트를 모든 모델에 병렬 실행
응답 품질을 직접 채점하거나 자동 LLM Judge 사용
채점 결과 기반으로 베이스 모델 확정
원시 데이터를 넣으면 학습 가능한 데이터셋이 나옵니다. 데이터가 없어도 합성 생성이 가능합니다.
CSV, JSON, PDF, 웹훅, DB 등 다양한 소스에서 원시 데이터를 가져옵니다.
개인정보(이름·전화번호·이메일·주민번호)를 자동으로 감지하고 마스킹합니다.
대화 로그에서 성공/실패 태스크를 분리합니다. 실패 케이스도 DPO 학습 데이터가 됩니다.
LLM Judge가 각 데이터 쌍의 품질을 자동 채점합니다. 낮은 품질은 제거 또는 재생성합니다.
학습 방식에 맞는 형식으로 내보냅니다.
업무 설명만 입력하면 Leaf가 합성 학습 데이터를 자동 생성합니다. "CS 챗봇, 환불 처리, 부드러운 말투"를 입력하면 수백 건의 대화 쌍이 만들어집니다.
모델에게 어떤 손발을 달아줄지 결정합니다. 이 설정이 모델의 실제 행동 범위를 결정합니다.
모델이 수행할 수 있는 특기 행동 목록. 예: 문서 요약, 코드 리뷰, 이메일 작성.
외부 함수를 호출하는 능력. 날씨 API, DB 쿼리, 계산기 등을 연결합니다.
Model Context Protocol 서버 연결. 파일 시스템·깃허브·Slack 등과 직접 통신합니다.
여러 단계의 작업을 순서대로 실행하는 흐름. 조건 분기와 병렬 실행을 지원합니다.
에이전트 실행 루프. 목표를 받아 계획·실행·검증·재시도를 스스로 반복합니다.
모델이 해서는 안 되는 행동을 정의합니다. 규정 위반 응답, 민감 정보 유출 등을 차단합니다.
설정된 Capability는 시스템 프롬프트와 Tool Schema로 변환되어 학습 데이터에 자동으로 포함됩니다. 모델은 단순히 텍스트를 생성하는 것이 아니라, 어떤 도구를 언제 써야 하는지를 함께 학습합니다.
레시피를 선택하고 실행 버튼을 누르면 됩니다. 중간에 중단하고 재개할 수 있습니다.
정답 예시를 보여주며 패턴을 가르칩니다. 처음 학습에 적합.
좋은 응답 vs 나쁜 응답 쌍으로 선호도를 학습합니다.
외부 함수를 언제, 어떻게 쓸지 집중 학습합니다.
목표 달성까지 스스로 반복하는 에이전트 행동을 학습합니다.
Base 모델과 Fine-tuned 모델을 나란히 비교해서 성능 향상을 수치로 확인합니다.
텍스트 생성 품질 — 참조 응답 대비 유사도
목표 태스크를 성공적으로 완수한 비율
올바른 도구를 올바른 파라미터로 호출한 비율
사실이 아닌 내용을 생성한 비율
응답 속도 중앙값과 꼬리 지연
Claude/GPT가 응답 품질을 1~10으로 채점
| 지표 | Base | Fine-tuned | 변화 |
|---|---|---|---|
| Task Success Rate | 61% | 89% | +28% |
| Tool Call Accuracy | 54% | 94% | +40% |
| Hallucination Rate | 18% | 4% | -14% |
| Latency p50 | 1.2s | 0.9s | -25% |
| LLM Judge Score | 6.1 | 8.7 | +2.6 |
학습된 모델과 실행에 필요한 모든 설정을 하나의 Intelligence Pack으로 묶어서 내보냅니다.
llama.cpp · Ollama 로컬 실행용
Apple Silicon Mac 최적화 포맷
HF Hub 직접 업로드 또는 로컬 저장
클라우드 GPU 서빙 최적화
Intelligence Pack은 단순한 모델 파일이 아닙니다. 이 팩 하나만 있으면 어디서든 동일한 환경으로 모델을 실행할 수 있습니다. 팀원에게 공유하거나 다른 서버에 배포할 때 설정을 다시 만들 필요가 없습니다.
Intelligence Pack을 로컬 또는 클라우드에 바로 배포합니다. API 엔드포인트가 자동으로 생성됩니다.
MLX (Mac)
Ollama
실행 후 http://localhost:7878/api/chat로 OpenAI 호환 API 엔드포인트가 생성됩니다.
vLLM
LoRAX
LoRAX를 사용하면 하나의 Base Model 위에 여러 LoRA Adapter를 동시에 서빙할 수 있습니다. 고객별 모델을 운영할 때 비용이 크게 줄어듭니다.
모든 요청과 응답을 자동으로 기록합니다. 이 로그가 다음 학습 데이터가 됩니다.
레이턴시·처리량·에러율을 실시간으로 모니터링합니다.
모델 성능이 떨어지면 자동으로 알림을 보냅니다.
배포 후에도 모델은 계속 강해집니다. 실행 로그가 쌓이면 Leaf가 자동으로 재학습을 제안합니다.
태스크 성공률이 설정한 임계값 아래로 떨어지면 자동 알림
입력 데이터 분포가 학습 데이터와 크게 달라진 경우
새 대화 로그가 N건 쌓이면 자동으로 재학습 제안
새 업무 규정, 상품 업데이트 등 변화 발생 시 직접 실행
이 루프가 돌아갈수록 모델은 당신의 서비스에 더 깊이 최적화됩니다. 6개월 후의 모델은 처음과 완전히 다른 수준이 됩니다.그것이 Leaf Model Factory의 목표입니다.