STEP 01

시작하기

워크스페이스를 만들고 목적을 정하면 Leaf가 나머지를 안내합니다.

01

워크스페이스 생성

팀/프로젝트 단위로 독립된 작업 공간을 만듭니다. 모델·데이터·평가 이력이 모두 이 워크스페이스에 쌓입니다.

leaf workspace create --name my-project
02

목적 선택

어떤 일을 시키려는지 선택합니다. Leaf는 목적에 따라 권장 모델·학습 방식·Capability를 자동으로 제안합니다.

고객 응대 / CS문서 분석 / RAG코드 어시스턴트데이터 추출 / Tool-use워크플로우 자동화커스텀 직접 설정
03

기반 모델 선택

Qwen, Gemma, Llama 등 오픈소스 모델 중 하나를 선택합니다. 모를 경우 '비교 워크벤치'에서 먼저 테스트해보세요.

Qwen2.5 · Gemma3 · Llama3.1
04

로컬 또는 클라우드 환경 선택

Mac (Apple Silicon + MLX) 또는 클라우드 GPU 중 선택합니다. 로컬은 프라이버시, 클라우드는 대용량 학습에 유리합니다.

Mac MLX · Cloud GPU

처음 시작한다면

목적을 "고객 응대 / CS"로 설정하면 Leaf가 Qwen2.5-3B 기반의 SFT + DPO 레시피와 샘플 데이터셋을 자동으로 준비해줍니다. 데이터가 없어도 바로 학습 흐름을 체험할 수 있습니다.

STEP 02

모델 플랜 생성

목적을 입력하면 Leaf가 최적의 모델 조합과 학습 방식을 추천합니다.

경량 응답형

Qwen2.5-3B / Gemma3-2B

빠른 응답이 중요한 CS·채팅·간단한 분류 업무. Mac M1에서도 실시간 추론 가능.

SFTDPOTool-use

문서 분석형

Qwen2.5-7B / Llama3.1-8B

긴 문서 요약, RAG 연동, 계약서 분석 등 컨텍스트가 중요한 업무.

SFTRAGMCP-use

코드 어시스턴트형

Qwen2.5-Coder-7B

코드 생성·리뷰·디버깅 전문. 사내 코드 컨벤션과 패턴을 학습시킬 수 있습니다.

SFTTool-useSelf-evolution

워크플로우 자동화형

Qwen2.5-7B + Harness

멀티스텝 작업 자동화, 외부 API 호출, 조건 분기 처리. Harness Loop 필수.

OrchestrationHarness-loopMCP-use

플랜 생성 결과 예시

기반 모델
Qwen2.5-3B-Instruct추천
학습 방식
SFT → DPO 순차 학습
Capability
Tool-use + Guardrails
예상 학습 시간
Mac M2 기준 약 45분
추천 데이터량
SFT 500건 이상 / DPO 200쌍 이상
STEP 03

모델 비교 워크벤치

같은 프롬프트로 여러 모델을 동시에 테스트하고 수치로 비교합니다.

응답 속도

토큰/초 기준 추론 속도 비교

한국어 품질

KoBenchmark 기반 자연어 이해도

코딩 능력

Tool-use 정확도

함수 호출 성공률 및 파라미터 정확도

긴 문서 처리

32K+ 컨텍스트에서의 정답률

메모리 사용량

추론 시 GPU/메모리 점유

워크벤치 사용법

1

비교할 모델 2~4개 선택 (예: Qwen2.5-3B vs Gemma3-4B vs Llama3.2-3B)

2

테스트 프롬프트 세트 업로드 또는 기본 제공 세트 선택

3

실행 버튼 — 동일 프롬프트를 모든 모델에 병렬 실행

4

응답 품질을 직접 채점하거나 자동 LLM Judge 사용

5

채점 결과 기반으로 베이스 모델 확정

STEP 04

데이터 팩토리

원시 데이터를 넣으면 학습 가능한 데이터셋이 나옵니다. 데이터가 없어도 합성 생성이 가능합니다.

1

소스 연결

CSV · JSON · PDF · DB · Webhook

CSV, JSON, PDF, 웹훅, DB 등 다양한 소스에서 원시 데이터를 가져옵니다.

2

프라이버시 필터

PII Masking

개인정보(이름·전화번호·이메일·주민번호)를 자동으로 감지하고 마스킹합니다.

3

태스크 분리

Success / Fail 분리

대화 로그에서 성공/실패 태스크를 분리합니다. 실패 케이스도 DPO 학습 데이터가 됩니다.

4

품질 평가

LLM Judge

LLM Judge가 각 데이터 쌍의 품질을 자동 채점합니다. 낮은 품질은 제거 또는 재생성합니다.

5

데이터셋 출력

sft.jsonl · dpo.jsonl · tool-use.jsonl

학습 방식에 맞는 형식으로 내보냅니다.

데이터가 없다면

업무 설명만 입력하면 Leaf가 합성 학습 데이터를 자동 생성합니다. "CS 챗봇, 환불 처리, 부드러운 말투"를 입력하면 수백 건의 대화 쌍이 만들어집니다.

leaf data generate --task "CS 환불 처리" --count 500

데이터 통계 예시

원시 대화 로그2,847건
PII 제거-143건
품질 미달 제거-412건
SFT 데이터1,892건
DPO 페어623쌍
STEP 05

Capability Layer 설정

모델에게 어떤 손발을 달아줄지 결정합니다. 이 설정이 모델의 실제 행동 범위를 결정합니다.

Skill

모델이 수행할 수 있는 특기 행동 목록. 예: 문서 요약, 코드 리뷰, 이메일 작성.

skills: [summarize, review_code, write_email]

Tool

외부 함수를 호출하는 능력. 날씨 API, DB 쿼리, 계산기 등을 연결합니다.

tools: [get_weather, query_db, calc]

MCP

Model Context Protocol 서버 연결. 파일 시스템·깃허브·Slack 등과 직접 통신합니다.

mcp: [filesystem, github, slack]

Workflow

여러 단계의 작업을 순서대로 실행하는 흐름. 조건 분기와 병렬 실행을 지원합니다.

workflow: [step1 → branch → step2a/2b → merge]

Harness

에이전트 실행 루프. 목표를 받아 계획·실행·검증·재시도를 스스로 반복합니다.

harness: {max_steps: 10, retry: 3}

Guardrails

모델이 해서는 안 되는 행동을 정의합니다. 규정 위반 응답, 민감 정보 유출 등을 차단합니다.

guardrails: [no_pii, no_hallucinate, safe_only]

Capability가 학습에 반영되는 방식

설정된 Capability는 시스템 프롬프트와 Tool Schema로 변환되어 학습 데이터에 자동으로 포함됩니다. 모델은 단순히 텍스트를 생성하는 것이 아니라, 어떤 도구를 언제 써야 하는지를 함께 학습합니다.

STEP 06

학습 팩토리

레시피를 선택하고 실행 버튼을 누르면 됩니다. 중간에 중단하고 재개할 수 있습니다.

SFT 기본

~45분

정답 예시를 보여주며 패턴을 가르칩니다. 처음 학습에 적합.

적합: 신규 모델, 도메인 적응

DPO 정렬

~30분

좋은 응답 vs 나쁜 응답 쌍으로 선호도를 학습합니다.

적합: 말투·톤 개선, 안전성 강화

Tool-use 전문

~60분

외부 함수를 언제, 어떻게 쓸지 집중 학습합니다.

적합: API 연동, 자동화 워크플로우

Harness-loop

~90분

목표 달성까지 스스로 반복하는 에이전트 행동을 학습합니다.

적합: 복잡한 멀티스텝 태스크

실행 환경 설정

로컬 (Mac MLX)

  • Apple M1/M2/M3 필요
  • 4GB VRAM 이상
  • 오프라인 학습 가능
  • 최대 7B 모델

로컬 (NVIDIA GPU)

  • CUDA 12+ 필요
  • 8GB VRAM 이상
  • 16B 모델까지 가능
  • Linux 권장

클라우드 GPU

  • 신용카드 없이 시작
  • A100 · H100 선택
  • 대용량 데이터 학습
  • 결과 자동 다운로드
STEP 07

평가 / 벤치마크

Base 모델과 Fine-tuned 모델을 나란히 비교해서 성능 향상을 수치로 확인합니다.

BLEU / ROUGE

텍스트 생성 품질 — 참조 응답 대비 유사도

Task Success Rate

목표 태스크를 성공적으로 완수한 비율

Tool Call Accuracy

올바른 도구를 올바른 파라미터로 호출한 비율

Hallucination Rate

사실이 아닌 내용을 생성한 비율

Latency (p50/p95)

응답 속도 중앙값과 꼬리 지연

LLM Judge Score

Claude/GPT가 응답 품질을 1~10으로 채점

평가 리포트 예시

지표BaseFine-tuned변화
Task Success Rate61%89%+28%
Tool Call Accuracy54%94%+40%
Hallucination Rate18%4%-14%
Latency p501.2s0.9s-25%
LLM Judge Score6.18.7+2.6
STEP 08

패키징 / 내보내기

학습된 모델과 실행에 필요한 모든 설정을 하나의 Intelligence Pack으로 묶어서 내보냅니다.

지원 포맷

GGUF

llama.cpp · Ollama 로컬 실행용

로컬
MLX

Apple Silicon Mac 최적화 포맷

Mac
HuggingFace

HF Hub 직접 업로드 또는 로컬 저장

범용
vLLM-ready

클라우드 GPU 서빙 최적화

클라우드

Intelligence Pack 구성 (14종)

01Base Model (GGUF / MLX / HF)
02LoRA Adapter
03Tokenizer
04System Prompt
05Skill Definitions
06Tool Schema
07MCP Config
08Harness Loop Policy
09Guardrails
10Evaluation Policy
11RAG Config
12Runtime Config
13Deployment Manifest
14Eval Report

Intelligence Pack은 단순한 모델 파일이 아닙니다. 이 팩 하나만 있으면 어디서든 동일한 환경으로 모델을 실행할 수 있습니다. 팀원에게 공유하거나 다른 서버에 배포할 때 설정을 다시 만들 필요가 없습니다.

STEP 09

배포 / 서빙

Intelligence Pack을 로컬 또는 클라우드에 바로 배포합니다. API 엔드포인트가 자동으로 생성됩니다.

로컬 배포

MLX (Mac)

leaf serve --pack ./my-pack.leafpack --backend mlx

Ollama

leaf serve --pack ./my-pack.leafpack --backend ollama

실행 후 http://localhost:7878/api/chat로 OpenAI 호환 API 엔드포인트가 생성됩니다.

클라우드 배포

vLLM

leaf deploy --pack ./my-pack.leafpack --backend vllm --gpu A100

LoRAX

leaf deploy --pack ./my-pack.leafpack --backend lorax --multi

LoRAX를 사용하면 하나의 Base Model 위에 여러 LoRA Adapter를 동시에 서빙할 수 있습니다. 고객별 모델을 운영할 때 비용이 크게 줄어듭니다.

모니터링 & 운영

요청 로깅

모든 요청과 응답을 자동으로 기록합니다. 이 로그가 다음 학습 데이터가 됩니다.

성능 대시보드

레이턴시·처리량·에러율을 실시간으로 모니터링합니다.

드리프트 감지

모델 성능이 떨어지면 자동으로 알림을 보냅니다.

STEP 10

지속학습

배포 후에도 모델은 계속 강해집니다. 실행 로그가 쌓이면 Leaf가 자동으로 재학습을 제안합니다.

재학습 트리거

성공률 하락

태스크 성공률이 설정한 임계값 아래로 떨어지면 자동 알림

드리프트 감지

입력 데이터 분포가 학습 데이터와 크게 달라진 경우

누적 로그 기준

새 대화 로그가 N건 쌓이면 자동으로 재학습 제안

수동 트리거

새 업무 규정, 상품 업데이트 등 변화 발생 시 직접 실행

에이전트 경험 → 재학습 루프

1
실행에이전트가 실제 업무를 처리합니다
2
로깅성공·실패·피드백이 모두 기록됩니다
3
정제데이터 팩토리가 로그를 학습 데이터로 변환합니다
4
재학습학습 팩토리가 자동으로 레시피를 실행합니다
5
배포개선된 모델이 자동으로 교체됩니다
6
반복다시 실행 — 모델은 쓸수록 강해집니다

이 루프가 돌아갈수록 모델은 당신의 서비스에 더 깊이 최적화됩니다. 6개월 후의 모델은 처음과 완전히 다른 수준이 됩니다.그것이 Leaf Model Factory의 목표입니다.