Leaf Model Factory · SaaS for Private AI

기업 데이터로 학습하고
자체 모델로 운영하는
멀티모달 AI 모델 팩토리

누구나 자기 회사 전용 LLM · 코딩 · 이미지 · 영상 · 음성 · 아바타 모델을 조합하고, 학습하고, 양자화하고, 배포합니다. 맥(MLX/Ollama) 이든 클라우드(vLLM/LoRAX) 든 같은 Job Spec. 데이터는 사용자 환경에서 떠나지 않습니다.

Base Models
9+
Qwen · Gemma · DeepSeek · Llama · Mistral
학습 방법
LoRA · QLoRA · DPO
OFT / KTO / ORPO 옵션
런타임
Mac & Cloud
MLX · Ollama · vLLM · LoRAX
멀티모달
6 종
LLM · Code · Image · Video · Voice · Avatar
OpenAI-compatible API·BYO Keys·Self-Hosted by Default·FedAvg + 4-Layer Privacy·Mac M3 friendly·OSS Apache-2.0
How it works

5 단계로 만드는 회사 전용 AI

기성 AI 한테 우리 회사 말투/지식을 가르쳐서 우리만의 모델을 만드는 흐름. 모든 단계는 같은 워크스페이스에서.

Multimodal Composition

하나의 모델이 아니라, 모델 조합

LLM, 코딩, 이미지, 영상, 음성, 아바타 모델을 목적별로 조합. Tool-use 학습으로 한 SLLM 이 모든 도구를 정확히 호출. Qwen · Gemma · Llama 같은 오픈소스 기능 결합형 모델을 누구나.

Killer Differentiator · Federated Learning

데이터는 떠나지 않고,
지능만 옮겨갑니다

회사 데이터는 외부로 한 발자국도 안 나갑니다. 로컬 학습 → adapter weight 와 학습 증명 메타데이터만 중앙으로 안전 집계. FedAvg / FedProx + AES-256-GCM + Differential Privacy + Post-Quantum Ready.

에이전트가 일하면서 만든 실행 로그 → SFT/DPO 자동 변환 → 중앙 어댑터 재학습 → Intelligence Pack 으로 다시 로컬에 배포. AI 가 AI 를 학습시키는 자가진화 루프.

FedAvg 대시보드
Proof Dashboard 지표
Before / After 점수
고정 평가셋 기준 학습 전후 점수 차이
참여 노드별 loss 변화
client_id 별 train/eval loss · adapter hash
FedAvg 라운드 로그
round_id · 참여 client 수 · global adapter version
프라이버시 메타데이터
전송 암호화 · DP epsilon · PQC KEM 옵션
Pricing

Quick 으로 시작하고, Enterprise 로 운영

무료 Quick 에서 만든 모델·데이터셋은 Enterprise 로 그대로 carry over. 결제는 도입 시점에만.

Quick · Free
$0

Mac 로컬 1 워크스페이스. Ollama/MLX 로 무료 무한.

  • 8 코어 모델 팩토리
  • Qwen 3B/7B 파인튜닝 시뮬레이터
  • 모델 비교 워크벤치 (4단 동선)
  • BYO Keys (Gemini)
  • 데이터 100% 로컬
Quick 시작
POPULAR
Team
$49 / mo

LlamaFactory 연동 + 다중 어댑터 + 팀 권한.

  • Quick 의 모든 기능
  • 멀티 워크스페이스
  • vLLM 배포 가이드
  • 감사 로그 + 권한관리
  • 최대 5 명 동시
문의
Enterprise
문의

FedAvg + 4계층 프라이버시. 온프레미스/VPC 설치 + 전담 SE.

  • Federated Learning
  • Post-Quantum 암호 옵션
  • 기업별 LoRA 어댑터 무제한
  • Agent Experience Learning Loop
  • 전담 솔루션 엔지니어
  • SLA · 24/7
영업 문의
↓ Developer Manual · 개발자 기술 레퍼런스 ↓

아래부터 전체 페이지 링크 · API 레퍼런스 · 기술스택 · 개발 셋업 가이드

System Architecture

전체 시스템이 연결되는 방식

Quick Mode · /aiworks

Mac 로컬 즉시 시작. 8 코어 + Ollama/MLX. 계정 불필요, 무료 무제한.

모델 레지스트리 → 베이스 모델 선택
데이터셋 빌더 → JSONL SFT/DPO 변환
비교 워크벤치 → 4단 동선
파인튜닝 잡 → QLoRA 시뮬레이터 + 실 MLX
어댑터 레지스트리 → LoRA 버전 관리
평가 엔진 → LLM-as-Judge (ollama→gemini 폴백)
양자화 내보내기 → GGUF Q4_K_M → Ollama
패키지 빌더 → 어댑터+Tool+RAG+Runtime
Enterprise Mode · /finetuning

Quick 전체 포함 + 멀티모달 + 연합학습 + 노드 관리 + 프로덕션 서빙.

Quick 8 코어 전체 포함
멀티모달 조합 (이미지·영상·음성·코딩·아바타)
FedAvg 연합학습 (로컬 학습 → weight만 집계)
노드 관리 (참여 클라이언트 풀)
경험 학습 루프 (에이전트 실행 → SFT 자동)
보안 대시보드 (암호화·DP·PQC)
vLLM + LoRAX 프로덕션 서빙
재학습 스케줄러 + 레시피 관리
전체 데이터 흐름
기업 문서·대화·코드Dataset BuilderJSONL (SFT/DPO)Compare WorkbenchFine-tune JobLoRA AdapterGGUF Q4_K_MOllama / vLLMOpenAI API
공유 SQLite 스토어
Quick ↔ Enterprise 동일 DB. better-sqlite3 WAL 모드. 잡·데이터셋·어댑터 모두 JSON 직렬화 저장. 마이그레이션 자동.
LLM 추론 레이어
lib/llm.ts 단일 진입점. Ollama qwen2.5:3b 기본 → 실패 시 Gemini 2.5 Flash 폴백. Tools API 금지, chat completion only.
헌법 (Constitution)
4종 아웃바운드 차단: GitHub upstream · 외부 LLM 직접 호출 · 텔레메트리 · 자동 업데이트. 3개 검증 스크립트 매 커밋 전.
Quick Navigation

전체 페이지 바로가기

40+ 페이지를 기능 그룹별 정리. teal=Quick · violet=Enterprise · fuchsia=멀티모달/연합학습. 클릭하면 해당 페이지로 이동.

Pipeline Deep-dive

파이프라인 단계별 상세

1
1단계 · 데이터셋 구축

기업 문서, 대화 로그, 코드, DB 데이터를 SFT/DPO/Tool-use JSONL 포맷으로 변환합니다. 멀티모달(이미지·영상·음성)은 VL-SFT 포맷으로 별도 처리. 민감 정보 자동 마스킹. 전체 검증 버튼으로 모든 데이터셋의 토큰 수 추정 및 포맷 검증 일괄 수행. MmUploadPanel 드래그앤드롭으로 멀티모달 JSONL 업로드.

Dataset BuilderCurateMmUploadPanelVL-SFT JSONL/api/finetune/datasets/validate
2
2단계 · 모델 비교 & 선택

9+ 베이스 모델을 동일한 프롬프트로 동시 실행하여 속도·품질·비용 비교. 4단 동선(모델 선택→프롬프트 테스트→통계 분석→학습 연동)으로 최적 베이스 모델 확정. Ollama로 실제 추론, Gemini 폴백. 통계 차트(latency·token/s·cost).

Compare WorkbenchOllama APIGemini FallbackStats Chart
3
3단계 · 파인튜닝

베이스 모델 + 데이터셋으로 LoRA/QLoRA/DPO 학습 실행. Mac M3(MLX), 로컬 GPU(LlamaFactory), 클라우드(Axolotl/Unsloth) 모두 동일 Job Spec. 학습 중 SSE 스트리밍으로 loss·lr·judge 실시간. DangerButton으로 즉시 취소.

MLX loraLlamaFactoryUnslothSSE StreamQLoRA BF16/api/finetune/runs/[id]/stream
4
4단계 · 양자화 & 내보내기

완료된 LoRA 어댑터를 GGUF Q4_K_M으로 양자화 (14GB→4GB). mlx_lm.fuse로 베이스 병합 → llama.cpp로 GGUF 변환. Modelfile 자동 생성, ollama create 자동 실행. 어댑터 레지스트리에 버전 등록. AWQ(W4A16)/FP8 옵션. ollama run <name> 복사 버튼.

mlx_lm.fusellama.cppGGUF Q4_K_MAWQ W4A16ollama createModelfile
5
5단계 · 배포 & 운영

Ollama 로컬(Mac) 또는 vLLM/LoRAX(GPU 서버)로 배포. 모두 OpenAI-compatible API 엔드포인트. LoRAX는 단일 GPU에 수천 기업별 어댑터 동적 서빙 가능. 플레이그라운드에서 채팅 테스트. 모델 라우터로 다중 어댑터 라우팅.

OllamavLLMLoRAXOpenAI APIModel Router
API Reference

REST API 엔드포인트

모든 API는 Next.js App Router Route Handler. 학습 스트리밍은 SSE. 추론 엔드포인트는 OpenAI API 100% 호환.

파인튜닝 잡
GET
/api/finetune/jobs
전체 잡 목록 반환
POST
/api/finetune/jobs
새 학습 잡 생성. body: { datasetId, baseModel, method, hyperparams }
GET
/api/finetune/jobs/[id]
특정 잡 상세 정보
POST
/api/finetune/jobs/[id]/cancel
실행 중 잡 취소. DangerButton 연결.
SSE
/api/finetune/runs/[id]/stream
학습 로그 SSE 스트리밍. loss·lr·step·judge 실시간.
데이터셋
GET
/api/finetune/datasets
전체 데이터셋 목록
POST
/api/finetune/datasets
데이터셋 생성/업서트
POST
/api/finetune/datasets/validate
모든 JSONL 전체 검증. 포맷 오류·토큰 수 추정 반환.
POST
/api/finetune/datasets/import-multimodal
멀티모달 JSONL 업로드. multipart/form-data. VL-SFT 포맷 검증.
어댑터
GET
/api/finetune/adapters
전체 어댑터 목록. ollamaModelName 포함.
POST
/api/finetune/adapters
어댑터 등록/업데이트
DELETE
/api/finetune/adapters/[id]
어댑터 삭제
평가 & FedAvg
POST
/api/finetune/eval
LLM-as-Judge 평가. ollama callLLM → gemini 폴백. body: { prompt, responses[] }
POST
/api/aiworks/fedavg
FedAvg 병합. body: { adapterIds[], weights[] }. safetensors BF16/F32 가중 평균.
Tech Stack

기술 스택 & 의사결정 기록

Next.js 15 App Router15.x
풀스택 단일 레포. Server Components로 DB 접근. Route Handler REST API. SSE 스트리밍. React 19 호환.
대안 검토: Remix, SvelteKit
better-sqlite3 (SQLite WAL)12.9.0
JSON 파일 대비 동시 읽기 안전성. WAL 모드 멀티리더. API 시그니처 100% 동일 마이그레이션. 네이티브 바이너리: npm rebuild 필요.
대안 검토: PostgreSQL(pg), JSON 파일 — 동시성/서버의존성으로 제외
Ollama qwen2.5:3bqwen2.5:3b
Mac M-시리즈 최적화. 3B 메모리 효율. 로컬 격리. Tools API 없이 chat completion만. 실패 시 Gemini 폴백.
대안 검토: 8B 이상 금지
MLX (mlx_lm)0.x
Apple Silicon GPU/Neural Engine 통합. M3 36GB로 7B QLoRA 가능. mlx_lm.lora → fuse → GGUF 파이프라인.
대안 검토: LlamaFactory(서버 GPU), Axolotl/Unsloth(멀티GPU)
LlamaFactoryApache-2.0
100+ LLM/VLM 지원. LoRA·QLoRA·DPO·KTO·ORPO. YAML 기반 잡. vLLM 추론 내장. VL-SFT 멀티모달.
대안 검토: Unsloth(단일GPU), Axolotl(다중GPU)
vLLM + LoRAXlatest
OpenAI-compatible 추론. 단일 GPU에 기업별 LoRA 동적 서빙. GPU 비용 최대 90% 절감.
대안 검토: TGI(HuggingFace)
헌법 (Constitution)v1
4종 아웃바운드 차단. 매 커밋 전 3개 검증 스크립트. OC06 봉인 리포. 사설 AI 핵심: 데이터 유출 0.
대안 검토: 없음 — 필수
lib/llm.ts callLLM()internal
단일 LLM 진입점. Ollama 우선 → Gemini 자동 폴백. 외부 LLM 직접 호출 금지. Tools API 미지원.
대안 검토: 직접 fetch 금지
Developer Setup

개발 환경 셋업 가이드

필수 .env 설정
OLLAMA_HOST=http://localhost:11434
Ollama 서버 주소
OLLAMA_MODEL=qwen2.5:3b
기본 모델 (3B 고정)
GEMINI_API_KEY=AIza...
폴백용 Gemini API 키
개발 서버 시작
$ pnpm install
패키지 설치
$ npm rebuild better-sqlite3
네이티브 바이너리 빌드
$ pnpm dev
개발 서버 (V2 로컬 포트 7879)
$ ollama pull qwen2.5:3b
기본 모델 다운로드
헌법 검증 (커밋 전 필수)

3개 스크립트 모두 exit 0 이어야 커밋 가능.

./scripts/verify-disabled-providers.sh
./scripts/verify-sentinels.sh
./scripts/verify-outbound-blocks.sh
프로덕션 배포 (vatton-server)
서버:ssh vatton-server (159.223.63.184)
경로:/root/leafblockchain/leafplan/
PM2:leafplan (포트 7878)
URL:https://plan.leafai.space
⚠ 서버에서도 npm rebuild better-sqlite3 필요
핵심 파일 맵
lib/finetune/store.ts
SQLite WAL 스토어. 모든 DB 접근 단일 진입점.
lib/finetune/runner.ts
학습 잡 실행 + SSE 파서 (Simulator/MLX/HF 3포맷)
lib/finetune/fedavgMerge.ts
FedAvg safetensors 가중 평균 병합. BF16/F32.
lib/llm.ts
단일 LLM 진입점. ollama → gemini 폴백. Tools API 금지.
lib/mode/ModeContext.tsx
Quick↔Enterprise 모드 컨텍스트. UpgradeGateModal.
components/finetune/FtShell.tsx
Enterprise 쉘 레이아웃. DangerButton 포함.
components/finetune/UpgradeGateModal.tsx
Quick→Enterprise 업그레이드 게이트
components/finetune/MmUploadPanel.tsx
멀티모달 JSONL 드래그앤드롭 업로드
app/api/finetune/datasets/validate/route.ts
전체 JSONL 검증 + 토큰 추정 API
app/api/finetune/eval/route.ts
LLM-as-Judge 평가 API (callLLM 기반)
app/api/aiworks/fedavg/route.ts
FedAvg 병합 API (fedavgMerge.ts 연결)
app/landing/page.tsx
마케팅 랜딩 페이지 (스타일 레퍼런스)
scripts/verify-outbound-blocks.sh
4종 아웃바운드 코드 패턴 검증
scripts/verify-sentinels.sh
봉인 리포 sentinel 파일 검증
scripts/verify-disabled-providers.sh
opencode.jsonc 7봉쇄 검증
Leaf Enterprise

데이터는 떠나지 않고, 지능만 옮겨갑니다

개발자 가이드 + 서비스 메뉴얼. 모든 기능은 실제 페이지와 연결됩니다.

Leaf Enterprise v1 · 2026-05-03 · 40+ 페이지 · 20+ API