회사 데이터는 외부로 한 발자국도 안 나갑니다. 로컬 학습 → adapter weight 와 학습 증명 메타데이터만 중앙으로 안전 집계. FedAvg / FedProx + AES-256-GCM + Differential Privacy + Post-Quantum Ready.

에이전트가 일하면서 만든 실행 로그 → SFT/DPO 자동 변환 → 중앙 어댑터 재학습 → Intelligence Pack 으로 다시 로컬에 배포. AI 가 AI 를 학습시키는 자가진화 루프.

FedAvg 대시보드

Proof Dashboard 지표

Before / After 점수

고정 평가셋 기준 학습 전후 점수 차이

참여 노드별 loss 변화

client_id 별 train/eval loss · adapter hash

FedAvg 라운드 로그

round_id · 참여 client 수 · global adapter version

프라이버시 메타데이터

전송 암호화 · DP epsilon · PQC KEM 옵션

Same API · Different Engine

맥에서 만든 어댑터를 그대로 서버로

모든 추론은 OpenAI-compatible 엔드포인트로 통일. 학습은 같은 Job Spec 으로 환경별 엔진을 갈아끼웁니다.

Mac

MLX / Ollama

M-시리즈에 최적화된 로컬 학습/추론.

· mlx_lm.lora
· Ollama Modelfile
· Quant Q4_K_M

Server

LlamaFactory

Apache-2.0 통합 학습 팩토리.

· 100+ LLM/VLM
· LoRA·QLoRA·DPO·KTO
· vLLM 추론 백엔드

Server

Axolotl / Unsloth

프로덕션 학습 엔진.

· YAML 기반
· 다중 GPU
· FlashAttn-2

Serve

vLLM / LoRAX

기업별 어댑터 동적 서빙.

· GPU 비용 절감
· OpenAI API
· 수천 어댑터/GPU

Pricing

Quick 으로 시작하고, Enterprise 로 운영

무료 Quick 에서 만든 모델·데이터셋은 Enterprise 로 그대로 carry over. 결제는 도입 시점에만.

Quick · Free

Mac 로컬 1 워크스페이스. Ollama/MLX 로 무료 무한.

8 코어 모델 팩토리
Qwen 3B/7B 파인튜닝 시뮬레이터
모델 비교 워크벤치 (4단 동선)
BYO Keys (Gemini)
데이터 100% 로컬

Quick 시작

POPULAR

Team

$49 / mo

LlamaFactory 연동 + 다중 어댑터 + 팀 권한.

Quick 의 모든 기능
멀티 워크스페이스
vLLM 배포 가이드
감사 로그 + 권한관리
최대 5 명 동시

문의

Enterprise

문의

FedAvg + 4계층 프라이버시. 온프레미스/VPC 설치 + 전담 SE.

Federated Learning
Post-Quantum 암호 옵션
기업별 LoRA 어댑터 무제한
Agent Experience Learning Loop
전담 솔루션 엔지니어
SLA · 24/7

영업 문의

↓ Developer Manual · 개발자 기술 레퍼런스 ↓

아래부터 전체 페이지 링크 · API 레퍼런스 · 기술스택 · 개발 셋업 가이드

System Architecture

전체 시스템이 연결되는 방식

Quick Mode · /aiworks

Mac 로컬 즉시 시작. 8 코어 + Ollama/MLX. 계정 불필요, 무료 무제한.

모델 레지스트리 → 베이스 모델 선택

데이터셋 빌더 → JSONL SFT/DPO 변환

비교 워크벤치 → 4단 동선

파인튜닝 잡 → QLoRA 시뮬레이터 + 실 MLX

어댑터 레지스트리 → LoRA 버전 관리

평가 엔진 → LLM-as-Judge (ollama→gemini 폴백)

양자화 내보내기 → GGUF Q4_K_M → Ollama

패키지 빌더 → 어댑터+Tool+RAG+Runtime

Enterprise Mode · /finetuning

Quick 전체 포함 + 멀티모달 + 연합학습 + 노드 관리 + 프로덕션 서빙.

Quick 8 코어 전체 포함

멀티모달 조합 (이미지·영상·음성·코딩·아바타)

FedAvg 연합학습 (로컬 학습 → weight만 집계)

노드 관리 (참여 클라이언트 풀)

경험 학습 루프 (에이전트 실행 → SFT 자동)

보안 대시보드 (암호화·DP·PQC)

vLLM + LoRAX 프로덕션 서빙

재학습 스케줄러 + 레시피 관리

전체 데이터 흐름

기업 문서·대화·코드→Dataset Builder→JSONL (SFT/DPO)→Compare Workbench→Fine-tune Job→LoRA Adapter→GGUF Q4_K_M→Ollama / vLLM→OpenAI API

공유 SQLite 스토어

Quick ↔ Enterprise 동일 DB. better-sqlite3 WAL 모드. 잡·데이터셋·어댑터 모두 JSON 직렬화 저장. 마이그레이션 자동.

LLM 추론 레이어

lib/llm.ts 단일 진입점. Ollama qwen2.5:3b 기본 → 실패 시 Gemini 2.5 Flash 폴백. Tools API 금지, chat completion only.

헌법 (Constitution)

4종 아웃바운드 차단: GitHub upstream · 외부 LLM 직접 호출 · 텔레메트리 · 자동 업데이트. 3개 검증 스크립트 매 커밋 전.

Quick Navigation

전체 페이지 바로가기

40+ 페이지를 기능 그룹별 정리. teal=Quick · violet=Enterprise · fuchsia=멀티모달/연합학습. 클릭하면 해당 페이지로 이동.

데이터셋 관리

기업 문서·대화 로그 → SFT/DPO/Tool-use JSONL 변환·관리.

모델 선택 & 비교

9+ 베이스 모델 동시 비교 → 최적 모델 선택.

파인튜닝 학습

QLoRA/SFT/DPO 학습. SSE 실시간 loss/lr. Mac M3 또는 GPU 서버.

어댑터 & 패키지

LoRA 어댑터 버전 관리·활성화, 패키지 조합 (어댑터+Tool+RAG+Runtime).

어댑터 레지스트리

LoRA 버전 관리 + Bench + ollama run 복사

패키지 목록

완성 패키지 관리

Composer

어댑터+Tool+RAG+Runtime 조합

평가 & A/B 테스트

LLM-as-Judge + 고정 평가셋 회귀. Before/After 점수.

배포 & 서빙

GGUF 양자화 → Ollama 로컬 / vLLM 서버. OpenAI-compatible API.

배포 (내보내기)

GGUF/AWQ/FP8 + Modelfile

멀티모달 조합

LLM 외 이미지·영상·음성·코딩·아바타 모델 조합. VL-SFT/VL-DPO JSONL.

이미지 모델

Flux · SDXL · Kolors VL-SFT

영상 모델

Wan · LTX · CogVideoX

음성 모델

Whisper · F5-TTS · wav2vec2

코딩 모델

DeepSeek Coder · Qwen Coder

연합학습 & 보안

데이터는 로컬에서 나가지 않고 LoRA weight만 집계. FedAvg + 4계층 프라이버시.

FedAvg 대시보드

라운드 로그 · 참여 노드 · 글로벌 어댑터

참여 노드 관리

client_id · loss · adapter hash

보안 대시보드

암호화·DP epsilon·PQC 옵션

인프라 & 설정

RAG 인덱스, API 키 관리, 빌링, 플레이그라운드.

RAG 인덱스

벡터 인덱스 + 검색 테스트

API 키 관리

Ollama host · Gemini key

Pipeline Deep-dive

파이프라인 단계별 상세

1단계 · 데이터셋 구축

기업 문서, 대화 로그, 코드, DB 데이터를 SFT/DPO/Tool-use JSONL 포맷으로 변환합니다. 멀티모달(이미지·영상·음성)은 VL-SFT 포맷으로 별도 처리. 민감 정보 자동 마스킹. 전체 검증 버튼으로 모든 데이터셋의 토큰 수 추정 및 포맷 검증 일괄 수행. MmUploadPanel 드래그앤드롭으로 멀티모달 JSONL 업로드.

Dataset BuilderCurateMmUploadPanelVL-SFT JSONL/api/finetune/datasets/validate

페이지 바로가기

데이터셋 목록 데이터셋 빌더 큐레이션

2단계 · 모델 비교 & 선택

9+ 베이스 모델을 동일한 프롬프트로 동시 실행하여 속도·품질·비용 비교. 4단 동선(모델 선택→프롬프트 테스트→통계 분석→학습 연동)으로 최적 베이스 모델 확정. Ollama로 실제 추론, Gemini 폴백. 통계 차트(latency·token/s·cost).

Compare WorkbenchOllama APIGemini FallbackStats Chart

페이지 바로가기

비교 워크벤치 테스트 페이지 통계 분석

3단계 · 파인튜닝

베이스 모델 + 데이터셋으로 LoRA/QLoRA/DPO 학습 실행. Mac M3(MLX), 로컬 GPU(LlamaFactory), 클라우드(Axolotl/Unsloth) 모두 동일 Job Spec. 학습 중 SSE 스트리밍으로 loss·lr·judge 실시간. DangerButton으로 즉시 취소.

MLX loraLlamaFactoryUnslothSSE StreamQLoRA BF16/api/finetune/runs/[id]/stream

페이지 바로가기

파인튜닝 잡 실행 목록 팩토리

4단계 · 양자화 & 내보내기

완료된 LoRA 어댑터를 GGUF Q4_K_M으로 양자화 (14GB→4GB). mlx_lm.fuse로 베이스 병합 → llama.cpp로 GGUF 변환. Modelfile 자동 생성, ollama create 자동 실행. 어댑터 레지스트리에 버전 등록. AWQ(W4A16)/FP8 옵션. ollama run <name> 복사 버튼.

mlx_lm.fusellama.cppGGUF Q4_K_MAWQ W4A16ollama createModelfile

페이지 바로가기

배포 / 내보내기 어댑터 레지스트리

5단계 · 배포 & 운영

Ollama 로컬(Mac) 또는 vLLM/LoRAX(GPU 서버)로 배포. 모두 OpenAI-compatible API 엔드포인트. LoRAX는 단일 GPU에 수천 기업별 어댑터 동적 서빙 가능. 플레이그라운드에서 채팅 테스트. 모델 라우터로 다중 어댑터 라우팅.

OllamavLLMLoRAXOpenAI APIModel Router

페이지 바로가기

로컬 서빙 클라우드 서빙 추론 테스트

API Reference

REST API 엔드포인트

모든 API는 Next.js App Router Route Handler. 학습 스트리밍은 SSE. 추론 엔드포인트는 OpenAI API 100% 호환.

파인튜닝 잡

GET

/api/finetune/jobs

전체 잡 목록 반환

POST

/api/finetune/jobs

새 학습 잡 생성. body: { datasetId, baseModel, method, hyperparams }

GET

/api/finetune/jobs/[id]

특정 잡 상세 정보

POST

/api/finetune/jobs/[id]/cancel

실행 중 잡 취소. DangerButton 연결.

SSE

/api/finetune/runs/[id]/stream

학습 로그 SSE 스트리밍. loss·lr·step·judge 실시간.

데이터셋

GET

/api/finetune/datasets

전체 데이터셋 목록

POST

/api/finetune/datasets

데이터셋 생성/업서트

POST

/api/finetune/datasets/validate

모든 JSONL 전체 검증. 포맷 오류·토큰 수 추정 반환.

POST

/api/finetune/datasets/import-multimodal

멀티모달 JSONL 업로드. multipart/form-data. VL-SFT 포맷 검증.

어댑터

GET

/api/finetune/adapters

전체 어댑터 목록. ollamaModelName 포함.

POST

/api/finetune/adapters

어댑터 등록/업데이트

DELETE

/api/finetune/adapters/[id]

어댑터 삭제

평가 & FedAvg

POST

/api/finetune/eval

LLM-as-Judge 평가. ollama callLLM → gemini 폴백. body: { prompt, responses[] }

POST

/api/aiworks/fedavg

FedAvg 병합. body: { adapterIds[], weights[] }. safetensors BF16/F32 가중 평균.

Tech Stack

기술 스택 & 의사결정 기록

Next.js 15 App Router15.x

풀스택 단일 레포. Server Components로 DB 접근. Route Handler REST API. SSE 스트리밍. React 19 호환.

대안 검토: Remix, SvelteKit

better-sqlite3 (SQLite WAL)12.9.0

JSON 파일 대비 동시 읽기 안전성. WAL 모드 멀티리더. API 시그니처 100% 동일 마이그레이션. 네이티브 바이너리: npm rebuild 필요.

대안 검토: PostgreSQL(pg), JSON 파일 — 동시성/서버의존성으로 제외

Ollama qwen2.5:3bqwen2.5:3b

Mac M-시리즈 최적화. 3B 메모리 효율. 로컬 격리. Tools API 없이 chat completion만. 실패 시 Gemini 폴백.

대안 검토: 8B 이상 금지

MLX (mlx_lm)0.x

Apple Silicon GPU/Neural Engine 통합. M3 36GB로 7B QLoRA 가능. mlx_lm.lora → fuse → GGUF 파이프라인.

대안 검토: LlamaFactory(서버 GPU), Axolotl/Unsloth(멀티GPU)

LlamaFactoryApache-2.0

100+ LLM/VLM 지원. LoRA·QLoRA·DPO·KTO·ORPO. YAML 기반 잡. vLLM 추론 내장. VL-SFT 멀티모달.

대안 검토: Unsloth(단일GPU), Axolotl(다중GPU)

vLLM + LoRAXlatest

OpenAI-compatible 추론. 단일 GPU에 기업별 LoRA 동적 서빙. GPU 비용 최대 90% 절감.

대안 검토: TGI(HuggingFace)

헌법 (Constitution)v1

4종 아웃바운드 차단. 매 커밋 전 3개 검증 스크립트. OC06 봉인 리포. 사설 AI 핵심: 데이터 유출 0.

대안 검토: 없음 — 필수

lib/llm.ts callLLM()internal

단일 LLM 진입점. Ollama 우선 → Gemini 자동 폴백. 외부 LLM 직접 호출 금지. Tools API 미지원.

대안 검토: 직접 fetch 금지

Developer Setup

개발 환경 셋업 가이드

필수 .env 설정

OLLAMA_HOST=http://localhost:11434

Ollama 서버 주소

OLLAMA_MODEL=qwen2.5:3b

기본 모델 (3B 고정)

GEMINI_API_KEY=AIza...

폴백용 Gemini API 키

개발 서버 시작

$ pnpm install

패키지 설치

$ npm rebuild better-sqlite3

네이티브 바이너리 빌드

$ pnpm dev

개발 서버 (V2 로컬 포트 7879)

$ ollama pull qwen2.5:3b

기본 모델 다운로드

헌법 검증 (커밋 전 필수)

3개 스크립트 모두 exit 0 이어야 커밋 가능.

./scripts/verify-disabled-providers.sh

./scripts/verify-sentinels.sh

./scripts/verify-outbound-blocks.sh

프로덕션 배포 (vatton-server)

서버:ssh vatton-server (159.223.63.184)

경로:/root/leafblockchain/leafplan/

PM2:leafplan (포트 7878)

URL:https://plan.leafai.space

⚠ 서버에서도 npm rebuild better-sqlite3 필요

핵심 파일 맵

lib/finetune/store.ts

SQLite WAL 스토어. 모든 DB 접근 단일 진입점.

lib/finetune/runner.ts

학습 잡 실행 + SSE 파서 (Simulator/MLX/HF 3포맷)

lib/finetune/fedavgMerge.ts

FedAvg safetensors 가중 평균 병합. BF16/F32.

lib/llm.ts

단일 LLM 진입점. ollama → gemini 폴백. Tools API 금지.

lib/mode/ModeContext.tsx

Quick↔Enterprise 모드 컨텍스트. UpgradeGateModal.

components/finetune/FtShell.tsx

Enterprise 쉘 레이아웃. DangerButton 포함.

components/finetune/UpgradeGateModal.tsx

Quick→Enterprise 업그레이드 게이트

components/finetune/MmUploadPanel.tsx

멀티모달 JSONL 드래그앤드롭 업로드

app/api/finetune/datasets/validate/route.ts

전체 JSONL 검증 + 토큰 추정 API

app/api/finetune/eval/route.ts

LLM-as-Judge 평가 API (callLLM 기반)

app/api/aiworks/fedavg/route.ts

FedAvg 병합 API (fedavgMerge.ts 연결)

app/landing/page.tsx

마케팅 랜딩 페이지 (스타일 레퍼런스)

scripts/verify-outbound-blocks.sh

4종 아웃바운드 코드 패턴 검증

scripts/verify-sentinels.sh

봉인 리포 sentinel 파일 검증

scripts/verify-disabled-providers.sh

opencode.jsonc 7봉쇄 검증

Leaf Enterprise

데이터는 떠나지 않고, 지능만 옮겨갑니다

개발자 가이드 + 서비스 메뉴얼. 모든 기능은 실제 페이지와 연결됩니다.

Quick 워크스페이스 Enterprise 워크스페이스 랜딩 페이지

Leaf Enterprise v1 · 2026-05-03 · 40+ 페이지 · 20+ API

기업 데이터로 학습하고자체 모델로 운영하는멀티모달 AI 모델 팩토리

5 단계로 만드는 회사 전용 AI

8 개 코어 + 풀스택 옵션

하나의 모델이 아니라, 모델 조합

데이터는 떠나지 않고,지능만 옮겨갑니다

맥에서 만든 어댑터를 그대로 서버로

Quick 으로 시작하고, Enterprise 로 운영

전체 시스템이 연결되는 방식

전체 페이지 바로가기

파이프라인 단계별 상세

REST API 엔드포인트

기술 스택 & 의사결정 기록

개발 환경 셋업 가이드

데이터는 떠나지 않고, 지능만 옮겨갑니다

기업 데이터로 학습하고
자체 모델로 운영하는
멀티모달 AI 모델 팩토리

데이터는 떠나지 않고,
지능만 옮겨갑니다