데이터셋 업로드
멀티모달 JSONL (messages + images 필드)
JSONL 파일을 드래그하거나 클릭해서 선택
멀티모달 SFT: {"messages": [...], "images": ["img.jpg"]}
멀티모달 / 툴 확장
음성 모델
ASR·TTS·음성 LLM 은 지연·스트리밍 요구가 다릅니다. 게이트웨이와 Pack 으로만 묶습니다.
풀스펙 구현 범위
ABCD 공통 — 외부 엔진은 프로브·어댑터로 묶습니다
- STT/TTS 엔진 프로세스는 외부(Whisper.cpp, cosyvoice 등) — Leaf 에는 URL·키·할당량
- 라우터에서 audio task_type 분기
환경 변수 (예시)
.env.factory.example 참고
슬롯별 공통 게이트웨이만 사용하면 됩니다.
오픈소스 참고 (다운로드·설치는 각 레포)
- openai-whisper — ASR 참고
- MLX audio 예시(애플)
로컬 콘솔 링크
체크리스트 (운영 전)
- 실시간 스트리밍이 필요하면 별도 WebSocket 서비스 후 OpenAI 호환 프록시 검토
- PII 음성 데이터 Redactor 규칙 적용