메뉴얼

데이터셋 업로드

멀티모달 JSONL (messages + images 필드)

VOICE

JSONL 파일을 드래그하거나 클릭해서 선택

멀티모달 SFT: {"messages": [...], "images": ["img.jpg"]}

멀티모달 / 툴 확장

음성 모델

ASR·TTS·음성 LLM 은 지연·스트리밍 요구가 다릅니다. 게이트웨이와 Pack 으로만 묶습니다.

풀스펙 구현 범위

ABCD 공통 — 외부 엔진은 프로브·어댑터로 묶습니다

  • STT/TTS 엔진 프로세스는 외부(Whisper.cpp, cosyvoice 등) — Leaf 에는 URL·키·할당량
  • 라우터에서 audio task_type 분기

환경 변수 (예시)

.env.factory.example 참고

슬롯별 공통 게이트웨이만 사용하면 됩니다.

오픈소스 참고 (다운로드·설치는 각 레포)

로컬 콘솔 링크

체크리스트 (운영 전)

  1. 실시간 스트리밍이 필요하면 별도 WebSocket 서비스 후 OpenAI 호환 프록시 검토
  2. PII 음성 데이터 Redactor 규칙 적용