11 · Central Relearning

중앙 재학습 오케스트레이션

기획서 §13 의 우선순위(Router > Tool > Planner > Adapter > RAG) 대로 5종을 동시에 학습합니다. 완성된 어댑터·정책은 즉시 다음 Intelligence Pack 의 후보가 됩니다.

C안 잡 큐로 보내기 C안 학습 모니터링

1. router

대기 샘플

2. tool_use

대기 샘플

3. planner

대기 샘플

4. sft

대기 샘플

5. dpo

대기 샘플

우선순위 그대로 동시 학습 큐

기획서 §13 — 같은 라운드에서 5종을 병렬로 학습 후 함께 평가

#1
Router Policy 학습
어떤 모델로 보낼지가 모델 자체 품질보다 영향이 큼
0 샘플데이터셋 보기
#2
Tool-use Policy 학습
툴 한 번 잘못 부르면 결과 전체가 무효
0 샘플데이터셋 보기
#3
Planner Adapter 학습
단계 분해가 무너지면 후속 모든 단계 실패
0 샘플데이터셋 보기
#4
Model Adapter (SFT) 학습
소형 base 모델의 응답 품질 향상
0 샘플데이터셋 보기
#5
DPO 선호 학습
성공/실패 페어로 정렬 강화
0 샘플데이터셋 보기

현재 상태

C안의 LlamaFactory adapter 가 그대로 활성화돼 있습니다. A안 자체 큐는 다음 단계에서 통합 예정.

학습 실행 경로 (현재): /aiworks/dataset-builder 에서 JSONL 을 만들고 → /finetuning/jobs 또는 CLI 로 LlamaFactory 잡을 큐잉 → /finetuning/runs 에서 SSE 모니터링 → 완료 어댑터를 /aiworks/fedavg 에 업로드 → 그룹 집계 후 /aiworks/packs 에서 새 Pack 빌드/배포.

데이터셋 만들기 어댑터 업로드 새 Pack 빌드