메뉴얼
11 · Central Relearning

중앙 재학습 오케스트레이션

기획서 §13 의 우선순위(Router > Tool > Planner > Adapter > RAG) 대로 5종을 동시에 학습합니다. 완성된 어댑터·정책은 즉시 다음 Intelligence Pack 의 후보가 됩니다.

1. router
0
대기 샘플
2. tool_use
0
대기 샘플
3. planner
0
대기 샘플
4. sft
0
대기 샘플
5. dpo
0
대기 샘플

우선순위 그대로 동시 학습 큐

기획서 §13 — 같은 라운드에서 5종을 병렬로 학습 후 함께 평가

  1. #1
    Router Policy 학습
    어떤 모델로 보낼지가 모델 자체 품질보다 영향이 큼
  2. #2
    Tool-use Policy 학습
    툴 한 번 잘못 부르면 결과 전체가 무효
  3. #3
    Planner Adapter 학습
    단계 분해가 무너지면 후속 모든 단계 실패
  4. #4
    Model Adapter (SFT) 학습
    소형 base 모델의 응답 품질 향상
  5. #5
    DPO 선호 학습
    성공/실패 페어로 정렬 강화

현재 상태

C안의 LlamaFactory adapter 가 그대로 활성화돼 있습니다. A안 자체 큐는 다음 단계에서 통합 예정.

학습 실행 경로 (현재): /aiworks/dataset-builder 에서 JSONL 을 만들고 → /finetuning/jobs 또는 CLI 로 LlamaFactory 잡을 큐잉 → /finetuning/runs 에서 SSE 모니터링 → 완료 어댑터를 /aiworks/fedavg 에 업로드 → 그룹 집계 후 /aiworks/packs 에서 새 Pack 빌드/배포.