메뉴얼
9 · Evaluation

정책 전후 비교

중앙 학습 전(before) vs 후(after) 의 task_success / tool_success / router_accuracy / rag_grounding / code_test_pass 5개 축을 비교합니다.

Eval Score
Δ —
Task Success
Δ —
Tool Success
Δ —
Router Acc
Δ —
Code Test Pass
Δ —

평가 이력 (0)

아직 평가 결과가 없습니다.