9 · Evaluation
정책 전후 비교
중앙 학습 전(before) vs 후(after) 의 task_success / tool_success / router_accuracy / rag_grounding / code_test_pass 5개 축을 비교합니다.
Eval Score
—
Δ —
Task Success
—
Δ —
Tool Success
—
Δ —
Router Acc
—
Δ —
Code Test Pass
—
Δ —
평가 이력 (0)
아직 평가 결과가 없습니다.