Enterprise · 풀스택 (/finetuning)

9 · Evaluation

정책 전후 비교

중앙 학습 전(before) vs 후(after) 의 task_success / tool_success / router_accuracy / rag_grounding / code_test_pass 5개 축을 비교합니다.

Eval Score

—

Δ —

Task Success

—

Δ —

Tool Success

—

Δ —

Router Acc

—

Δ —

Code Test Pass

—

Δ —

평가 이력 (0)

아직 평가 결과가 없습니다.