본문으로 건너뛰기
연구

WAA(Windows Agent Arena) LeaderBoard - WAA 리더보드

개요

원본 WAA와 WAA-V2는 태스크와 evaluator가 다르므로 분리해서 봅니다.

같은 표에서 섞어 최고점을 비교하면 안 됩니다. 아래 표는 각 결과를

step budget(15/30/50/100), run type(단일 실행 · best-of-N · pass@N · selection · 평균),

action/observation space, evidence level로 구분해 정리한 것입니다.

방법명 링크를 누르면 원 논문 · 프로젝트 · 공식 출처로 이동합니다.

  • 원본 데이터 기준일: 2026-06-05 (KST)
  • 수록 결과: 총 129건 (WAA 114건, WAA-V2 15건)
  • 이 문서는 위 스냅샷을 텍스트로 재구성한 것이며, 이후 새 결과가 추가됐을 수 있습니다.

Sortech와 인제대 미디어랩의 공동 연구실의 comparable single-run 1위를 기록한 내용은 이 문서 맨 끝 「2026-06-27 업데이트」 섹션에 정리했고, 실험 설계와 상세 분석은 다음 글에서 다룹니다.


이 표를 읽는 법

항목의미
WAA vs WAA-V2태스크/evaluator가 다릅니다. 같은 순위표에 섞어 최고점을 비교하면 안 됩니다.
single vs best/pass/selectionbest-of-N, pass@N, BJudge selection은 여러 후보를 고르거나 여러 번 실행한 결과이므로 단일 실행(single)과 구분해야 합니다.
step budget15/30/50/100처럼 허용 행동 수가 다르면 직접 비교가 어렵습니다.
action spaceGUI-only, code/Python/Bash, skill library, tool/API hybrid는 서로 다른 실행 조건입니다. 점수만 보면 strict GUI 능력과 tool-rich agent 능력이 섞입니다.
unknown-step일부 technical report는 step budget을 명시하지 않습니다. 전체표에는 두되 보수적으로 봐야 합니다.

Run 구분: single(단일 실행) · best-of-N · pass@N · selection/N · avg/mean(평균) · official card(공식 카드) · other · not stated

근거(evidence) 등급: A 1차 논문/프로젝트 · B 공식 카드/README · C 교차 인용 · U 2차/확인 필요


원본 WAA 리더보드

#Score방법모델StepRun근거
163.50%OS-SymphonyGPT-550singleA
262.20%OS-SymphonyGPT-5-Mini50singleA
361.0%GUI-Pro-Agent / VLAA-GUIGemini 3 Flash manager + Seed 1.8 grounder100singleA
460.40%GUI-Pro-Agent / VLAA-GUIGemini 3 Flash manager + Seed 1.8 grounder50singleA
557.50%CUA-Skill AgentGPT-530best-of-NA
656.60%Agent S3 + BJudgeGPT-5100selection/NA
756.48%EvoCUA-32BEvoCUA-32BunknownotherA
854.10%Agent S3 + BJudgeGPT-550selection/NA
952.50%CoAct-1o3 orchestrator + o4-mini programmer + OpenAI computer-use-preview GUI operator100singleA
1051.20%GTA1-32Bo3 planner100official cardC
1150.60%UI-TARS-2UI-TARS-250singleC
1250.60%GTA1-32BGPT-5 planner100official cardB
1350.30%CUA-Skill AgentGPT-530singleA
1450.20%Agent S3GPT-5100singleA
1549.20%GTA1-7B-2507GPT-5 planner100official cardB
1649.0%Agent S3GPT-550singleC
1747.90%GTA1-7B-2507o3 planner100official cardB
1847.33%Jedi-7BGPT-4o planner + Jedi-7B grounder100pass@NA
1946.80%STEVE-R1-SFTSTEVE-R1-SFT 7B20pass@NB
2046.67%Jedi-3BGPT-4o planner + Jedi-3B grounder100pass@NA
2146.0%Jedi-7BGPT-4o planner + Jedi-7B grounder50pass@NA
2245.95%OS-SymphonyQwen3-VL-32B-Thinking50singleA
2345.30%OS-SymphonyQwen3-VL-32B-Instruct50singleA
2444.76%GUI-Owl-1.532B-InstructunknownsingleA
2544.13%GUI-Owl-1.532B-ThinkingunknownsingleA
2644.0%Jedi-3BGPT-4o planner + Jedi-3B grounder50pass@NA
2743.50%CoAct-1o3 + o4-mini + OpenAI CUA50singleA
2842.90%Qwen3-VL-32B-ThinkingQwen3-VL-32B-Thinking baseunknownotherB
2942.67%Jedi-7BGPT-4o planner + Jedi-7B grounder15pass@NA
3042.10%UI-TARS-1.5UI-TARS-1.5-7B50singleA
3141.33%Jedi-3BGPT-4o planner + Jedi-3B grounder15pass@NA
3239.10%RoTS-32BQwen2.5-VL-32B fine-tuned via RoTS50avg/meanA
3337.40%OperatorOpenAI Operator50otherU
3435.90%RoTS-32BQwen2.5-VL-32B fine-tuned via RoTS15avg/meanA
3535.07%GUI-Owl-1.58B-ThinkingunknownsingleA
3634.90%Dyna-Think + DDTQwen2.5-32B-Instruct-based Dyna-Think30avg/meanA
3733.80%ToolCUA-8BToolCUA-8B50avg/meanA
3833.70%Jedi-7BGPT-4o planner + Jedi-7B grounder100avg/meanB
3933.03%Jedi-3BGPT-4o planner + Jedi-3B grounder100avg/meanA
4032.90%Jedi-7BGPT-4o planner + Jedi-7B grounder50avg/meanA
4132.80%Dyna-Think + DDTQwen2.5-32B-Instruct-based Dyna-Think30avg/meanA
4232.23%VistaGUIGPT-4o50singleA
4332.10%Qwen3-VL-235B-A22BQwen3-VL-235B-A22B50avg/meanA
4431.70%Qwen3-VL-32B-InstructQwen3-VL-32B-Instruct50singleA
4531.66%GUI-Owl-1.58B-InstructunknownsingleA
4631.33%Jedi-3BGPT-4o planner + Jedi-3B grounder50avg/meanA
4731.20%WorldGUI-Agentlikely Claude-3.5-Sonnet poweredunknownotherA
4830.76%ANCHORQwen3-VL-8BunknownsingleA
4930.50%UFO-2o130singleA
5030.20%Jedi-7BGPT-4o planner + Jedi-7B grounder15avg/meanA
5129.80%Agent S2Claude 3.7 Sonnet15singleA
5229.44%GUI-Owl-1.54B-InstructunknownsingleA
5329.06%Jedi-3BGPT-4o planner + Jedi-3B grounder15avg/meanA
5428.40%Dyna-Think + RFTQwen2.5-32B-Instruct-based Dyna-Think30avg/meanA
5528.20%RoTS-7BQwen2.5-VL-7B fine-tuned via RoTS50avg/meanA
5627.90%UFO-2GPT-4o30singleA
5727.90%PC Agent-EPC Agent-E30singleA
5827.80%COLAGPT-4o20singleA
5927.47%ANCHOR ablation: Task-DrivenQwen3-VL-8BunknownsingleA
6026.90%Dyna-Think R1R1 baseline30avg/meanA
6126.90%Dyna-Think DIT(R1)DIT(R1)30avg/meanA
6226.40%Qwen3-VL-8B-InstructQwen3-VL-8B-Instruct50avg/meanA
6325.78%GUI-Owl-1.52B-InstructunknownsingleA
6425.30%UFO-2-baseo130singleA
6524.90%RoTS-7BQwen2.5-VL-7B fine-tuned via RoTS15avg/meanA
6624.20%ScaleCUA-32BScaleCUA-32B15otherA
6724.20%ScaleCUA-32BScaleCUA-32B50otherC
6824.0%W&L SFTUI-TARS-1.5-7B SFT with W&L IDM-labeled video data15singleA
6923.90%Dyna-Think Qwen-32B baselineQwen-32B30avg/meanA
7023.40%UFO-2-baseGPT-4o30singleA
7123.07%ANCHOR ablation: Zero-shotQwen3-VL-8BunknownsingleA
7223.0%STEVEOurs-G / GPT-4ounknownsingleA
7322.30%STEVE-R1-SFTSTEVE-R1-SFT 7B60avg/meanB
7421.70%UltraCUA-7BUltraCUA-7B15singleA
7521.40%CoAct-1o3 + o4-mini + OpenAI CUA15singleA
7621.40%ScaleCUA-32BScaleCUA-32B15otherC
7720.90%Dyna-Think + vanilla DynaQwen2.5-32B-Instruct-based Dyna30avg/meanA
7820.80%OpenAI Operator / computer-usecomputer-use / Operator30singleA
7920.80%OpenAI Operator / computer-usecomputer-use / Operator50singleA
8020.70%ScaleCUA-7BScaleCUA-7B50otherC
8120.10%STEVE-R1-SFTSTEVE-R1-SFT 7B40avg/meanB
8219.50%UFO / OmniAgentGPT-4o / GPT-4V variants30singleA
8319.50%NAVIGPT-4V-1106 + UIA + OmniParser15singleA
8419.30%UI-TARS-7B-DPOUI-TARS-7B-DPO60avg/meanB
8518.20%Agent SGPT-4o15singleA
8618.10%UI-TARS-1.5-7BQwen2.5VL-FT15singleA
8718.0%ScaleCUA-7BScaleCUA-7B15otherC
8818.0%InternVL3.5InternVL3.5-241B-A28B50not statedA
8917.80%STEVE-R1 UI-TARS baselineUI-TARS-7B-DPO40avg/meanB
9017.50%STEVE-R1-SFTSTEVE-R1-SFT 7B20avg/meanB
9116.30%ANCHORGLM-4.1V-9BunknownsingleA
9215.70%UI-TARS1Qwen2VL-FT50otherU
9315.40%STEVE-R1 UI-TARS baselineUI-TARS-7B-DPO20avg/meanB
9415.22%ANCHORQwen2.5-VL-7BunknownsingleA
9514.50%InternVL3.5InternVL3.5-38B50not statedA
9614.20%STEVEOurs-KTO 7BunknownsingleA
9714.10%ANCHOR ablation: Task-DrivenQwen2.5-VL-7BunknownsingleA
9813.50%OpenCUA-7B / Qwen2-VL-7B with OpenCUA dataOpenCUA-7B / Qwen2-VL-7B15singleA
9913.30%NAVIGPT-4o + UIA + proprietary OCR/grounding15singleA
10013.19%ANCHOR ablation: Task-DrivenGLM-4.1V-9BunknownsingleA
10112.90%W&L SFT w/ TongUIUI-TARS-1.5-7B SFT with TongUI-labeled video data15singleA
10212.50%InternVL3.5InternVL3.5-14B50not statedA
10311.80%Qwen2.5-VL-72BQwen2.5-VL-72B15otherA
10411.0%InternVL3.5InternVL3.5-20B-A4B50not statedA
10511.0%InternVL3.5InternVL3.5-30B-A3B50not statedA
10610.50%InternVL3.5InternVL3.5-8B50not statedA
10710.40%Kimi-VLKimi-VL15official cardB
1089.70%Qwen2.5-VL-72BQwen2.5-VL-72B50otherA
1099.70%InternVL3.5InternVL3.5-4B50not statedA
1107.10%Claude 3.7 SonnetClaude 3.7 Sonnet15otherA
1117.10%STEVEOurs-SFT 7BunknownsingleA
1126.40%Claude 3.7 SonnetClaude 3.7 Sonnet50otherA
1135.49%ANCHOR ablation: Zero-shotGLM-4.1V-9BunknownsingleA
1144.39%ANCHOR ablation: Zero-shotQwen2.5-VL-7BunknownsingleA

WAA-V2 리더보드

WAA-V2는 원본 WAA와 태스크 구성이 다르므로 위 표와 직접 비교하지 않습니다.

#Score방법모델StepRun근거
136.0%PC Agent-EPC Agent-E30singleA
235.40%Claude 3.7 SonnetClaude 3.7 Sonnet + thinking30singleA
332.60%Claude 3.7 SonnetClaude 3.7 Sonnet30singleA
431.40%PC Agent-EPC Agent-E50singleA
526.90%PC Agent-EPC Agent-E15singleA
626.90%Human Data + Direct DistillationPC Agent-E ablation30singleA
726.20%UI-TARS-72B-DPOUI-TARS-72B-DPO30singleA
826.20%Direct DistillationPC Agent-E ablation30singleA
921.30%UI-TARS-1.5-7BUI-TARS-1.5-7B30singleA
1014.90%Qwen2.5-VL-72BQwen2.5-VL-72B30singleA
1111.90%Qwen2.5-VL-72BQwen2.5-VL-72B50singleA
1211.30%Qwen2.5-VL-72BQwen2.5-VL-72B15singleA
136.40%PC Agent-E-7BPC Agent-E 7B30singleA
145.0%Qwen2.5-VL-7BQwen2.5-VL-7B30singleA
152.10%GPT-4oGPT-4o30singleA

2026-06-27 업데이트 — Sortech & 인제대 공동 실험이 comparable single-run 1위

2026년 6월 27일 기준으로, Sortech & 인제대 공동 실험이 원본 WAA의 comparable single-run 최고점을 기록했습니다.

Gemini 3.1 Pro backend에 safe-tool orchestration과 검증/복구 pipeline을 결합한 운영 구성으로

154개 태스크를 단일 fresh run으로 수행해 98.906 / 154 = 64.22% 를 달성했으며,

이는 위 스냅샷의 종전 comparable single-run 최고점(OS-Symphony · GPT-5, 63.5%)을 넘습니다.

#Score방법 (backend/scaffold)StepRun
164.22%Gemini 3.1 Pro + Safe Tools + Pipeline15single
263.5%OS-Symphony (GPT-5) — 종전 최고50single
362.2%OS-Symphony (GPT-5-Mini)50single
461.0%GUI-Pro-Agent / VLAA-GUI (Gemini 3 Flash + Seed 1.8)100single
560.4%GUI-Pro-Agent / VLAA-GUI50single

전제는 분명히 해둡니다. 이건 모델 단독 비교가 아니라 모델 + safe tools + pipeline + Windows runtime을 포함한 운영 구성 비교이고, WAA runtime 안정화 patch가 켜진 상태에서 나온 결과이며, route policy 위반은 0건이었습니다.

64.22%는 50-step 최고점(63.5)과 100-step 최고점(61.0)을 모두 넘어, step budget 축에서도 상단입니다.

실험 설계 · 도메인별 성적 · pipeline 개입 근거 · 한계는 다음 글에서 자세히 다룹니다.

→ 상세: WAA Leaderboard 1위: Gemini 3.1 Pro + Safe Tools + Pipeline (2번째 글)