用一些真实世界的定性代理测试来补充 OSWorld 计算机使用分数真是太酷了!