<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Agent Benchmark 生态：AgentBench/SWE-Bench/τ-Bench/BFCL 解读 :: x7peeps</title><link>https://x7peeps.com/AI/05-Agent%E8%AF%84%E6%B5%8B%E4%B8%8E%E8%B4%A8%E9%87%8F%E4%BF%9D%E9%9A%9C/Agent-Benchmark%E7%94%9F%E6%80%81AgentBenchSWE-Bench%CF%84-BenchBFCL%E8%A7%A3%E8%AF%BB/index.html</link><description>为什么需要系统理解 Benchmark 生态 在上一篇 Agent 评测方法论 中，我们构建了评测维度与方法论的抽象框架。但在工程落地时，开发者面临一个具体问题：用什么 Benchmark 来评测自己的 Agent？</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate/><atom:link href="https://x7peeps.com/AI/05-Agent%E8%AF%84%E6%B5%8B%E4%B8%8E%E8%B4%A8%E9%87%8F%E4%BF%9D%E9%9A%9C/Agent-Benchmark%E7%94%9F%E6%80%81AgentBenchSWE-Bench%CF%84-BenchBFCL%E8%A7%A3%E8%AF%BB/index.xml" rel="self" type="application/rss+xml"/></channel></rss>