<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>自动化评测 :: 标签 :: x7peeps</title><link>https://x7peeps.com/tags/%E8%87%AA%E5%8A%A8%E5%8C%96%E8%AF%84%E6%B5%8B/index.html</link><description/><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Fri, 03 Jul 2026 07:21:56 +0000</lastBuildDate><atom:link href="https://x7peeps.com/tags/%E8%87%AA%E5%8A%A8%E5%8C%96%E8%AF%84%E6%B5%8B/index.xml" rel="self" type="application/rss+xml"/><item><title>评测平台架构：自动化评测、Trace 回放与归因分析</title><link>https://x7peeps.com/AI/05-Agent%E8%AF%84%E6%B5%8B%E4%B8%8E%E8%B4%A8%E9%87%8F%E4%BF%9D%E9%9A%9C/%E8%AF%84%E6%B5%8B%E5%B9%B3%E5%8F%B0%E6%9E%B6%E6%9E%84%E8%87%AA%E5%8A%A8%E5%8C%96%E8%AF%84%E6%B5%8BTrace%E5%9B%9E%E6%94%BE%E4%B8%8E%E5%BD%92%E5%9B%A0%E5%88%86%E6%9E%90/index.html</link><pubDate>Fri, 03 Jul 2026 07:21:56 +0000</pubDate><guid>https://x7peeps.com/AI/05-Agent%E8%AF%84%E6%B5%8B%E4%B8%8E%E8%B4%A8%E9%87%8F%E4%BF%9D%E9%9A%9C/%E8%AF%84%E6%B5%8B%E5%B9%B3%E5%8F%B0%E6%9E%B6%E6%9E%84%E8%87%AA%E5%8A%A8%E5%8C%96%E8%AF%84%E6%B5%8BTrace%E5%9B%9E%E6%94%BE%E4%B8%8E%E5%BD%92%E5%9B%A0%E5%88%86%E6%9E%90/index.html</guid><description>为什么需要评测平台 在 Agent 评测方法论 中，我们建立了评测维度与指标体系的抽象框架；在 LLM-as-Judge 中，我们掌握了自动化评判的技术手段。然而，当这些方法论和工具要真正落地到生产环境中，一个系统化的评测平台是不可或缺的基础设施。</description></item><item><title>自动化红队评测平台：评测引擎设计与实现</title><link>https://x7peeps.com/AI/09-%E5%AE%9E%E6%88%98%E9%A1%B9%E7%9B%AE%E6%9E%B6%E6%9E%84/%E8%87%AA%E5%8A%A8%E5%8C%96%E7%BA%A2%E9%98%9F%E8%AF%84%E6%B5%8B%E5%B9%B3%E5%8F%B0%E8%AF%84%E6%B5%8B%E5%BC%95%E6%93%8E%E8%AE%BE%E8%AE%A1%E4%B8%8E%E5%AE%9E%E7%8E%B0/index.html</link><pubDate>Fri, 03 Jul 2026 07:21:56 +0000</pubDate><guid>https://x7peeps.com/AI/09-%E5%AE%9E%E6%88%98%E9%A1%B9%E7%9B%AE%E6%9E%B6%E6%9E%84/%E8%87%AA%E5%8A%A8%E5%8C%96%E7%BA%A2%E9%98%9F%E8%AF%84%E6%B5%8B%E5%B9%B3%E5%8F%B0%E8%AF%84%E6%B5%8B%E5%BC%95%E6%93%8E%E8%AE%BE%E8%AE%A1%E4%B8%8E%E5%AE%9E%E7%8E%B0/index.html</guid><description>平台需求分析 在 大模型红队测试 中我们建立了攻击向量体系和安全评测基准，在 评测平台架构 中我们掌握了评测工程化的基础框架。然而，当红队测试的规模从手动验证扩展到数百个攻击向量、数十个模型版本、多个安全维度的并行评测时，一个专为红队场景设计的自动化评测平台就成为刚需。</description></item></channel></rss>