LMArena

8个月前发布 5 0 0

Attention Required! | Cloudflare

所在地:
海外(可能无法打开)
收录时间:
2025-09-02

UC Berkeley × LMSYS 联合运营,全球最具影响力的「众包大模型竞技场」

站点定位

LMArena(lmarena.ai,曾用名 Chatbot Arena)是加州大学伯克利分校 SkyLab 与 LMSYS 团队共同打造的 开源众测平台。平台以“匿名盲测 + 众包投票 + Elo 排行榜”为核心,零门槛、免注册即可同时体验 GPT-4o、Claude-3.5、Gemini-1.5 等 70+ 顶级模型 的真实表现,已成为学界、产业界与开发者公认的“AI 模型试金石”。

核心机制

  • 匿名盲测(Battle)
    系统随机抽取两个匿名模型同答一题,用户仅凭质量投票,最大限度消除品牌偏见。
  • Elo 实时排行榜
    基于 280 万+ 真实投票数据,每日更新全球大模型排名,细分「数学、代码、长文本、多模态」等多赛道。
  • 三重评估体系
    1. 众包对战(百万级用户投票)
    2. MT-Bench(3000 组专家多轮难题,GPT-4 裁判)
    3. P2L 模型(200 万提示-投票数据训练,即时预测新提示下的模型排位)

主要功能分区

功能 说明 使用场景
Arena Battle 匿名双模型对战,投票后揭晓身份 快速感知模型差异
Side-by-Side 手动任选两模型并排对比 针对性 A/B 测试
Direct Chat 与单一模型深度对话 长文本、代码、角色扮演
Multimodal Arena 支持上传图片与模型交互 图文推理、风格化创作
WebDev Arena 前端代码生成与渲染 网页原型快速验证
Leaderboard 实时 Elo 榜 & 细分榜单 技术选型、学术研究

特色模型:Nano Banana

  • 能力:图像编辑、物体替换、风格迁移、多图融合
  • 使用:在 Multimodal Arena 中随机出现,也可通过高频投票提高触发概率
  • 亮点:完全免费、效果媲美 MidJourney & DALL-E 3

数据与合规

  • 开源数据:全部投票与对话记录以 CC-BY-4.0 协议公开下载,支持科研复现
  • 隐私政策:匿名使用,无需注册;登录(Google 账号)后可保存个人聊天记录与自建排行榜(Beta)
  • 合规:遵守 UC Berkeley IRB 研究伦理规范,已获《生成式 AI 服务管理暂行办法》境外豁免备案

快速上手指南

  1. 打开 https://lmarena.ai
  2. 选择模式
    • 想“盲测”→ 默认 Arena Battle
    • 想“指定 PK”→ Side-by-Side
    • 想“深度体验”→ Direct Chat
  3. 输入提示词(支持中文/英文/代码/图片)
  4. 投票后查看模型身份与实时排行榜

访问与生态

运营与备案

  • 运营主体:UC Berkeley Sky Computing Lab & LMSYS Org
  • ICP 备案:境外学术站点,境内访问无需备案
  • 资金:2025 年 6 月完成 1 亿美元种子轮,a16z、UC Investments 领投,用于模型费用、功能扩展与团队扩张

数据统计

相关导航

暂无评论

none
暂无评论...