AI 产品评估
未选择评估基准。请先在基准页面创建或选择一个评估基准。
示例评估数据
| Prompt | 输入 | 实际输出 | 预期输出 | LLM评分 | 人工评分 | 代码评分 | 基准评分 | 评估意见 |
|---|---|---|---|---|---|---|---|---|
| 请帮我总结这篇文章的主要观点 | 人工智能正在改变我们的生活方式。从智能手机助手到自动驾驶汽车,AI技术已经渗透到了日常生活的方方面面。然而,这种变革也带来了一些担忧,比如就业机会减少、隐私安全等问题。专家认为,关键是要在发展AI技术的同时,建立相应的伦理准则和监管框架。 | 文章主要讨论了AI对生活的影响,包括:1. AI技术在日常生活中的应用 2. AI带来的潜在问题 3. 需要建立伦理准则和监管 | 文章主要观点:1. AI技术广泛应用于日常生活 2. AI发展带来就业和隐私等担忧 3. 建议建立伦理准则和监管框架来应对挑战 | 3.5 | 3.8 | 3.6 | 3.6 | 总结基本准确,但可以更好地保持原文的表达方式 |
| 编写一个简单的计算器函数 | 需要一个能执行基本数学运算(加减乘除)的函数 | function calculator(a: number, b: number, op: string): number { switch(op) { case '+': return a + b; case '-': return a - b; case '*': return a * b; case '/': return b !== 0 ? a / b : NaN; default: throw new Error('Invalid operator'); } } | function calculator(a: number, b: number, op: string): number { if (op === '+') return a + b; if (op === '-') return a - b; if (op === '*') return a * b; if (op === '/') { if (b === 0) throw new Error('Division by zero'); return a / b; } throw new Error('Invalid operator'); } | 3.2 | 3 | 3.5 | 3.2 | 基本功能正确,但错误处理可以改进,代码结构可以优化 |
| 生成一个创建用户API的OpenAPI规范 | 需要一个创建新用户的API端点,包含用户名、邮箱和密码字段 | openapi: 3.0.0 paths: /users: post: summary: Create user requestBody: content: application/json: schema: type: object properties: username: { type: string } email: { type: string } password: { type: string } | openapi: 3.0.0 paths: /users: post: summary: Create user requestBody: required: true content: application/json: schema: type: object required: [username, email, password] properties: username: { type: string, minLength: 3 } email: { type: string, format: email } password: { type: string, minLength: 8 } responses: 201: description: User created successfully | 2.8 | 2.5 | 2.7 | 2.7 | 缺少必要的验证规则和响应定义,安全性考虑不足 |
评估基准说明
accuracy
权重: 40%
输出结果与预期结果的匹配程度
1分:完全不匹配
2分:部分匹配,但有重大偏差
3分:基本匹配,有minor偏差
4分:完全匹配预期结果
completeness
权重: 30%
输出是否完整地解决了问题
1分:未解决核心问题
2分:部分解决核心问题
3分:完整解决核心问题,但缺少细节
4分:完整解决问题,包含所有必要细节
efficiency
权重: 30%
解决问题的效率和资源使用情况
1分:效率极低,资源使用过度
2分:效率一般,资源使用较多
3分:效率良好,资源使用合理
4分:效率极高,资源使用优化
上传评估数据
请上传符合评估数据格式的Excel文件,包含相同的表头结构
将文件拖放到这里,或者点击选择文件
支持的文件格式:Excel, CSV
构建评估方式
配置评估指标
设置每个指标的权重和是否启用
准确性
权重
完整性
权重
效率
权重