AI 产品评估

未选择评估基准。请先在基准页面创建或选择一个评估基准。

示例评估数据

Prompt输入实际输出预期输出LLM评分人工评分代码评分基准评分评估意见
请帮我总结这篇文章的主要观点人工智能正在改变我们的生活方式。从智能手机助手到自动驾驶汽车,AI技术已经渗透到了日常生活的方方面面。然而,这种变革也带来了一些担忧,比如就业机会减少、隐私安全等问题。专家认为,关键是要在发展AI技术的同时,建立相应的伦理准则和监管框架。文章主要讨论了AI对生活的影响,包括:1. AI技术在日常生活中的应用 2. AI带来的潜在问题 3. 需要建立伦理准则和监管文章主要观点:1. AI技术广泛应用于日常生活 2. AI发展带来就业和隐私等担忧 3. 建议建立伦理准则和监管框架来应对挑战3.53.83.63.6总结基本准确,但可以更好地保持原文的表达方式
编写一个简单的计算器函数需要一个能执行基本数学运算(加减乘除)的函数function calculator(a: number, b: number, op: string): number { switch(op) { case '+': return a + b; case '-': return a - b; case '*': return a * b; case '/': return b !== 0 ? a / b : NaN; default: throw new Error('Invalid operator'); } }function calculator(a: number, b: number, op: string): number { if (op === '+') return a + b; if (op === '-') return a - b; if (op === '*') return a * b; if (op === '/') { if (b === 0) throw new Error('Division by zero'); return a / b; } throw new Error('Invalid operator'); }3.233.53.2基本功能正确,但错误处理可以改进,代码结构可以优化
生成一个创建用户API的OpenAPI规范需要一个创建新用户的API端点,包含用户名、邮箱和密码字段openapi: 3.0.0 paths: /users: post: summary: Create user requestBody: content: application/json: schema: type: object properties: username: { type: string } email: { type: string } password: { type: string }openapi: 3.0.0 paths: /users: post: summary: Create user requestBody: required: true content: application/json: schema: type: object required: [username, email, password] properties: username: { type: string, minLength: 3 } email: { type: string, format: email } password: { type: string, minLength: 8 } responses: 201: description: User created successfully2.82.52.72.7缺少必要的验证规则和响应定义,安全性考虑不足

评估基准说明

accuracy

权重: 40%

输出结果与预期结果的匹配程度

1分:完全不匹配
2分:部分匹配,但有重大偏差
3分:基本匹配,有minor偏差
4分:完全匹配预期结果

completeness

权重: 30%

输出是否完整地解决了问题

1分:未解决核心问题
2分:部分解决核心问题
3分:完整解决核心问题,但缺少细节
4分:完整解决问题,包含所有必要细节

efficiency

权重: 30%

解决问题的效率和资源使用情况

1分:效率极低,资源使用过度
2分:效率一般,资源使用较多
3分:效率良好,资源使用合理
4分:效率极高,资源使用优化

上传评估数据

请上传符合评估数据格式的Excel文件,包含相同的表头结构

构建评估方式

配置评估指标

设置每个指标的权重和是否启用

准确性
权重
完整性
权重
效率
权重