# 快速开始

开箱即用的评测能力, 帮你准确评估应用效果

# 两分钟视频快速上手

# 介绍

# 支持各类应用评测

# 开箱即用的评估器模板

# 实验报告洞察分析

# 基础概念

评测 (Evaluation) 是一种通过结构化评估框架,对评估对象进行全面质量监控和优化的过程。其核心在于建立多种评估策略(如 LLM 辅助评估、人工校准评估)以及多维度指标(包括质量、性能和成本)。结合全链路追踪技术,评测能够分析 LLM 应用 的输入输出过程,进行异常检测,并推动持续集成流程的优化。
评测的目标是确保评估对象在各个方面都能达到预期,包括功能性(如意图理解的准确性和可靠性)和经济性(如单次推理的成本)。通过评测,开发者可以有效地提升评估对象的质量和效率。

小提示

目前,海智评测支持海智平台上的各种应用类型作为评测对象,包括Chat、Chatflow、Workflow等,后面可能会拓展更多类型

评测功能由三个核心模块构成:评测集、评估器和实验报告:

  • 评测集:评测集是用于评测评估对象的一组数据。它通常包含输入数据和预期的输出结果,帮助开发者验证评估对象的效果。
    • 输入数据:提供给评测对象的标准化测试输入,用于评估其在不同场景下的表现。
    • 预期输出(可选):理想的输出结果,作为评估基准,作为某些评估器的参考输入。
  • 评估器:作为评测过程中的裁判,评估器负责量化评测对象的表现。它通过以下方式进行评估:
    • 指标得分:评估器根据预定义的评估标准对评测对象进行评分,涵盖准确性、效率等多个维度。
    • 原因分析:提供评分原因,帮助开发者理解评测对象优劣原因及改进方向。
  • 实验:综合汇总评测过程中的所有数据和分析结果,助力开发者进行业务决策。实验报告包括以下部分:
    • 评测集数据:所有测试输入和预期输出数据。
    • 评测对象输出结果的评分结果:详细揭露评测对象在各测试场景下的实际输出、成本、性能表现。
    • 评估器打分(即评估指标):提供不同评估器的评分结果,从多个角度分析评测对象的表现。