评估 nlp 模型时,使用 llm-generated 判断取而代之人为判断的趋势日益增长。我们提供了一个由人工注释的 20 个 nlp 数据集的 judge-bench,并对 11 个当前的 llm 进行全面评估,涵盖公开权重和专有模型,以验证其模拟注释的能力。我们的评估结果表明,每个 llm 在与人工判断的相关性方面在不同数据集上存在很大的差异。我们得出结论,llm 尚不具备系统替代...
本文提出了一种新框架,用于评估语言模型和人类评判者的偏见。结果显示人类和语言模型评判者都容易受到扰动,并存在相当大的偏见。作者呼吁社区意识到评估系统的脆弱性,并开发健壮的评估系统。