利用大型语言模型对其他语言模型进行评估的研究发现,尽管基于开源模型的精调评价模型在领域内测试集上达到了很高的准确率,甚至超过了 gpt4,但它们是任务特定的分类器,其泛化能力和公正性明显不如 gpt4。
本文提出了一种新的框架,用于评估语言模型(llm)和人类评判者的偏见。结果显示人类和llm评判者容易受到扰动,并存在相当大的偏见。作者呼吁社区意识到评判者脆弱性,并开发健壮的评估系统。
利用大型语言模型对其他语言模型进行评估的研究发现,尽管基于开源模型的精调评价模型在领域内测试集上达到了很高的准确率,甚至超过了 gpt4,但它们是任务特定的分类器,其泛化能力和公正性明显不如 gpt4。
本文提出了一种新的框架,用于评估语言模型(llm)和人类评判者的偏见。结果显示人类和llm评判者容易受到扰动,并存在相当大的偏见。作者呼吁社区意识到评判者脆弱性,并开发健壮的评估系统。