本研究解决了生成模型在高风险决策特别是再犯预测中的对齐问题,评估其与人类及预测人工智能模型的比较。通过结合多种数据集,研究表明生成模型可以通过上下文学习实现超越人类决策的表现,而反歧视提示却可能导致模型自我抑制,影响预测结果。
研究发现,用人类和大型语言模型(llm)评估llm性能存在偏见。分析142个样本显示,评判者易受扰动影响,存在显著偏见。研究提出识别五种偏见的新框架,并利用这些弱点攻击llm评判者,旨在提高对评估系统脆弱性的认识,推动更健壮的评估方法开发。
本研究解决了生成模型在高风险决策特别是再犯预测中的对齐问题,评估其与人类及预测人工智能模型的比较。通过结合多种数据集,研究表明生成模型可以通过上下文学习实现超越人类决策的表现,而反歧视提示却可能导致模型自我抑制,影响预测结果。
研究发现,用人类和大型语言模型(llm)评估llm性能存在偏见。分析142个样本显示,评判者易受扰动影响,存在显著偏见。研究提出识别五种偏见的新框架,并利用这些弱点攻击llm评判者,旨在提高对评估系统脆弱性的认识,推动更健壮的评估方法开发。