本研究针对代码大型语言模型中存在的性别偏见问题,提出了一个名为codegenbias的数据集及fb-score评估指标,旨在定量分析此偏见。我们开发了mg-editing模型编辑方法,能够在多个参数粒度层面上有效减轻性别偏见,同时保持代码生成的能力,实验表明在行级和神经元级的粒度应用效果最佳。
模型编辑用于更新语言模型知识,但可能增加偏见。研究引入seesaw-cf数据集,发现编辑后模型在种族、地理和性别内容上偏见更强,尤其是长文本生成时。编辑出生地、公民国籍或性别的事实,可能负面影响模型对职业特征的理解。