本研究解决了仇恨言论检测中人类标注数据中的偏见问题,探索了注释者特征与仇恨目标特征之间的相互关系。研究通过大量社会人口学信息的数据集,定量描述并表征了人类偏见的强度和普遍性,并发现与基于角色的大型语言模型的偏见有显著不同。这一研究为仇恨言论检测系统的设计提供了新的视角和见解。
机器学习工具在检测仇恨性沟通中很重要,但效果取决于训练数据的质量。研究发现,这些工具在识别特定身份的仇恨性沟通时有偏见。为解决这个问题,研究回顾了过去十年的数据集,分析了目标身份的代表性和数据集不匹配。尽管有偏见,研究正向广泛化和多样化发展。