代运网站,asp网站开发软件,怎么做表格,做聚美优品网站得多少钱9.1 引言
本章将探讨大型语言模型#xff08;LLMs#xff09;可能带来的有害性#xff0c;重点讨论以下几个方面#xff1a;
性能差异社会偏见和刻板印象
在后续内容中#xff0c;还会涉及其他层面的危害#xff0c;如有害信息、虚假信息、隐私和安全风险、版权问题、…
9.1 引言
本章将探讨大型语言模型LLMs可能带来的有害性重点讨论以下几个方面
性能差异社会偏见和刻板印象
在后续内容中还会涉及其他层面的危害如有害信息、虚假信息、隐私和安全风险、版权问题、环境影响及权力集中等。这些内容揭示了“能力越大责任越大”的原则尤其是在AI领域的大模型应用中我们需要平衡其强大能力与潜在危害。
本章首先回顾一些历史上成熟的危害预防机制例如贝尔蒙特报告和IRB以及**基因编辑CRISPR**等生物医学领域的经验。这些案例提供了对AI领域安全与伦理问题的宝贵经验帮助我们构建AI系统的危害预防框架。
9.2 社会群体
在AI中特别是大型语言模型的应用中许多决策会依据受保护的社会群体属性如种族、性别、宗教、年龄等。这些群体在AI系统中的表现可能受到不同文化背景的影响且历史上边缘化群体通常面临更大的伤害风险。大型语言模型的性能差异和社会偏见问题往往与历史上的歧视现象一致尤其是交叉性理论指出处于多个边缘化群体交集的个体如黑人女性通常面临更为严重的歧视。
9.3 量化性能差异/社会偏见在LLMs中的危害
大型语言模型通过大规模数据预训练往往会无意中继承数据中的偏见从而在性能和社会偏见上表现出不公平的特征。以下是通过两种测试量化这些危害的例子
名字偏见
动机测试模型对涉及人名的理解。
原始任务使用SQuAD数据集进行测试。修改后的任务交换SQuAD中的人名并测试模型的回答准确性。结果显示模型对于熟知的名人名字更准确但对于不知名的人物表现差。
示例结果
模型参数数量原始准确率修改后准确率名字交换结果FlipsRoBERTa-base123M91.249.615.7%RoBERTa-large354M94.482.29.8%RoBERTa-large w/RACE354M94.487.97.7%
刻板印象
动机评估模型对涉及刻板印象的文本的偏好。
任务比较模型对具有刻板印象和反刻板印象的句子的概率。结果显示所有模型都有对刻板印象数据的系统偏好较大的模型往往具有更高的刻板印象得分。
示例结果
模型参数数量刻板印象得分GPT-2 Small117M56.4GPT-2 Medium345M58.2GPT-2 Large774M60.0
9.4 测量与决策
现有的公平性指标虽然可以量化性能差异但往往无法同时最小化多个目标且无法满足所有利益相关者的期望。例如词汇表、解码参数等设计决策可能显著改变结果因此衡量偏见的指标并非总能可靠地预测下游的伤害。此外现有的基准测试也面临批评许多测试无法真实反映出LLMs对社会群体的影响。
9.5 其他考虑因素
大型语言模型可能通过多种方式造成伤害尤其是在涉及社会群体的表现和历史性边缘化问题时伤害的影响尤其值得关注。理解这些伤害的社会后果需要考虑群体背景、历史压迫及社会结构等因素。尽管具体的下游应用环境中伤害的影响较为直观但作为基础模型的LLMs所引发的上游问题同样不可忽视。
9.6 决策问题
目前许多针对AI偏见和伤害的缓解措施效果有限。有效的缓解措施需要采用更广泛的社会技术方法这些方法需要涵盖LLMs的应用环境并根据不同的社会情境作出适应性调整。