一、敏感人口特征(显性歧视风险)
种族/民族/宗教
- 争议点:直接关联易导致系统性歧视(如贷款审批率差异),多数国家立法禁止(如欧盟GDPR、美国ECOA)。
- 技术替代风险:算法可能通过代理变量(如居住地邮编、姓氏)间接推断敏感属性。
性别与性取向
- 案例争议:某些保险产品基于性别定价,被指强化刻板印象(如女性更高寿险保费)。
年龄
- 代际公平问题:年轻群体因数据足迹少可能被低估信用,而老年人可能因技术使用痕迹少被排除数字服务。
二、社会经济背景(隐性偏见载体)
居住地与社区数据
- 红线歧视数字化:历史中"红线区"(低收入社区)可能通过房价、犯罪率等数据被算法继承偏见。
- 案例:美国FTC调查显示,邮编与种族强相关,影响信贷评分公平性。
教育背景
- 精英主义循环:名校学历可能被赋予过高权重,加剧阶层固化(如高端信用卡审批)。
职业类别与收入水平
- 零工经济困境:自由职业者因收入波动性可能在算法中处于劣势,尽管实际偿债能力较强。
三、行为与社交数据(隐私与代理歧视)
社交网络关系
- 关联歧视:通过社交图谱推断信用(如朋友违约影响本人评分),涉嫌侵犯隐私且缺乏因果关系。
- 中国实践:部分网贷平台曾扫描通讯录引发合规争议。
消费习惯与生活方式
- 道德评判争议:购买烟酒、游戏充值等行为被关联到"不可靠"标签(如澳大利亚银行曾追踪赌博支出)。
设备与浏览行为
- 数字指纹偏见:使用低价手机型号或频繁访问招聘网站可能被解读为"经济不稳定"信号。
四、健康与生物特征(伦理红线)
基因与健康数据
- 保险业滥用风险:美国部分州允许人寿保险使用基因检测数据定价,引发优生学担忧。
- GDPR:明确禁止将健康数据用于信贷评估。
心理健康指标
- 衍生数据争议:通过步态分析(手机传感器)、打字速度推断抑郁倾向,缺乏科学验证且侵犯隐私。
五、公共记录与司法数据(结构性不公)
犯罪记录
- 再歧视循环:轻微犯罪记录可能导致永久性服务排斥(如租房平台自动拒绝),阻碍社会融入。
- 种族关联性:美国司法系统数据显示逮捕率存在种族差异。
债务与诉讼记录
- 医疗债务陷阱:美国约50%收款诉讼源于医疗账单,算法若未区分债务类型可能惩罚因病致贫者。
六、新兴数据维度(监管滞后领域)
面部表情/语音分析
- 伪科学应用:部分AI声称通过微表情预测诚信度,缺乏实证基础且涉嫌种族偏见(如肤色影响识别准确率)。
元宇宙行为数据
- 虚拟资产交易:游戏内消费可能被误读为财务冲动,而虚拟土地投资却被视为资产证明。
争议核心与解决方向
代理变量陷阱:算法通过非敏感数据组合间接复现歧视(如用车品牌+购物场所≈种族推断)。
数据殖民主义:弱势群体因数字足迹少导致"算法隐形",加剧服务不平等。
透明性悖论:完全公开模型可能引发博弈行为(如用户刻意优化数据),不公开则无法审计公平性。
合规路径:
- 采用差异性影响测试(Disparate Impact Testing)
- 开发反事实公平性模型(Counterfactual Fairness)
- 实施动态数据消毒(移除与敏感属性强相关变量)
算法公平需兼顾技术合理性与社会正义,在效率与伦理间寻求平衡点已成为全球监管共识(如欧盟AI法案、中国《个人信息保护法》第24条)。