导语:美国科学杂志nautil.us《鹦鹉螺》作者Aaron M. Bornstein近日发表了讨论人工智能与大数据能否纠正人类种族歧视的深度报道。尽管人工智能设计者和数据工程师可能没有类似种族歧视的偏见,但大数据从业者都明白,用于提供定制服务的大型数据集不可避免地包含丰富详细的信息,包括具有受保护属性的肤色、性别、性取向和政治取向等。算法在这些数据的基础上做出的决定可以隐蔽地打开这些属性,既令人难以察觉,又是不道德的。
谷歌翻译存在着隐性的性别歧视问题。你可以尝试将短语“o bir doktor”和“o bir hem?ire”从土耳其语翻译成英语。这两个土耳其语短语用的都是性别中性的代词“o”,而谷歌翻译强制性地选择了性别代词。结果是,第一个短语被翻译成“he is a doctor”(他是一名医生),第二个则是“she is a nurse”(她是一名护士)。
改变单词之间的联系可能会带来显著的影响。普林斯顿大学的计算机科学教授阿尔文德?纳拉亚南与同事一起开发了测量机器学习模型中偏见程度的工具。三人从已经被深入研究的心理学测验――内隐联系测验(Implicit Association Test)――开始,在该测验的一个常见变体中,受试者在积极属性的词汇与反映社会类别的词汇之间进行配对的速度越快,他们对二者联系的确信程度就越高。在许多这样的配对中,反应时间的平均差异――通常是以毫秒计――可以作为隐性偏见的测量指标。纳拉亚南和同事讲反应时间替换成单词间的距离,建立了“单词嵌入联系测验”。该测验重现了内隐联系测验研究在同一组词汇中所发现的同一组刻板印象。