为减少AI偏见：IBM打造了一套更加多样化的百万人脸数据集-人脸识别-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

为减少AI偏见：IBM打造了一套更加多样化的百万人脸数据集

来源：互联网发布日期：2019-02-01 09:05:42 浏览：30214次

导读：尽管技术本身是中立的，但在人工智能（AI）的开发过程中，难免会引入一些人类的偏见。为了减少这方面的偏差，IBM 研究院刚刚打造了一套更加多样化的百万人脸数据集。近年来，随着智能手机的普及，面部识别已经在许多领域得到了广泛的运用。然而在一些测试中...

尽管技术本身是中立的，但在人工智能（AI）的开发过程中，难免会引入一些人类的偏见。为了减少这方面的偏差，IBM 研究院刚刚打造了一套更加多样化的“百万人脸数据集”。近年来，随着智能手机的普及，面部识别已经在许多领域得到了广泛的运用。然而在一些测试中，某些看似很优秀的 AI，竟然也会败下阵来。

（图自：IBM Research）

鉴于不少情况与某些肤色或年龄相关，IBM 研究院希望进一步消除这方面的偏差。

显然，这是一个多层次的问题，很大程度上归咎于开发人员和创建者没有深思熟虑。

此外，如果没有包罗万象的人脸数据集，AI 也难免在训练过程中有失偏颇。

凭借全新的“百万多样性人脸数据集”，AI 开发者将能够充分考虑到多样性的面部特征（DiF）。论文解释称：

为使面部识别能够按照要求执行（既公平又准确），训练用的数据，必须提供足够的平衡和覆盖。

它应该足够大、且多样化，以便了解更多类型的面部固有差异。图像必须反映我们在世界中看到的面部特征的多样性。

据悉，这批面孔来自一套更加庞大的 1 亿图像数据集（Flickr 创作共用）。

通过运行另一套机器学习系统，并找到尽可能多的到面孔。然后将它们隔离并裁剪，再开始真正的工作。

这些集合可被其它机器学习算法所摄取，因此需要多样化、且准确的标记。

（图自：IBM Research）

DiF 数据集中包含了一百万张面孔，且每个都附有元数据，以描述眼间距和额头等特征。

结合上述多种措施，系统可用于匹配图像与个人的‘面部印记’，但仍需考虑算法是否对某个种族群体是否合适。

有鉴于此，IBM 团队整理了一套修订版本，不仅包括了简单的内容，还描述了各措施之间的关联 —— 比如眼睛上方和鼻子下方区域的比例、肤色、对比度、以及着色类型。

此外，用户的年龄也可被自动估计。人们被要求标记男性或女性的面部，并猜测其年龄。

当然，这里肯定会存在一定的偏差，但与其它任何公开的面部识别训练数据集相比，所有这些都可以在更广义的尺度上去理解。

带领这项研究的 IBM 研究员 John R. Smith 在一封电子邮件中称：

在文化和生物学上，种族之间的界限并不明显。我们选择专注于能够可靠测定的编码方案，为多样性分析提供一定规模的支持。

相关热词： AI 人工智能

为减少AI偏见：IBM打造了一套更加多样化的百万人脸数据集
来源：互联网发布日期：2019-02-01 09:05:42 浏览：30214次