上海交通大学图像通信与网络工程研究所教授武筱林在过去的半年里收到过无数的批评邮件,不少媒体报道里也引述了一些专家学者的批评意见。但这次,三名美国研究者在网络上撰写洋洋洒洒的万字长文向他隔空喊话,点名批评他的研究为“科学种族主义”。
这篇万字长文名为《相面术的新外衣》(Physiognomy’s New Clothes),于当地时间5月6日发表在新媒体网站Medium上。三名作者,Blaise Agüera y Arcas是机器学习领域的著名工程师,2013年从微软跳槽到谷歌;Margaret Mitchell同样是谷歌的人工智能研究员;而Alexander Todorov则是普林斯顿大学的神经科学教授。
这一切都源于武筱林和其博士生张熙于去年11月上载在预印本网站arXiv上的一篇论文,题为《基于面部图像的自动犯罪概率推断》(Automated Inference on Criminality using Face Images)。
研究使用的照片样本。a组为罪犯,b组为非罪犯。
武筱林和张熙运用计算机视觉和机器学习技术检测1856张中国成年男子面部照片,其中将近一半是已经定罪的罪犯。实验结果显示,通过机器学习,分类器可以以较高概率区分罪犯与非罪犯这两个群体的照片。特别是在内眼角间距、上唇曲率和鼻唇角角度这三个测度上,罪犯和非罪犯存在较为显著的差距。平均来讲,罪犯的内眼角间距要比普通人短5.6%,上唇曲率大23.4%,鼻唇角角度小19.6%。同时,他们发现罪犯间的面部特征差异要比非罪犯大。
平均来讲,罪犯的内眼角间距要比普通人短5.6%,上唇曲率大23.4%,鼻唇角角度小19.6%。
三名美国学者在时隔半年后评价道:“随着人工智能和机器学习的高速发展,我们迎来了科学种族主义的新时代。”他们声明,写作这篇深度文章,“不仅仅是为了研究者、工程师、记者和决策者,也是为了想要确保人工智能是有益于人类的每一个人。”
不过,武筱林此前在接受澎湃新闻(www.thepaper.cn)专访时曾提过,他欢迎学术上的交流和讨论,也欢迎用数据来质疑他的结论。至于政治伦理方面的问题,则需要更广泛的社会讨论,并非他个人所能解答的。
谷歌研究员的万字长文虽然也提出了几个可能造成武筱林实验数据“假象”的技术问题,但其核心论点抛开了针对论文细节的讨论,站在政治正确性的角度,从历史、伦理出发,对相面术及其在机器学习时代的新形态进行了批评。
“机器相面术”,新瓶装旧酒
三位美国学者的文章并非学术论文,在万字的篇幅中,他们讲述了相面术发展的历史,解释了机器学习研究领域的一些基本情况,并以武筱林和张熙的研究为靶子,指出就像他们的研究是披着机器学习外衣的相面术,人类社会中的许多歧视也可能会被算法洗白。
关于相面术的历史,他们是从龙勃罗梭开始讲起的。
1870年,意大利监狱医生龙勃罗梭(Lombroso)打开了意大利著名土匪头子维莱拉尸体的头颅,发现其头颅枕骨部位有一个明显的凹陷处,它的位置如同低等动物一样。这一发现触发了他的灵感,他由此提出“天生犯罪人”理论,认为犯罪人在体格方面异于非犯罪人,可以通过卡钳等仪器测量发现。龙勃罗梭并认为犯罪人是一种返祖现象,具有许多低级原始人的特性,可被遗传。
龙勃罗梭的研究支持着他的政治主张:意大利南方人要比北方人更文明。此后,龙勃罗梭在“颅相学”和“天生犯罪人”方面的追随者同样将自己的研究与某些政治主张捆绑。塞缪尔 莫顿(Samuel Morton)推崇白人至上的颅骨学投射的是19世纪美国的白人奴隶主,而德国儿童教材《毒菌》(Der Giftpilz)上教授通过鼻子形状辨别犹太人,则投射了纳粹时代。
文章的三位作者指出,“相面术试图从人的外貌推测其内在性格。虽然今天相面术被视为伪科学,但民间还是有人相信可以从面相或身材中鉴别出低级一点的人群。而在有些历史时期,相面术也内嵌在了国家法律中,为侵占土地、反移民、奴隶制和种族清洗提供依据。而关于相面术的伪科学就是科学种族主义。”
他们认为,上述的这类研究在人工智能时代的新形态就是武筱林式的。“在计算机和大数据无处不在的时代,‘机器相面’开发出了许多前所未有的用途。因此,人工智能的开发者、评论家、用户们都急需了解技术的边界和相面术的历史,如今它披上了现代的外衣。”
机器习得了人类的偏见
文章最担忧的问题,是人类社会的一些歧视和偏见,作为训练模型嵌入机器学习后,就被“洗白”了。毕竟,算法的输入和输出看上去是非常公正客观的。
武筱林和张熙在论文中写道,“人类观察者的主观判断会造成偏见,我们首次在排除人为偏见的情况下,探究基于脸部特征自动推断犯罪分子。”
文章的三位作者认为,无论是否借助机器学习的工具,相面术,即试图通过外貌特征预测行为性格,都基于以下三个有漏洞的隐藏假设:
1、一个人的外貌是由先天决定的;
2、“犯罪性”是某个特定群体的天生属性;
3、司法系统中的刑事判决不受外貌的影响。
为此,文章对这三点假设一一作了驳斥。值得注意的是,武筱林在论文中并未提及这三点假设中的任何一点,他将实验结果的解读空间留给了社会科学领域的学者。
三位美国学者指出,首先,面部特征不是完全天生的,成长、环境的影响也很大。此外,摄影时的环境也影响着照片上呈现的人脸。就像在武筱林在论文中提及的2011年康奈尔大学的心理学研究中,学者将罪犯的照片与在校园中拍摄到的人脸作为研究材料,就可能对研究结果造成干扰。
其次,“犯罪阶级”这个概念在19世纪十分流行。为此,英国将罪犯流放到了澳大利亚以减少英国的犯罪率。不过,事实证明,澳大利亚并没有成为充斥着犯罪的地狱。此前,也有研究认为较高的睾酮水平会增加侵略性。然而,它们都无法取得很高的相关性。简而言之,目前人类的研究只发现身体外观与行为可能存在微弱相关。
最后,文章提到,在美国,一名黑人男性被监禁的可能性是白人男性的7倍。而犯有同样罪行的黑人罪犯往往会遭受更重的刑罚。因此,研究中所用的罪犯数据可能就是法官偏见的结果。
换言之,武筱林和张熙的实验并不是找到了准确断案的捷径,而是揭示了人类判断、包括官方刑事判决中的不准确和系统性的不公正。
捅破了窗户纸
文章提到,学术界很多人都觉得武筱林和张熙的研究在伦理性和科学性上都很有问题。虽然三位作者也在文中指出了一些技术上可能的漏洞,比如不足2000个样本很容易造成机器过度学习,以及机器学习到的可能只是照片上的表情(比如罪犯的照片更多地皱眉,而普通人的照片更多地微笑),但他们更强调研究的伦理性问题。机器学习是一种对普通人而言“强大而神秘的工具”,而武张的研究赋予某些“陈词滥调”新的可信度。
文章总结道:“在科学层面上,机器学习是一个前所未有的窗口,可以窥见自然和人类行为,可以让我们反思及系统地分析所谓的直觉和群体智慧。武筱林和张熙的研究结果与此前的一些研究一样捅破了一层窗户纸,揭示了我们究竟是如何鉴别别人的。
在实践中,机器学习技术会越来越多地介入人类生活,就像许多强有力的工具一样,它们通常会帮助我们,包括更快更客观地分析数据。
但机器学习也可能会误用,这种误用常常是无意的。过分狭隘地局限在技术问题上就可能导致这种误用,比如:
没有洞见训练数据来源中的偏见;
没有仔细审查该领域的现有研究,尤其是机器学习领域之外的;
没有考虑可能导致测得相关性的多种因果关系;
没有充分考虑这种机器学习系统的应用场景和其社会影响。
武筱林和张熙的论文充分展示了上述陷阱。非常不幸,他们测得的相关性又揭示了刑事判决中普遍存在的偏见,该领域的研究已经颇为瞩目,如今又添砖加瓦。基于面部特征的深度学习绝不该应用为‘加速’司法公正的工具,如果真的这么做的话,反而会让不公正长存于世。”
武筱林:“核物理学家该为原子弹造成的伤害负责吗?”
文章还预计,近期会有类似的研究出现,“它们抱有同样的偏见、短视,并宣称自己是科学客观的,以此来‘洗白’人类的偏见和歧视。”文章还点名批评了一家以色列初创企业Faception,其致力于运用人脸分析识别恐怖分子、恋童癖和白领罪犯。
对此,武筱林曾向澎湃新闻(www.thepaper.cn)透露,国际上确实有一些同行在做类似的研究,他就是为了抢占研究的优先权,才在arXiv上传了论文。
去年11月底,正处于第一波舆论漩涡的武筱林曾接受澎湃新闻(www.thepaper.cn)的专访,并回应过许多核心质疑。
首先,武筱林表示欢迎技术上的交流,他也受到过许多有价值的反馈。比如,他们的样本量确实可能过小。此外,也有人指出过他们样本中的罪犯和守法公民可能更多代表了经济地位上的差异。他们也曾采纳一些反馈而做出调整。有人指出警察拍摄犯人照片的相机可能有特定的参数,他们就在照片中添加了许多噪点以削弱其影响。
其次,武筱林强调他从未有任何应用方面的意图。就算有别人想要把这个研究用于实践,考虑到中国社会千分之几的犯罪背景概率,研究中80%以上的真阳性概率放在现实中的准确性也很低。
第三,武筱林强调他个人是反歧视的。甚至,一开始他们做这个研究的目的,就是看了龙勃罗梭的研究和2011年康奈尔大学的心理学实验(实验发现人光靠照片鉴别罪犯的成功率非常高)后,出于好奇想要证伪,结果却令他们大吃一惊。
对于令学界和舆论界“炸锅”的实验结果,武筱林强调他只呈现了其中的相关性,而其中的因果关系,即到底是长相决定了天生的犯罪性,或者是人类社会对长相的歧视促成了犯罪概率的差异,则留待社会科学的解读。
至于这个研究一开始到底该不该做、做完后该不该公布,这同样属于社会科学讨论的范畴,武筱林坦言他难以回答。“为了人类社会更高的利益,是不是科学家要自律一点,而不是说求知求真者无罪,这个争议在世界范围内已经开始了,人工智能已经到这一步了。是不是就会有一些禁区,研究者不能去碰它,坦白讲我不知道。”
“核物理学家该为原子弹造成的伤害负责吗?”这是武筱林抛回给澎湃新闻的疑问。
[责任编辑:郭晓康]