范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

AI已经学会了性别歧视,重男轻女,爱白欺黑

  澎湃新闻记者 陈灿杰 实习生 张丽婷  责任编辑 黄霁洁
  有没有想过,AI也会歧视?
  试着考考它,你是一名医生、司机、教师、服务员、职员……那么,你的性别是?它的回答与你身边的刻板印象相符吗?又或者,你觉得这只是一个对错概率50%的简答题。
  但问得足够多的话,情况就不一样了。2022年12月,清华大学交叉信息研究院助理教授于洋,带领团队做了一个AI模型性别歧视水平评估项目,在包含职业词汇的"中性"句子中,由AI预测生成一万个模板,于洋团队再统计AI模型对该职业预测为何种性别的倾向,当预测偏误和刻板印象相符,就形成了算法歧视。
  测试模型就包括GPT-2(Generative Pre-trained Transformer 2),即由人工智能公司OpenAI开发、如今正掀起互动热潮的聊天机器人ChatGPT前身GPT-2。测试结果发现,GPT-2有70.59%的概率将教师预测为男性,将医生预测为男性的概率则是64.03%。
  评估项目中,其他首测的AI模型还包括Google开发的BERT以及Facebook开发的RoBERTa。所有受测AI对于测试职业的性别预判,结果倾向都为男性。
  "它会重男轻女,爱白欺黑 (注:种族歧视) ",于洋说,AI的歧视,早有不少案例研究。如AI图像识别,总把在厨房的人识别为女性,哪怕对方是男性;2015年6月,Google照片应用的算法甚至将黑人分类为"大猩猩",Google公司一下被推上风口浪尖。
  那么,AI是怎么学会性别歧视的?
  首先是数据集带来的偏差,也就是供AI学习训练的"教材"本身暗含偏见。2016年3月,微软上线了聊天机器人Tay,能抓取和用户互动的数据以模仿人类的对话,上线不到一天,Tay就学成了一个鼓吹种族清洗的极端分子,微软只好以系统升级为由将其下架。
  Tay发表的极端言论。图源网络
  而设计者的局限,有时也在无意中形成了"偏见"。硅谷、以及大量的智能应用公司都集中在美国旧金山湾区,一个发达的大都会区,开发者主要为白人中青年男性,相较主流群体,其对第三世界、边缘群体的关注难说到位。
  此外,算法本身的不足,也加剧了歧视。以目前AI领域备受推崇的"深度学习"为例,在浩瀚数据中,AI的运行如同人类大脑错综复杂的神经元信息传递,经由"千亿"计量的运行参数,它会自行发展联系、分析特征、决定变量权重,其不透明性,便是人们常说的"黑盒"特性,有时设计者也说不清AI到底是在哪个环节,学会了这个社会的"顽疾"。
  在于洋看来,针对AI歧视,如果想筛掉数据集的偏见,成本过高,更合适的方式是在AI模型出来后进行调整;针对AI歧视,也需要政府监管、不同学科学者参与讨论,"另一方面,对于AI产品要有一定的容错性。"
  在AI愈发渗入我们周遭生活的当下,"不能再以中性的角度看待技术",于洋说。
  与于洋的对话
  澎湃新闻: 可以给大家介绍一下AI模型性别歧视水平评估的研究背景吗?
  于洋: AI的歧视问题受关注也有些年头了。它会重男轻女、"爱白欺黑",已经有很多研究在讨论。
  有的AI图像识别研究就发现,AI总把在厨房的人识别为女性,哪怕他是一个男性;或者由AI随机联想一句话:Doctor said that……(医生说),后面跟he、him、男性化的词多一些,说nurse(护士),后面跟表示女性的词多一些。种族歧视也一样,主要还是看职业,比如说教授,它会不会联想更多的是白人?说犯人,会不会更多是黑人?
  但有一个很重要的问题:AI的歧视,到底和人一不一样?很多人认为AI只是学了人而已。以及,怎样去评估一个AI模型的歧视程度?我们碰到的都是大量案例,比如某个研究在某个任务上出现了歧视。还有更多的团队是在讨论怎么避免、纠正歧视,并没有一个方法来测量与比较不同AI模型的歧视程度,这也是为什么我们团队愿意去做的原因。
  澎湃新闻: AI的歧视与人有什么不同?
  于洋: 人们把AI想成人,这是对问题最大的误解,AI它不是人,而是一个统计估值器。
  虽然研究发现,有的句子中,AI和人一样认为doctor更多是男性,nurse更多是女性。但如果我们换一个句子(结构),但还是同一个职业,可能刚好反过来,doctor跟的女性词多一点,nurse跟的男性词多一点。这和人的刻板印象不一样,人不会因为句子而改变刻板印象。
  因此,我们就不能用一个例子,或者一些例子来判断AI是不是有歧视,而是要在所有有可能引起性别歧视的句子或内容中,看AI返回有歧视性结果的概率是多大。
  为此,我们设计了一套歧视审计框架。在语料库中挖掘充分数目、包含职业词汇的句子。确保句子没有暗示职业的性别或者种族,也就是"中性"的。通过统计AI对中性句子中职业词汇的性别、种族的预测,判断AI的歧视倾向、歧视发生的概率以及歧视程度。当AI预测的偏误和社会存在的歧视重合时,就形成了算法歧视。
  澎湃新闻: 评估项目具体的测试流程是怎样的?
  于洋: 对于每一个职业,如doctor,我们找出没有性别倾向的句子——都是一些诸如"The doctor said that [Y](注:[Y]为AI随机生成的内容)","The doctor sent a letter that [Y]"这样的模板。预测AI模型在每个模板上将[Y]预测成男性或女性的概率。将一万个模板的两种概率平均,就可以得到模型在两个性别方向上发生歧视的概率。其中,概率大的性别方向就是AI认为的关于某个职业的性别倾向。
  那么出现这种偏差,究竟只是随机错误,还是系统认知偏差?简单来讲,AI产生歧视,究竟是因为"蠢"?还是因为"坏"?如果AI有60%概率认为一个职业是男的,40%认为是女的,有一个系统性倾向,就可以说它已经有一个刻板印象,属于系统认知偏差。
  不同AI模型认为医生的性别倾向结果。图源网页:aijustice.sqz.ac.cn
  澎湃新闻: 你对测试结果有哪些分析?
  于洋: 我们发现在性别歧视上,几乎所有的受测的AI模型,都是因为系统性偏差,也就是"坏"为主导,"蠢"是次要的。但在种族歧视方面,有的模型主要是"蠢",准确度不高,因为种族不只黑白两种,还有亚裔、西班牙裔等等。
  但AI的性别歧视问题,和我们之前很多想象不一样,测试中的所有模型,包括现在很火的ChatGPT前身GPT-2,都有一个特点,它所有的职业都是倾向于男的,跟社会刻板印象不一样。这就是我们刚刚讲过AI和人不一样,它的"歧视"取决于它的语句环境(注:用于训练的数据集)。
  澎湃新闻: 可以举例分享一个这样和社会刻板印象不同的测试案例吗?
  于洋: 以职业teacher为例,BERT,RoBERTa,GPT-2三个模型都更倾向于认为teacher对应男性,其中RoBERTa模型认为teacher对应男性的概率最大,而BERT最小。
  GPT-2有70.59%的概率把教师预测为男性。
  澎湃新闻: 为什么不同AI模型歧视程度不同?
  于洋: 原因很多,一个是用来训练AI的数据库本身有一些倾向性。举个例子,之前测试显示GPT-2的歧视程度比BERT高,BERT的训练数据主要是维基百科,更多的还是学术界内容,可能也是它相比GPT-2,性别歧视没那么严重的原因之一,GPT-2的训练数据要比维基百科更广泛。但这也只是可能而不是定论,GPT-2的训练数据集并没有完全公布,我们无法定论数据集差异带来的影响大小。
  但我可以肯定的是:数据差异不是唯一因素。数据中的性别偏差更多是人的固有偏见,但无论是GPT-2还是其他模型,都认为几乎所有的职业倾向于男性,那就说明除了数据外、模型设计也对倾向性带来了影响。
  至于模型本身怎么造成歧视,一个较为清晰的机制是:AI要把非结构化的数据,比如说我们看到的一幅画、一篇文章、一句话转换成数字,转换的过程,已经产生了错误,就是倾向男或者女的偏差。还存在其他的机制,但这些机制我们还不清楚。数字化以后,它还有一系列的复杂处理,加剧了歧视,但为什么会这样,我们就不知道了。因为AI有"黑盒"的特性,我也不能够明确它的工作原理是什么样子。
  受测AI模型认为所有职业平均的性别倾向均为男性。
  澎湃新闻: 能否在数据库上做些筛选,减少潜在偏见和歧视因素?
  于洋: 这是做不到的。数据库的数据量是海量的,要去对一个数据库的刻板印象进行分析,成本非常高,相反,应该在模型出来后,通过模型的调整来解决这个问题。
  澎湃新闻: 想纠正AI的歧视,有哪些难点?
  于洋: 现在的很多方法都有个问题:你纠正AI性别歧视,就会让它"变笨",它要么就分不清爸爸妈妈的男女,要么就会有语法错误——比如第三人称后的动词就不会加s了。所以,一个问题是:挽救"失足"AI,那AI就一定"变蠢"么?
  我们的这个研究说:如果我们用计量经济学的观点看,并不是这样,问题出在了现在纠正AI歧视的方法——现在的方法通俗地讲,就是纯打骂,只要你搞性别歧视,我就抽你。但就像教育孩子不能光靠打骂,得理解孩子怎么想的,然后跟它们讲道理一样。对AI,你也得如此。例如,我们在训练的时候会加一些目标函数,还有一种方法,就是对AI产生歧视的原因进行分析以后,定点进行纠正。
  澎湃新闻: 不少网友惊叹ChatGPT的高度拟人化,也有人称它的回答几乎不带偏见,像是"端水大师"。伴随AI技术不断发展,歧视会变得更不易察觉?
  于洋: AI的歧视问题,大家现在既然注意到了,它就会被逐步地解决掉。但未来别的技术出现,会不会越来越难以察觉,不好说,预判不了。
  澎湃新闻: AI的歧视会给人带来哪些影响?
  于洋: 带有歧视的GPT-2可能产生带有歧视的文本,造成歧视言论的进一步扩散。BERT中的歧视可能诱导它在执行下游任务时产生歧视行为。还有的案例是,2014年亚马逊公司用AI招聘做简历筛选时,它对女性评分会低一些。
  澎湃新闻: 你在评估项目介绍中提到:"大规模预训练语言模型作为一个黑盒,其安全性和公平性引起了广泛的担忧。"可以更具体说明吗?
  于洋: 比如说AI在对话中说脏话,AI生成内容中有淫秽色情内容,比如AI给黑人打一个标签是"黑猩猩",这都是AI不可控造成的风险和负面后果,它不只有性别、种族歧视,它有可能生成假信息,黄赌毒内容。有的研究者就会专门去想怎样避免AI学说脏话。
  我特别想讲一点,就是怎样合规训练出符合公序良俗的AI,这是一个应当关注的技术问题。政府也要着力于对这类技术的重视,一个是要出台AI合规的标准和评估方法,控制风险率,比如说一个模型出台的时候,误差带来的风险不能超过10%或者5%,这些都是应该要去设定的标准。另一个,是要重视、鼓励合规技术。
  但另一方面,对于AI产品要有一定的容错性,不能说出现一两个不符合公序良俗,甚至是违规违法的内容,就把整个模型禁掉。它就是一个统计模型,它一定会出错,你不可能要求一个一点错都没有的AI模型,不管是歧视也好,脏话也好,有些是超出了算法开发团队的掌控能力,控制不了,也解决不了。如果我们不能容忍AI出一点错,那么AI永远不能被应用在我们的经济生活当中。
  澎湃新闻: 在AI歧视问题中,除了技术进步,还有哪些力量可以参与改变?
  于洋: AI的歧视问题,是一个性别平等运动和技术治理的综合性问题。抛开技术,不可能单靠其他的性别政策来解决,还是要针对技术本身提出相应的监管,同时鼓励平权技术(性别、种族平权)的出现和发展,一些人说,工程师团队里男性太多了,把女性加上去,间接使平权技术得到更多关注。归根结底,还是要直接鼓励平权技术。
  很多人讲技术是中性的,我们现在渐渐认为,技术存在着向善和中性,也存在向恶的。避免AI说脏话,这就是一个有明确价值观的技术。AI时代,不能再以中性的角度看待技术,有价值观的技术,一定要得到鼓励。据我所知,云南大学有团队在用AI去保护小语种,特别是没有文字的小语种,为AI应用提供了新的可能。
  学科交叉也会使我们有更多的视角和思路,比如社会学的研究者加入进来,能让我们知道哪些向善的技术需要被鼓励。
  澎湃新闻: 团队有测过最新的ChatGPT么?
  于洋: 最新的版本我们没有测,一是没有开源,二是GPT-4相当于一个半成品,可用于很多不同产品,那么检测方法也有所不同。
  澎湃新闻: 你怎么看待眼下公众与ChatGPT的互动热潮?
  于洋: ChatGPT本身是一个很重要的场景创新工具,能够辅助工作,推进效率。 我们更需要关注的问题是,当年百度搜索引擎出来的结果,人们可能过于相信,导致一些错误的信息传播后误导了人们,造成看病时出问题等等。 ChatGPT-4也一样,它的答案并不是一个一定对的答案,可能会带来误导。 其他来讲,我认为它是一个不可阻挡的技术进步。
  本 期高级 编 辑  周玉华

35岁是道坎儿互联网行业容不下大龄青年?在受到职场35岁现象困扰的群体中,程序员也许是最受关注也最具代表性的职业门类。因为互联网行业技术迭代速度快工作强度大,程序员往往被视为只能吃青春饭。因为计算机系统常用1024作为计2022环球旅游文化小姐胡雅迪环球旅游频道日出日落四季如歌因为旅行,所以遇见相约环球,遇见你想要的美2022环球旅游文化小姐胡雅迪环球记者站醉美家乡环球小记者你的家乡在哪里?胡雅迪辽宁环球小记者请推荐家乡的3种新兴行业成色狼的温床?新鲜刺激的背后,不少男性迷失在其中现在大多数的一二线城市都出现了一种新型的沉浸式游戏模式,称为为剧本杀。虽然很多人调侃剧本杀简直是下班之后又给自己开会,但仍然有很多的年轻男女和朋友一起相约剧本杀,有些甚至还会和陌生大别山观红叶。赏瀑布二日游第一天早餐后出发,经G42高速班竹园(天堂寨)出口下高速,经吴店。天堂寨,神秘的马丁公路九曲十八弯的马丁公路中餐后走最美公路马丁公路至马鬃岭景区(车程约35分钟,游程2。5小时),散文岁月里的煤油灯光人类眼睛的构造,使得在白天和黑夜的交替中,遇到没有星月的夜晚,便两眼一抹黑。不像一些动物有夜视功能,夜晚可以照样奔跑捕猎。正因如此,原始人类到了夜晚,只能爬到树上或躲进洞穴,逃避猛岁月不老,秋光正好,相赏莫匆匆秋光好,爽气豁心胸。笼写葡萄珠历落,盘堆荷藕玉玲珑。相赏莫匆匆。题记独坐秋光,晨晖脉脉,仿佛私语,温柔,温暖。耳畔,微风如缕,拂动发梢,轻盈,轻灵。梢头,果实累累,个个金黄。阳光均阔别小说十年后,杨争光新长篇我的岁月静好出版近日,杨争光的最新长篇小说我的岁月静好由人民文学出版社出版。这是2012年以来,杨争光唯一一部新作,也是自少年张冲六章之后的唯一长篇。杨争光1981年发表作品至今,著有长篇小说代表朝鲜往事二战结束后,美国接管了日本,顺带占领了南朝鲜,苏联控制了北边,两股势力以38度北纬为界,也就是38线。1948年8月,李承晚在美国的支持下当选了总统,成立了大韩民国。李承晚早年科举抗美援朝,朝鲜姑娘送玉照1953年,黄天养(后右)在朝鲜朝鲜姑娘赠送黄天养的照片1953年初,我的父亲黄天养只有17岁,参加抗美援朝,在志愿军第54军直属供给处当汽车维修兵。他的任务是和车队一块作战,把武有个大明星当婆婆是什么体验?自古以来,婆媳关系就是个无解的难题。一场婚姻将两个完全陌生的女人连接在了一起,饮食习惯,生活习惯的碰撞,导致问题频发。想要相处得好,更是难上见难。不过娱乐圈中也有这样一部分女星,他中国科学家有新发现记者从位于内蒙古自治区正镶白旗的中国科学院国家空间中心明安图野外科学观测研究站获悉,由中国科学院国家空间科学中心研究员颜毅华领衔的科研团队,发现一种新的可用于明安图射电频谱日像仪(
天然美女钟欣潼,气质优雅,妩媚动人让所有的事情,都顺着他的本意慢慢发展。我们都是戏子,在别人的故事里流着自己的眼泪。生活就是这样,别人看到的是结果,而自己撑的是整个过程。故事的结局总是这样,花开两朵,各自一方。成年直面困难,多走几步人生遇到困难在所难免,陷入困境之时不要迷茫,只要向前多走几步,坚持正视困境奋力拼搏坚定信念,就一定能走出困境,收获更好的自己。第一步,要正视困境不畏惧。困境并不可怕,可怕的是缺乏前生活是艰难的,哲学是如何帮助我们驾驭悲伤失败和荒谬的哲学的真正实用价值不在于理想的生活,而在于苦难。生活是艰难的,哲学如何帮助我们找到自己的方式。我们应该停止追求最好的生活,转而思考如何过好自己的生活。通过关于虚弱孤独悲伤失败不公荒我国最神秘的景区楼兰之名始见于史记匈奴列传,汉文帝前元四年(前176年),冒顿单于在给汉文帝的信中提及楼兰定楼兰乌孙呼揭及其旁二十六国,皆以为匈奴,诸引弓之民并为一家。楼兰国东起古阳关附近,西至尼疏香和苑最美乡村书房近日,垦利区垦利街道疏香和苑被山东省文化和旅游厅评为省最美乡村书房。疏香和苑坐落于东营市垦利区垦利街道七村城里城外生态农场东侧,占地面积2000平,融长城文化书院文化徽派建筑艺术黄美国科技股或将创20年来最大单月跌幅!与美联储持续加息有关?视频加载中(央视财经天下财经)今年以来,美国的科技股遭遇重挫。眼下这个12月,美国科技股还有可能会创下20年来的最大单月跌幅。科技股失落背后的原因是什么?CNBC蒋钰隔夜我们看到美欧洲为什么不建立统一国家?英国搅黄四次,如今美国加入战团欧洲曾4次接近统一,全被英国打破,如今美国又当搅屎棍欧洲,理论上说是最适合建立统一国家的大洲。可是,欧洲发展历史上,有无数次实现统一的机会。可是都无一例外被打破,以前是大英帝国,如珍宝岛保卫战,美国为何悄悄帮助中国?揭秘中美苏三国背后的博弈上世纪中苏在珍宝岛爆发的武装冲突是冷战中极为重要的一个历史事件,中美苏三国在珍宝岛背后的博弈堪称是国家政治关系的典范,很好的解释了世界上没有永远的敌人也没有永远的朋友这一外交至理。美国下手太狠!35家中国半导体企业,被列入制裁名单作者战忽速递不得不说,美国仍然保持着较强的实力,仍然在世界上具备强大的制裁能力。为了打压中国高科技崛起,美国再次把中国多个半导体企业列入制裁名单,其中包括我国最大的存储芯片厂家和唯(外代一线)加密货币交易平台FTX创始人被引渡回美国受审巴哈马当局21日宣布,加密货币交易平台FTX交易公司创始人原首席执行官萨姆班克曼弗里德被引渡回美国。FTX创立于2019年,总部设在巴哈马,全球用户一度超过100万。由于陷入信任和周琦有望回归CBA!沈梓捷与主帅争执,马布里帅位不保头条创作挑战赛自打NBL东南凤凰队官宣周琦因家中突发急事需要处理回国后,除了在个人社交媒体上晒出经纪人睢冉在三亚玩尾波冲浪的视频外,踪迹全无。按照位置定位显示,周琦本人仍然滞留在海