字节跳动最新文本生成图像AI，训练集里居然没有一张带文字描述

作文动态
热点娱乐
育儿情感
教程科技
体育养生
教案探索
美文旅游
财经日志
励志范文
论文时尚
保健游戏
护肤业界

字节跳动最新文本生成图像AI，训练集里居然没有一张带文字描述

　　一个文本图像对数据都不用，也能让AI学会看文作图？来自字节的最新text2image模型，就做到了。实验数据显示，它的效果比VQGANCLIP要真实，尤其是泛化能力还比不少用大量文本图像数据对训练出来的模型要好很多。
　　嗯？不给文字注释AI怎么知道每一张图片代表什么？这个模型到底咋训练出来的？
　　不用文字训练也能根据文本生成图像
　　首先，之所以选择这样一种方式，作者表示，是因为收集大量带文字的图像数据集的成本太高了。而一旦摆脱对文本图像对数据的需求，我们就可以直接用大型无文本图像数据集（比如ImageNet）来训练强大且通用的text2image生成器。字节实现的这个模型叫做CLIPGEN，它具体是怎么操作的？
　　一共分三大步。
　　首先，对于一幅没有文本标签的图像，使用CLIP的图像编码器，在语言视觉（languagevision）联合嵌入空间（embeddingspace）中提取图像的embedding。
　　接着，将图像转换为VQGAN码本空间（codebookspace）中的一系列离散标记（token）。也就是将图像以与自然语言相同的方式进行表示，方便后续使用Transformer进行处理。其中，充当imagetokenizer角色的VQGAN模型，可以使用手里的无标记图像数据集进行训练。
　　最后，再训练一个自回归Transformer，用它来将图像标记从Transformer的语言视觉统一表示中映射出对应图像。经过这样的训练后，面对一串文本描述，Transformer就可以根据从CLIP的文本编码器中提取的文本嵌入（textembedding）生成对应的图像标记（imagetokens）了。
　　那这样全程没有文本数据参与训练的文本图像生成器，效果到底行不行？性能与清华CogView相当
　　作者分别在ImageNe和MSCOCO数据集上对CLIPGEN进行训练和评估。首先，用MSCOCO验证集中的六个文本描述生成样本。CLIPGEN和其他通过大量文本图像对训练的text2image生成模型的效果对比如下：
　　其中，VQGANCLIP的结果比较不真实，并且伴随严重的形状扭曲。来自清华的CogView号称比DALLE更优秀，在这里的实验中，它确实可以生成良好的图像结构，但在纹理细节上差点儿事儿。DFGAN可以生成具有丰富细节的合理图像，但也容易产生局部伪影。
　　作者认为，与这些对比模型相比，CLIPGEN的图像细节更丰富，质量更高一些，比如它就很好地诠释了第二组文字中要求的水中倒影（不过不太能理解三只毛绒熊中的数字概念）。
　　定量实验结果基本证明了这一结论：
　　CLIPGEN拿到了最高的FID0、FID1分数；CapS得分（衡量输入文本和生成图像之间的语义相似性）除了比CogView低4，比其他模型都高很多。
　　此外，作者还发现，CLIPGEN的泛化能力似乎也不错。在下面这组非常规的文字描述中，比如生成一只会飞的企鹅，叼雪茄的狗、有脸和头发的柠檬CLIPGEN基本都可以实现，别的模型却不太能理解。
　　作者介绍
　　本模型的五位作者全部来自字节。
　　一作WangZihao本科毕业于北京理工大学，博士毕业于UC伯克利，曾在谷歌担任3年软件开发工程师，现就职于TikTok。
　　通讯作者名叫易子立，本科毕业于南京大学，博士毕业于加拿大纽芬兰纪念大学，目前在字节担任人工智能专家（主要研究多模态、超分辨率、人脸特效），在此之前，他曾在华为工作。
　　论文地址：
　　https：arxiv。orgabs2203。00386

消息称华为将出售x86服务器部门目前进展顺利IT之家11月2日消息，由于某些众所周知的原因，华为部分产业遭重，例如先进芯片和5G方面。彭博社今日报道称华为将出售其x86服务器业务，双方谈判目前进展顺利。对此，华为拒绝置评……杭州亚运会电子竞技比赛小项正式发布设英雄联盟王者荣耀（亚运版IT之家11月5日消息，今天，杭州亚组委在第四届中国国际进口博览会上召开专题新闻发布会，正式公布了杭州亚运会电子竞技小项设置，设英雄联盟、王者荣耀（亚运版）、和平精英（亚运版）……网易旗下多款游戏出现网络故障，导致无法登录或断连IT之家11月3日消息，今日晚间，大量网友反映网易旗下多款游戏出现网络故障，导致无法登录和断连。网易旗下的第五人格游戏官方微博回应称，服务器出现异常，导致无法登录游戏，正在紧急……苹果第四财季iPhone营收388。7亿美元同比增长47，大IT之家10月29日消息，苹果今天发布了2021财年第四财季财报。第四财季总净营收833。60亿美元，与上年同期的646。98亿美元相比增长29；净利润205。51亿美元，与上……关于乡镇宣传思想的工作总结今年以来，我乡宣传思想工作以邓小平理论和三个代表重要思想为指导，全面贯彻党的xx大和xx届六中全会精神，牢牢把握发展这个党执政兴国的第一要务，紧紧围绕党委政府工作大局，不断满足……消息称iPhone明年有望采用挖孔屏，LG加速开发屏下摄像技随着手机屏下摄像功能越来越流行，面板制造商纷纷开始进行这方面的尝试。其中，韩国LG显示也已经开始开发屏下摄像（UDC）技术。据TheElec报道，消息人士表示，LG显示目……2020小学生文明礼仪教学计划范文（精选4篇）时间就如同白驹过隙般的流逝，我们的教学工作又将在忙碌中充实着，在喜悦中收获着，写一份教学计划，为接下来的工作做准备吧！以使教学工作顺利有序的进行，提高自己的教学质量，下面是小编……大众三季度利润同比下降12，芯片短缺造成冲击据路透社报道，大众汽车下调了交货预期与销售预期，并警告称将削减成本。由于芯片短缺，大众第三季度营业利润低于预期。大众汽车曾计划成为世界电动汽车（EV）销售的领导者，但由于……不止十二核双引擎主芯片，中兴AX5400Pro路由器确认支持IT之家10月28日消息，今日，中兴官方表示，中兴AX5400Pro路由器将支持满血WiFi6与真2。5GE网口。IT之家了解到，中兴AX5400Pro路由器将于11月1……产品售后服务保证书尊敬的用户：XXXXXX有限公司坚持用户至上，质量第一的方针，衷心的感谢您选择我们的产品，我们对提供的产品技术服务和完善的售后服务，作如下保证：1。我方向用户承诺，……城市环境污染调查报告优秀范本城市环境污染，是在城市的生产和生活中，向自然界排放的各种污染物，超过了自然环境的自净能力，遗留在自然界，并导致自然环境各种因素的性质和功能发生变异，破坏生态平衡，给人类的身体、……大众CEO特斯拉正在为电动汽车设定基准10月29日消息，据外媒报道，德国大众汽车集团首席执行官赫伯特戴斯（HerbertDiess）周四接受采访时承认，特斯拉正在为电动汽车设定基准。戴斯赞扬了埃隆马斯克（El……

<<<<<<－>>>>>>

科技板块领跌美股，特斯拉失去一大碳排放权客户北京时间5月6日消息，4月ADP就业人数创2020年9月以来新高，与通胀担忧相互交织，今天美股涨跌不一，科技板块领跌。截至收盘，道指涨97。31点，涨幅为0。29，报收3423……币圈崩盘冲上热搜火币再暂停ERC20代币提现，马斯克推特遭网IT之家5月19日消息今日，全球加密货币遭遇重挫，投资者恐慌导致进一步崩盘，比特币今日一度跌近3万美元，以太坊一度跌近50，OKB跌56，莱特币51，HT跌40，狗狗币51，柴……数字加密货币价格全线下跌，用户沮丧不能抄底，最大交易所Coi北京时间5月19日晚间消息，据报道，伴随着比特币等数字加密货币价格全线下跌，美国最大的数字加密货币交易所Coinbase今日出现宕机。对此，Coinbase在一份声明中称……一切加密货币都在暴跌24小时内近48万人爆仓，金额达380亿IT之家5月19日消息今日，全球加密货币遭遇重挫，比特币逼近3万美元大关跌30，以太坊一度跌近50，OKB跌56，莱特币51，HT跌40，狗狗币51，柴犬币61。根据币C……SK海力士二季度营收71。83亿美元净利润同比大增1357月23日消息，据国外媒体报道，特斯拉等多家公司已发布了今年二季度的财报，存储芯片供应商SK海力士，今日也公布了二季度的业绩。SK海力士官网的信息显示，他们在二季度营收8……2020形容秋天落叶的唯美句子有人说，秋天的落叶是枯槁的，没有任何价值。我却不以为然。ldquo；落红不是无情物，化作春泥更护花rdquo；。坠落在秋天的它，溶入泥土成为大树妈妈的养料，孕育着春的希望。我相……初中苏州园林教学设计一、教学目的。1、领略苏州园林的图画美，激发学生爱美爱国。2、了解作者的思路，把握文章总说和分说的结构层次。二、教学设想：1、本文着笔于苏州园林的总特点……第五单元从科学社会主义理论到社会主义制度的建立第18课马克思主义的诞生课程标准要求1、简述《共产党宣言》的主要内容，认识马克思主义产生的重大意义2、了解巴黎公社革命的主要史实，认识世界第一个社会主义国家建……听朗诵阅读练习及答案孙犁一九八五年，九月十五日晚间，收音机里，一位教师正在朗诵《为了忘却的记念》。这篇散文，是我青年时最喜爱的。每次阅读，都忍不住热泪盈眶。在战争年代，我还屡次抄录、油……小班数学教案点点虫虫飞教学设计活动目标1，感知5以内的数量，能按点卡匹配相应数量食物的图片。2乐意参与活动，体验数学活动的乐趣。活动准备胸前有兜兜的绿色围裙，供幼儿系上扮毛毛虫，与故……曝欧加系125W快充将于今年下半年到来IT之家4月7日消息去年7月份realme正式公布了realme125W智慧闪充技术，4000mAh电池仅3分钟即可实现33电量快充。但实际上截至目前realme也没有正……消息称比亚迪最早下半年对外开放销售电池IT之家4月5日消息据日经亚洲新闻报道，比亚迪汽车最早将于今年下半年开始将向其他公司销售车用锂电池。此外，比亚迪品牌及公关事业部总经理李云飞在接受媒体采访时表示，目前不排除将弗……

友情链接：易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网