人工智能文本转图像模型StableDiffusion入门教程
头条创作挑战赛
StableDiffusion是由CompVis、StabilityAI和LAION共同开发的一个文本转图像模型,它通过LAION5B子集大量的512x512图文模型进行训练,我们只要简单的输入一段文本,StableDiffusion就可以迅速将其转换为图像,同样我们也可以置入图片或视频,配合文本对其进行处理。先来看几个示例吧。
Prompt:Inacyberpunkcity,apolicecarisonthestreet,raining,lighteffect,SimonStalenhag,IanMcQue,GhibliStudio,Beeple,KainoUniversity
Prompt:Glowingcrystalsinthedepthsoftheblackvalley,SimonStalenhag,IanMcQue,GhibliStudio,Beeple,KainoUniversity,highdefinitionpicture,unrealengine
Prompt:Asilvermechhorserunninginadarkvalley,inthenight,Beeple,KainoUniversity,highdefinitionpicture,unrealengine,cyberpunk
Prompt:Anastronautfloatingintheuniverse
Prompt:Grassandflowersbythesea,forest,clearsky,lighteffect,Beeple,CasparDavidFriedrich,AlphonseMucha
Prompt:Twoknifewieldingpiratesduelingonapirateship,dusk,heavyrain,unrealengine,8k,highdefinition,byAlphonseMuchaandWayneBarlowe
使用StableDiffusion目前有几种不同的途径:
01。StableDiffusionDemo(https:huggingface。cospacesstabilityaistablediffusion),这是官方发布的一个简单的体验版,无需登录,只需要输入描述文本,然后点击生成图像即可,可进行简单的设置,需要排队,等待时长根据排队人数而定,通常需要几分钟,完成后图片会展示在文本下方,可右击保存,只可生成512x512像素的图片。
02。DreamStudioBeta(https:beta。dreamstudio。aidream),这是官方发布的公测版,可以对参数进行调整,需要注册登录,注册后会获得200积分(generationscredits),每次生成需要消耗相应的积分,积分用完后需要购买才可继续使用,价格10英镑(80元左右)1000积分。
界面右侧是参数调整区,可调整图片的尺寸、文本描述与成图的贴近程度、步数、生成图片的张数、采样模式和种子,一般按默认参数即可,其中图片尺寸和步数会影响消耗的积分数量,步数建议使用默认50步,高了也并没有太大区别,各种尺寸和步数需要的积分如下。
图片生成后可点击图片中心的下载按钮下载图片,若生成多张图片可点击图片下方的DownloadAll按钮下载全部图片,注意目前生成多张图片时若点击某张图片进行放大预览后是无法返回多图预览界面,无法再下载其他图片的,因此如果生成了多张图片建议先全部下载下来。
点击界面左侧的History可进入历史记录页面,可以查看之前生成图片的记录,这里主要记录了历次生成的Prompt、尺寸和种子等信息,如果想对过去生成的图片进行优化或调整,可在此复制Seed值,并回到Dream页面打开界面右下角RandomSeed后方的按钮,然后将种子值粘贴至此,在调整参数或描述,重新生成图片。
点击界面右上角自己的头像,选择Membership进入个人中心,可查看个人积分余额及充值。
03。StableDiffusion(https:colab。research。google。comgithubhuggingfacenotebooksblobmaindiffusersstablediffusion。ipynb),这是官方发布的GoogleColab版本,无生成次数限制,需要注册HuggingFace账号,需要谷歌账号,需要科学上网,这个版本的流程有点繁琐,不推荐,这边不做介绍了。
04。StableDiffusionWebUI1。4(https:colab。research。google。comgithubaltrynesdwebuicolabblobmainStableDiffusionWebUiAltryne。ipynb),这是由altryne制作的有WebUI的GoogleColab版本,无生成次数限制,需要注册HuggingFace账号,需要谷歌账号,需要科学上网,这算是目前比较好用的一版,这边详细介绍一下。
准备工作
04。01。注册谷歌账号并登录。
04。02。注册HuggingFace(https:huggingface。co)账号并登录(注册后去邮箱验证一下)。
04。03。打开CompVisstablediffusionv14(https:huggingface。coCompVisstablediffusionv14)页面,找到下图部分,勾选同意选项,点击Accessrepository,开通模型访问权限。(这里列出了使用协议,可以自己看一下)
04。04。打开CompVisstablediffusion(https:huggingface。coCompVisstablediffusion)页面,找到stablediffusionv14original并单击打开链接。(如果以后更新版本了,请打开对应版本的链接)
04。05。找到下图部分,勾选同意选项,点击Accessrepository,开通模型下载权限。
04。06。打开AccessTokens(https:huggingface。cosettingstokens)页面,点击NewToken按钮,起个名字,Role选read或者write都可以,点击Generateatoken,点击Show后面的复制按钮复制Token。
入门教程
04。1。打开StableDiffusionWebUI1。4(https:colab。research。google。comgithubaltrynesdwebuicolabblobmainStableDiffusionWebUiAltryne。ipynb),若未自动登录谷歌账号请点击页面右上角登录按钮,登入你的谷歌账号。
04。2。点击复制到云端硬盘或点击文件选择在云端硬盘中保存一份副本。
04。3。副本创建完成会出现笔记本的副本已完成弹窗,点击在新标签页中打开。
04。4。点击StableDiffusionWebUiAltryne的副本修改笔记本名称(不改也可以,以后就能直接从自己的云端硬盘打开这个文件运行StableDiffusion了)。
04。5。点击1Setupstage前面的小三角,找到1。4ConnecttoGoogleDrive,将token(第04。04。步复制的token)粘贴在图中位置,并勾选downloadifmissing选项。
04。6。点击代码执行程序选择全部运行。
04。7。弹出笔记本需要高RAM的窗口,点击确定。(接下来需要等待一段时间,你看到1Setupstage下面的按钮在转圈圈就表示程序正在运行,需要下载一些文件,第一次运行等待时间会稍长一些)
04。8。弹出您还在设备面前吗?的窗口,点击进行人机身份验证,按指令进行验证。(如果没有弹出可忽略)
04。9。弹出允许此笔记本访问您的Google云端硬盘文件吗?的窗口,点击连接到Google云端硬盘。
04。10。弹出登录Google账号窗口,选择你的谷歌账号,点击允许。(如果等待过程中GoogleColab图标变红,网络中断,可点击页面右上角的重新连接,重连后会继续运行)
04。11。点击3LaunchWebUIforstablediffusion前面的小三角展开单元,当这个单元最下方出现RunningonpublicURL:https:57651。gradio。app就表示程序启动成功,点击https:57651。gradio。app打开WebUI。(每次会得到不同的地址)
04。12。在如图位置输入prompt(描述文本),设置好图片尺寸和生成图片张数,其他建议按默认值,点击Generate就开始生成了。
04。13。回到StableDiffusionWebUiAltryne的页面,你会在3LaunchWebUIforstablediffusion的末尾看到实时进度,以下图为例,Iteration:112表示总数12张图的第1张图片,以此类推,前面的100是完成进度,5050是当前完成步数总步数,00:4200:00是已使用时间剩余时间,1。17its是每秒完成1。17步,当出现〔MemMon〕Stoppedrecording。就表示当前任务的所有图片已经生成完毕。(正常情况生成结束后WebUI页面也会展示生成的图片,但是如果有网络不稳定、延迟大等情况或者连续运行超过90分钟,生成完毕后WebUI页面可能不会显示图片,甚至还在继续计时,此时WebUI页面已经断开连接,需要刷新页面后恢复使用)
04。14。现在你就可以在GoogleDrive(https:drive。google。com)直接查看保存的图片了,打开AIStableDiffusion文件夹,这个文件夹里保存的是每次生成任务的汇总图,如果一次生成了多张图片它会自动把这些图片拼在一起。在samples文件夹内会以每次生成任务的prompt为名称分别建立子文件夹,生成的图片会保存在里面,并且每张图都会附带一个yaml格式的配置文件,可以查看这张图片的参数设置。
进阶教程
04。15。打开WebUI第二个标签,这个是图像转图像,就是添加一张参考图,配合文本描述生成图片,注意参考图的尺寸要和输出尺寸一致,否则会报错,可以将图片调整好尺寸以后再添加进来,或者使用左图下方的AdvancedEditor编辑图片后再操作,步数建议50步,图中两个有说明的值可以调整生成效果,建议在默认值左右小范围调整以观察效果,极端值效果不佳。
04。16。WebUI第三个标签是人脸修复工具,我试验了效果并不理想,使用方式就是添加图片点生成就行了,这边重点推荐一下第四个标签,RealESRGAN是一个智能放大图片的模型,效果十分惊人,我之前一直用的是TopazGigapixelAI,RealESRGAN的效果完爆TopazGigapixelAI,操作也很简单,添加图片点击生成即可,这里有两个模型,有一个模型是动漫专用的。
05。pharmapsychoticStableDiffusion(https:colab。research。google。comgithubpharmapsychoticainotebooksblobmainpharmapsychoticStableDiffusion。ipynb),这是由pharmapsychotic制作的GoogleColab版本,无生成次数限制,需要注册HuggingFace账号,需要谷歌账号,需要科学上网,这个版本的操作比较接近DiscoDiffusion,DD玩家用起来可能比较顺手,这边也介绍一下。
准备工作
05。01。注册谷歌账号并登录。(如果之前使用过StableDiffusionWebUI1。4或其他GoogleColab版本的StableDiffusion可跳过步骤05。02。05。06。)
05。02。注册HuggingFace(https:huggingface。co)账号并登录(注册后去邮箱验证一下)。
05。03。打开CompVisstablediffusion(https:huggingface。coCompVisstablediffusion)页面,找到stablediffusionv14original并单击打开链接。(目前最新的版本是1。4,如果以后有更新也可以来这里下载更新的版本)
05。04。找到下图部分,勾选同意选项,点击Accessrepository,开通模型访问权限。(这里列出了使用协议,可以自己看一下)
05。05。在页面上找到下图位置,通过链接下载sdv14。ckpt文件。
05。06。打开GoogleDrive并登录你的账号,将下载的sdv14。ckpt文件上传至AI文件夹内的models文件夹内,如果没有这个文件夹请手动新建文件夹。
入门教程
05。1。打开pharmapsychoticStableDiffusion(https:colab。research。google。comgithubpharmapsychoticainotebooksblobmainpharmapsychoticStableDiffusion。ipynb),若未自动登录谷歌账号请点击页面右上角登录按钮,登入你的谷歌账号。
05。2。点击复制到云端硬盘或点击文件选择在云端硬盘中保存一份副本。
05。3。副本创建完成会出现笔记本的副本已完成弹窗,点击在新标签页中打开。
05。4。点击pharmapsychoticStableDiffusion。ipynb的副本修改笔记本名称(以下所有代码可视为源文件源代码,此处是源文件的名称,可按创作主题或其他方式命名,方便后期修改和区分)。
05。5。修改文件夹名称、步数、生成图片张数等参数,输入描述文本。
05。6。点击代码执行程序选择全部运行。
05。7。弹出笔记本需要高RAM的窗口,点击确定。(接下来需要等待一段时间,第一次运行等待时间会稍长一些)
05。8。弹出您还在设备面前吗?的窗口,点击进行人机身份验证,按指令进行验证。(如果没有弹出可忽略)
05。9。弹出允许此笔记本访问您的Google云端硬盘文件吗?的窗口,点击连接到Google云端硬盘。
05。10。弹出登录Google账号窗口,选择你的谷歌账号,点击允许。(如果等待过程中GoogleColab图标变红,网络中断,可点击页面右上角的重新连接,重连后会继续运行)
05。11。待prompt下方出现进度条就表示正在生成图片了,以下图为例,46是当前完成进度,2350是指总步数50步目前已完成23步,00:2000:25是指已用时20秒,预计还需25秒,1。07its是指每秒生成1。07步,4046755246是种子值。
05。12。任务完成后会在此处显示,若一次生成了多张图片会依次在此显示,全部完成后会显示最后一张图片。
05。13。你可以直接在这里右击保存图片,也可以在GoogleDrive相应的文件夹内查看和下载图片,文件夹在AIStableDiffusion这个目录下。
进阶教程
05。14。点击左侧的第四个文件图标展开文件窗口。
05。15。点击文件窗口上方第一个上传到会话存储空间图标,选择你要上传的图片并点击打开,图片就会开始上传(你也可以把图片直接拖进文件窗口的空白处)。
05。16。上传完成后图片会显示在文件窗口的列表中,找到你要使用的图片并点击文件名后方的三个小圆点,选择复制路径。
05。17。将路径粘贴在如图位置,设置initstrength等参数,点击代码执行程序选择全部运行,如果之前已经运行过程序,直接点击Imagecreation单元前面的圆形按钮即可。
06。DeforumStableDiffusionv0。3(https:colab。research。google。comgithubdeforumstablediffusionblobmainDeforumStableDiffusion。ipynb),这是由deforum制作的GoogleColab版本,无生成次数限制,需要注册HuggingFace账号,需要谷歌账号,需要科学上网,这个版本支持制作动画视频,如果运行过其他GoogleColab版本的StableDiffusion可以直接运行这个版本,如果未运行过其他版本的StableDiffusion需要按05。01。05。06。步骤进行操作,下载并上传sdv14。ckpt文件至你的谷歌云盘,然后可以直接运行。这个版本我就不讲解了,如果有想做视频的朋友可以去研究一下。
07。StableDiffusionInterpolationV2。1(https:colab。research。google。comdrive1EHZtFjQoRrbns1It5mTcOVyZzZD9bBc?uspsharing),这是由ygantigravity和pharmapsychotic制作的GoogleColab版本,无生成次数限制,需要注册HuggingFace账号,需要谷歌账号,需要科学上网,这个版本有多文本多种子混合模式,似乎可以生成视频,感兴趣的朋友可以研究一下,同样需要下载并上传sdv14。ckpt文件至谷歌云盘,然后再使用,若运行过其他GoogleColab版本的StableDiffusion可以直接运行。
08。四行PaddleNLP代码体验StableDiffusion(https:aistudio。baidu。comaistudioprojectdetail4459390?channelType0channel0),这是由凉心半浅良心人发布在飞桨平台的版本,飞桨似乎有点类似国内版的GoogleColab,也可以免费使用(有时长限制),这个我自己没有测试,看起来获取免费时长还是有点麻烦,供大家参考吧。
因为StableDiffusion是一个开源模型,所以向公众开放以后涌现出了很多的开发者对其进行修改和加工,创造出了很多不同的版本,他们各有特色,大家可以选择适合自己的版本进行使用,也可以都试一试,选一个自己最顺手的版本。
注意事项
教程中所有准备工作部分仅第一次使用需要操作,之后可以直接运行,GoogleColab平台的版本可能会由于网络不稳定而报错,如果参考教程设置参数后仍有报错情况,请先仔细查阅错误提示,如果看不懂建议直接点击代码执行程序选择全部运行,重新运行即可。StableDiffusionWebUI1。4版本WebUI页若操作没反应,尝试刷新页面后再操作即可,如果还有问题,建议重新运行。宽和高必须设置为64的整数倍,也就是64、128、192、256、320、384、448、512、576、640、704、768、832、896、960、1024、1088、1152、1216、1280等等,建议1024x512左右,大了会爆显存,会崩,可以小一点,RealESRGAN的放大效果很好,可以出小图再用RealESRGAN放大,可放大4倍,且保持画质清晰。
如果你是首次接触GoogleColab,提醒一下,免费账号每天有使用时长限制,超过限额会有弹窗提醒,超额后从当日首次连接服务器开始计算24小时后恢复使用,如果想继续使用可以付费升级账号或者更换谷歌账号登录使用。
教程中所有准备工作都是为了下载模型,首次使用正常运行后模型就自动下载到你的云盘了,以后可以直接从云盘副本运行程序,不需要再按准备工作部分操作。
StableDiffusion的操作比较简单,效率也比较高,赶快去试一试吧!感谢CompVis、StabilityAI和LAION,感谢开发者们。
鲁迅村里的狗叫了,其他的狗也跟着叫,但他们不知道为什么叫鲁迅先生的文字总是那么一针见血村里的狗叫了,其他的狗也跟着叫,但他们不知道为什么叫,当浑浊成为一种常态,清白就是一种罪。就如柏拉图所说孩子害怕黑暗,情有可原,人生真正的悲剧,是成人
商务部推动农村消费进一步恢复和扩大王舒嫄中国证券报中证网中证网讯(记者王舒嫄)商务部部长助理陈春江3月2日在国新办举行的权威部门话开局系列主题新闻发布会上表示,下一步,商务部将按照中央一号文件部署,坚持问题导向,补
济钢高中化学教师许师他为知识痴狂,做学生的点拨者俗话说,要想给学生一杯水,老师要先有一桶水。这句话在济钢高中化学教师化学奥赛教练许师身上体现得淋漓尽致。说许师是一位学者型老师,一点也不为过。在他的办公桌上,除了学生作业日常备课的
亲子小农园上新啦!普陀这里变身都市桃花源在万里街道,有这样两处特别的小农园,经过了秋天的播种,熬过了冬天的寒冷,终于在春天成熟了。向着暖阳,向着蓝天,长出了自己嫩绿的叶片,在这片属于它们的春日书写出怎样的故事呢?颐华片区
5岁娃在超市先喝水后付款被要求10倍赔偿,该怎么办带孩子出去玩后,孩子口渴得很,周围又没有卖水的零售店,只有一家大超市。进入超市,拿到水,付款时还需要排长队,孩子一个没忍住,就揭开瓶盖先喝了起来拿着半瓶或者空瓶付款,却面临赔偿,你
为农民增收保价护航2023年中央一号文件中共中央国务院关于做好2023年全面推进乡村振兴重点工作的意见对做好2023年全面推进乡村振兴重点工作作出总体部署,其中提出,发挥多层次资本市场支农作用,优化
wxPython高级控件之树状控件TreeCtrl实战wxPython系列041树形控件wx。TreeCtrl将信息表示为层次结构,其中的项可以展开以显示更多的项。一树状控件wx。TreeCtrlwx。TreeCtrl继承自wx。
唐建生命科学中的生成式人工智能如何搭建生命科学的ChatGPT理解未来科学讲座AIforScience系列03期,我们特别邀请到加拿大魁北克省人工智能研究中心(Mila)副教授加拿大高等研究院(CIFAR)人工智能讲席教授唐建以生命科学中的生
加密货币下轮牛市百倍币推演2023年全年会是最好的布局之年,24年BTC减半加息放缓,大概率已大涨,作一个全局性思考很有必要。所谓百倍币,有二个考虑方向市值相比当前上升100倍能进到市值前20因此将从两个方
手机行业内卷严重,论22年底发售的几款杰出机型,好评率超95如果您喜欢,可以点击上面的关注二字。后续会为您提供更多有价值的内容。今天分享手机行业内卷严重,论22年底发售的几款杰出机型,好评率超95第一款iQOONeo7SE参考价格2389元
刘邦尽可能都让大家放下心如果一个人让大家都能放心,这是一件非常好的事,这样可以相聚牵手拥抱,甚至可以成为知己。我们知道,能让人放心的人常有这样两种情况一此事让人放心,彼事不一定让人放心二此时叫人放心,彼时