童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

开源大模型正在“杀死”闭源?

9月25日 栀璃鸢投稿
  “OpenAI不足为惧,开源会慢慢赶上来。”
  彼时HuggingFace创始人ClemDelangue的一句预言,正在迅速成为现实。
  ChatGPT横空出世7个多月后,7月19日,Llama2宣布开源,并且可直接商用。
  如今回看,这一天也成为了大模型发展的分水岭。在此之前,全世界开源的大模型不计其数,可只是停留在开发研究层面。“可商业”短短三个字,犹如一颗重磅炸弹引爆了大模型创业圈,引得傅盛连连感叹,“有的人哭晕在厕所,而有的人在梦中也能笑醒”。
  AI大模型圈一夜之间变了天,同时也宣告着大模型加速商业化时代的到来。
  自Llama2后,开源逐渐成为主流趋势。以Llama架构为首,先掀起了一波以其为核心的开源,如Llama2低成本训练版、Llama2最强版、微调版等等。截至发稿前,以“LLama2”为关键词在国外最大的AI开源社区HuggingFace检索模型,有5341条结果;在全世界最大的开源项目托管平台Github上,也有1500个词条。
  (图源:HuggingFace官网)
  (图源:Github官网)
  之后,创业者们的目光从解构、增强Llama2转向了构建行业专有大模型,于是又掀起了一波Llama2司法、Llama2医疗等一系列的行业开源大模型。据不完全统计,Llama2开源后,国内就涌现出了十几个开源行业大模型。
  国内头部厂商和创业公司纷纷加入开源浪潮中,阿里QWEN7B开源一个多月下载量破100万,9月25日升级了QWEN14B;百川智能开源的Baichuan7B、13B两款开源大模型下载量目前已经突破500万,200多家企业申请部署开源大模型。
  与此形成强烈对比的是,短时间内,Llama2对一些闭源的大模型厂商造成了致命性的打击。闭源大模型多采用调取API的方式使用,数据需要先上传至模型厂商,按照调用次数收取费用;而开源则可以在本地部署,且完全免费,可商用后产生的利润也可以收归己有。
  行业内人士告诉光锥智能:“在这种情况下,基于成本的考虑,已经开始有许多企业选择放弃支付上千万元的费用,转而部署和微调Llama2”。
  以上种种,共同揭开了大模型开源闭源之争,发展重心的转移也让人疑惑:开源大模型是否正在“杀死”闭源?
  大模型开源,开的是什么?
  光锥智能梳理后发现,目前,大模型厂商和创业公司在开源和闭源的选择上,一共有三条路径:
  一是完全闭源,这类代表公司国外有OpenAI的GPT3。5、GPT4,国内有百度的文心大模型;
  二是先闭源再开源,这类代表公司有阿里云的通义千问,智谱AI开源GLM系列模型;
  三是先开源再闭源,这类代表公司有百川智能的Baichuan7B、Baichuan13B。
  现在中国市场上能够主动开源大模型,且提供商业许可的企业数量还比较有限,主要公司包括了以开源为切入的百川智能、大模型厂商代表阿里、大模型初创公司代表智谱AI以及走精调Llama2路线的虎博科技。
  这从侧面也说明了一个问题,大模型开源并不是没有门槛,相反开源对一家企业的基础技术能力要求十分高,比如智谱AI的GLM130大模型是去年亚洲唯一入选斯坦福大学评测榜的大模型;阿里通义千问大模型在IDC的“AI大模型技术能力评估测试”中获得了6项满分。
  如果再进一步将以上的公司分类,可以归为两类,一类是走自研大模型开源路线,一类是走Llama2路线。
  这两条路线在国际上也十分典型,譬如走自研模型开源路线的StabilityAI,已经陆续开源了StableDiffusionV1、StableLM、StableDiffusionXL(SDXL)1。0等模型,凭一己之力撑起了文生图开源领域;另一类如中东土豪研究院就死盯住Llama2,在其基础上继续做大参数、做强性能,Llama2开源50天后,地表最强开源模型Falcon180B横空出世,霸榜HuggingFace。
  不过,这两条路线也不是完全泾渭分明,Llama2的开源也进一步促进了许多自研开源大模型的更新升级。8月StabilityAI迅速推出类ChatGPT产品StableChat,背后的大语言模型StableBeluga就是其在两代Llama的基础上精调出来。更开放,更快迭代发展,这或许也是开源的意义。
  除了逆天的Falcon,目前开源模型的参数基本都控制在7B13B左右。大模型厂商告诉光锥智能,“目前7B13B亿参数量是一个较为合理的开源规模”。这是基于多重因素所得出的参数量规模,如计算资源限制、内存限制、开源成本考量等。
  阿里云CTO周靖人基于云厂商的角度考虑道:“我们希望企业和开发者,在不同的场景可以根据自己的需求选择不一样规模的模型,来真正地应用在自己的开发环境。我们提供更多可能性。”
  谈起为何开源大模型,周靖人强调了安全性,“我们不单单只是开源大模型,更重要的是要能够呈现出各项指标的表现效果,基于此,才能够让大家去评估其中的使用风险,更加有效地进行模型应用。”
  “重要的是,随着参数量的增加,模型效果提升会逐渐收敛。当模型达到一定规模后,继续增加参数对效果提升的边际效益只会下降,70130亿参数量一般已经接近收敛状态了。”上述大模型厂商道。
  光锥智能发现,除了阿里云在视觉语言模型的细分领域发布了开源大模型外,其余公司皆提供的是通用能力的大模型。这或许与大模型开源仍处于非常早期阶段有关系,但考虑到开源大模型也要落地到场景中,太过于同质化的通用大模型对企业来说也容易沦为“鸡肋”。
  如何避免开源大模型重蹈覆辙,体现出开源的价值,回顾Meta接连祭出的“大招”,一条开源的路径似乎逐渐显现构建开源大模型生态。
  2月份,Meta凭借开源的Llama大模型回到生成式AI核心阵列;
  5月9日,开源了新的AI模型ImageBind,连接文本、图像视频、音频、3D测量(深度)、温度数据(热)和运动数据六种模态;
  5个月后,Llama2开源可商业,含70亿、130亿和700亿三种参数规模,其中700亿参数模型能力已接近GPT3。5;
  8月25日,Meta推出一款帮助开发人员自动生成代码的开源模型CodeLlama,该代码生成模型基于其开源大语言模型Llama2;
  8月25日,发布全新AI模型SeamlessM4T,与一般AI翻译只能从文本到文本不同,这款翻译器还能够“从语音到文本”或者反过来“从文本到语音”地直接完成翻译;
  9月1日,允许开源视觉模型DINOv2商业化,同时推出视觉评估模型FACET。
  可以看到,Meta开源的思路是在各个AI领域遍地开花,通过发布该领域最先进的AI开源模型,吸引更多开发者的关注和使用,壮大整个AI开源生态后来反哺业务、巩固行业地位,这就如同当年的英伟达推动GPU计算的开源策略。
  当年英伟达推动GPU计算的开源化,不仅吸引了大量研究人员在Caffe、TensorFlow等框架上进行创新,也为自身GPU产品积累了大量优化经验,这些经验后来也帮助英伟达设计出了更适合深度学习的新型GPU架构。
  另一方面,GPU计算的开源生态越来越繁荣后,也为其带来了巨大的市场空间,NvidiaDGX企业级的深度学习训练平台概念应运而生,为英伟达的显卡和平台销售创造了千亿级市场。
  国内阿里云也在通过建设完善生态的方式,试图帮助开发者更好的用好大模型,据周靖人介绍,目前阿里云不仅有自研开源大模型,也接入了超过100个开源模型,同时打造了开源社区魔搭,更好地服务开发者和企业用户,用好、调好大模型。
  开源闭源不矛盾
  是手段而非目的
  据外媒爆料,Meta正在加紧研发全新的开源大模型,支持免费商用,能力对标GPT4,参数量比Llama2还要大上数倍,计划在2024年初开始训练。
  国外大模型格局看似是OpenAI“一超多强”,实则是众多公司环伺,可以预见,开源大模型对闭源的围剿,越来越步步紧逼。
  国外一份研究报告称,大模型前期的发展创新由OpenAI、微软、谷歌等大公司闭源模型主导,但越到后期开源模型和社区的贡献值就越大。
  光锥智能也了解到,在国内开源大模型也成为了企业的“新卖点”,有企业甚至通过对外宣称已使用了“史上最强大模型Falcon180B”,来展现其底层模型技术能力的强大,顶着“史上最强”的称号,又收割了“一波韭菜”。
  现阶段,开源大模型已经证明了几点重要的事实。
  首先,在非常大的数据集上进行训练,拥有几十亿个参数的大模型在性能上就可以与超大规模大模型相媲美;其次,只需要极少的预算、适量的数据以及低阶适应(Lowrankadaptation,LoRA)等技术就可以把小参数的大模型调到一个满意的效果,且将训练成本降低了上千倍。开源大模型为现在的企业提供了闭源的替代方案,低成本成为最吸引他们的地方;最后,我们也看到开源大模型的发展速度也远快于封闭生态系统。
  开源固然“迷人”,但更为关键的是,既不能为了开源而开源,也不能为了闭源而闭源。开源与闭源只是形式上的区别,并不矛盾,开源本身不是目的,而是手段。
  以开源切入大模型赛道的百川智能,在发布完Baichuan7B、Baichuan13B开源大模型后,王小川拿出了Baichuan53B闭源大模型。在问到为什么没有继续开源时,王小川回答称:“模型变大之后没有走开源的这样一种方式,因为大家部署起来成本也会非常的高,就使用闭源模式让大家在网上调用API”。
  由此可见,是否开源或闭源并非完全没有参考,能够闭源一定是其能够提供价值。在当前,这个价值的集中体现可能是替用户完成高性能的大模型训练、推理和部署,通过调用API的方式来帮助降低门槛,这也是OpenAI闭源的思路,但因为其自身技术的绝对领先优势,使得其价值也非常得大。
  如果回顾红帽子公司的开源,也能探寻到同样的逻辑。过去十多年间,红帽从销售企业Linux操作系统,扩展到现在的存储、中间件、虚拟化、云计算领域,靠的就是“筛选价值”的逻辑。在最上游的开源社区,参与开源技术贡献,做大做强生态;提取开源社区中的上游技术产品,沉淀到自己小开源社区;再将其认为最有价值的技术检验、测试、打包,形成新的产品组合,完成闭源出售给客户。
  腾讯云数据库负责人王义成也曾对光锥智能表示:“开源的本质也是商业化,要从宏观层面看是否能满足一家公司的长期商业利益。开源的本质还是扩大生态,扩大你的影响力。开源还是要找清楚自己的定位,目标客户群。开源能否帮助产品突破,帮助公司完成阻击,还需要具体问题具体分析。”
  结尾
  事实上,开源还是闭源,二者并不是完全对立的关系,只是在技术发展的早期,路径选择的不同。
  这也并不是科技领域第一次面对这样的分叉路,参考数据库发展的路径,早期需要培育土壤,培植生态,以MySQL为主的开源数据库获得了爆发式的用户增长,但走过第一阶段后,更多企业用户发现开源数据库在面对业务时的短板,毕竟术业有专攻,谁也没办法一招打天下。
  为此,数据库厂商开始根据不同的企业需求针对性的研发闭源数据库,如在分布式数据库、流数据库等细分类别进行长足的创新。
  周靖人也认为:“未来,一定不是onesizefitsall”,不同的场景适配不同的参数,不同的形式,届时大模型将走过野蛮生长阶段,来到精耕细作。
  这也足以说明,开源还是闭源,或许只是阶段和位置的不同,但可以肯定的是,大模型时代,已经加速进入下一赛段。
  (举报)
投诉 评论

RedmiNote13R系列曝光:入门级别的5G手机上个月,Redmi举办了一场新品发布会,推出了RedmiNote13系列,包括RedmiNote13、RedmiNote13Pro和RedmiNote13Pro三个版本。其中,……华为Nova11SE入网麒麟5G中端机还要等近日,有多名博主称华为nova11SE和华为畅享70系列已经获得入网许可。据推测,这两款手机都将搭载全系骁龙680处理器。根据博主“厂长是关同学”的透露,华为nova11SE依……高通5GSoc之王!骁龙8Gen3来了:跑分突破200万再创快科技10月7日消息,博主数码闲聊站透露,高通骁龙8Gen3终端安兔兔跑分能跑到200万分以上,是高通史上最强悍的5GSoc。其中CPU部分跑分在44万以上,对比骁龙8Gen2……100元住进群租房杂物间,爆火的“假期住我家”有多坑?与假期动辄三倍涨价的酒店、民宿相比,今年“十一”长假,“假期住我家”在各大社交平台上火了。网友将自己的房子通过整租租次卧方式,给假期出游的年轻人居住。一间次卧出租价格一般为10……开源大模型正在“杀死”闭源?“OpenAI不足为惧,开源会慢慢赶上来。”彼时HuggingFace创始人ClemDelangue的一句预言,正在迅速成为现实。ChatGPT横空出世7个多月后,……2023社交进入大变革时代2023社交还有新故事,微信巨头位置坐得还稳吗?不久前,Meta推出社交平台Threads、微信种草社区“小绿书”开启内测,字节跳动推出了海外生活方式社区Lemon8。……分解大模型的神经元!Claude团队最新研究火了,网友:打开神经网络的不可解释性,一直是AI领域的“老大难”问题。但现在,我们似乎取得了一丝进展ChatGPT最强竞对Claude背后的公司Anthropic,利用字典学习成功……吃瓜群如何一个月赚5万?不知道大家手里有没有吃瓜群,就是每天在群里看各种娱乐、八卦、民生等内容。这种群在微信、QQ数以万计的出现,你以为别人是闲聊,这种群没有价值。但实际上,许多人靠运营这……公园“躲猫猫”和Citydrink爆红:社交游戏的魔力打开社交媒体平台就不难发现,当代年轻人假期有了新去处。你可以和数十个甚至上百个人相聚公园,通过手机统一共享定位,分为“猫”、“鼠”两队,展开一场现代版“躲猫猫”游戏;也可……免费使用,媲美Midjourney!微软在BingChat等微软在官网宣布,将OpenAI最新模型DALLE3集成在BingChat和BingImageCreate中,并免费提供给用户使用。据悉,DALLE3是一款类Midjour……好久没网购,收藏夹去哪了?作为平台最常用的功能之一,收藏夹这个功能最近几年存在感越来越低了,很多APP都不好找。具体原因是什么?我们看看作者分析的内容。有段日子不怎么在网上购物,最近得了空闲,翻开……7。7亿参数,超越5400亿PaLM!UW谷歌提出分步蒸馏,【新智元导读】LLM不实用,小模型蒸馏才是现实的大模型应用路线,全面领先微调技术!土豪请无视。。。大型语言模型虽然性能优异,可以用零样本或少样本提示解决新任务,但LLM在……
TMobile推出Magenta5G无人机为赛事提供高清FP作为一项体育赛事,无人机竞速已经变得越来越受欢迎。然而板载摄像头的拍摄颗粒感与实时性,仍有着较大的改进空间。好消息是,TMobile已同DroneRacingLeague携手,……爆款机型满499减100京东8月来电好物季买5G手机享福利5G时代,中国领跑。据工业和信息化部最新数据,我国已建成全球最大的5GSA(独立组网)网络,累计开通5G基站96。1万个,推动共建共享基站超过40万个。随着5G网络的不断普及,……高通5G基带解决方案终端超1000款,技术升级让连接更紧密尽管有疫情的影响,全球5G的发展速度还是超乎想象的快。可能正是疫情的原因,人们更加认识到了通信连接的重要性。人与人之间面对面的联系虽然少了,但是网络上的连接却越来越紧密了,通讯……5G基站建设放慢中国电信:缺芯问题缓解下半年提速2021本该是5G网络全面开花的一年,然而实际情况并非如此,运营商的5G建设不如预期,中国电信连13的5G基站目标都没达到,该公司表示下半年缺芯问题缓解,建设会提速。据悉……15999元!三星GalaxyZFold35G国行尝鲜价公布8月11日晚间,三星举办发布会,一口气带来了四款新品,包括GalaxyZFold35G、GalaxyZFlip35G折叠屏手机、GalaxyBuds2蓝牙耳机、GalaxyWa……联发科发布5G天玑920、天玑810:全面普及6nm8月11日,联发科宣布推出天玑系列5G移动平台的两款最新产品:天玑920、天玑810。它们在性能、影像、显示等方面都有明显提升,而且均为6nm工艺制造,再加上此前的天玑1……三星新一代折叠屏GalaxyZFlip35G发布:外屏尺寸暴8月12日凌晨,三星正式推出新一代折叠屏手机,一共两款:三星GalaxyZFold35G和三星GalaxyZFlip35G。其中,三星GalaxyZFold35G搭载的7……三星发布全新折叠屏GalaxyZFold35G:20万次开合作为折叠屏手机的鼻祖之一,三星今天同时带来了两部全新的折叠屏产品。我们先来看GalaxyZFold35G,它不但拥有内外双屏,还首次银瑞屏下摄像头、首次支持SPen手写笔……中国信通院:7月国内手机出货量2867。6万部5G手机占比近【TechWeb】8月12日消息,今日,中国信通院发布2021年7月国内手机市场运行分析报告,报告显示,7月份国内手机出货量2867。6万部,同比增长28。6,环比增长11。7……展锐助力移远推出超小尺寸5G模组RG200U8月11日,展锐助力移远通信正式推出基于展锐唐古拉5G基带芯片平台V510的超小尺寸5G模组RG200U,相比传统LGA封装5G模组尺寸减小约三分之一。移远RG200U5……中国移动业界最大规模5G模组集采揭晓,六款展锐芯模组获42。近日,高达32万片的业界最大规模5G模组集采项目结果揭晓:中国移动公示了2021年至2022年5G通用模组产品集中采购的中选候选人。根据公示结果,搭载展锐5G基带芯片唐古拉V5……P40升级鸿蒙5G快捷开关没了?李小龙:中国三大运营商统一要8月12日消息,今日,有用户通过微博反馈,由于最新发布的华为P50没有5G功能,最新华为鸿蒙系统升级后,直接把快捷功能区的5G开关取消了,都不知道我的P40手机是否开了5G网络……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界