范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

并购优塾人工智能系列,NLP自然语言处理产业链跟踪梳理笔记

  微信公众号:并购优塾(moneyC2C)首发,更多文章可微信关注我们的公众号:并购优塾产业链地图
  微软曾表示"自然语言是人工智能皇冠上的明珠"。
  自然语言处理(NLP,Natural Language Processing) 是计算机科学领域与人工智能领域中的一个重要方向,它是用计算机来处理、理解以及运用人类各种语言,又常被称为计算语言学。语言是人类区别于其他动物的重要标志。没有语言,人类的思维也就无从谈起,因此,自然语言处理一定程度上决定了人工智能的高度和境界。
  12月1日,美国人工智能研究公司OpenAI推出人工智能聊天原型Chat-GPT,上线五天全球用户数量已突破百万,赚足了眼球。ChatGPT是一种专注于对话生成的语言模型,它能够根据用户的文本输入,产生相应的智能回答,主要运用的技术就是NLP。有人将ChatGPT比喻为"搜索引擎+社交软件"的结合体,能够在实时互动的过程中获得问题的合理答案。
  那么,国内在NLP领域的研究进度和商业化情况如何?有哪些参与者?行业竞争的重点和难点在哪里?
  带着这些问题,我们来看NLP这条产业链。
  这条产业链各环节,包括:
  1)上游:基础层 ——包括数据处理 (数据清洗、标注、整理及分类) 、算力基础设施 (主要为GPU芯片、AI定制芯片,以及相关传感器等) 。芯片代表厂商有英伟达、高通(GPU)、英特尔(FPGA)、谷歌、寒武纪等;云计算服务商代表有微软、亚马逊、阿里巴巴、百度等;
  可运用于自然语言处理训练的数据集不断丰富,多数是由学术及研究机构承担建设的公共数据集,比如维基百科语料库、斯坦福大学问答数据集等。
  2) 中游:技术层 ——在数据及算力的基础上,进行相关算法研发,满足基础技术需求。按照细分场景,可分为:计算机视觉、语音识别、自然语言处理等领域,分别对应人类的视觉、听觉和阅读能力。
  3) 下游:各行业应用场景 ——是将技术层的基础技术与具体场景需求相融合,以解决实际的问题 (如帮助企业提升运营效率或优化用户体验,帮助公安部门实现摄像头自动识别等) 。具体包括:教育、医疗、安防、娱乐、汽车(自动驾驶)、智慧城市、工业自动化、企业数字化等具体场景。
  图:产业链结构
  来源:并购优塾
  从产业链上的参与者近期的增长情况来看:
  1)科大讯飞(安徽,合肥)—— 2022年三季报,实现营业收入126.6亿元,同比增长16.5%;实现归母净利润4.2亿元,同比增长-42.33%。
  2)拓尔思(北京市)—— 2022年三季报,实现营业收入6.37亿元,同比增长4.95%;实现归母净利润1.04亿元,同比增长4.49%。
  从机构对产业链景气度的预期情况来看:
  图:机构一致预期
  来源:Wind
  (一)
  我们先看各家的收入结构(2021年年报)。从收入总额来看:科大讯飞(183.14亿元)> 拓尔思(10.3亿元)。
  一、科大讯飞—— 2021年,收入183.14亿元,其中34.03%来自教育领域(62.32亿元),22.14%来自智慧城市(40.55亿元),33.2%来自开放平台及消费者业务(60.81亿元),2.45%来自汽车领域(4.49亿元),5.01%来自政法业务(9.18亿元),1.07%来自智能服务(1.97亿元)。
  图:科大讯飞收入结构
  来源:并购优塾
  科大讯飞的主要服务场景包括教育领域、消费者业务和智能开放平台。智能语音产品及服务包括听见会议系统及APP,讯飞输入法等。
  图:科大讯飞业务全景图
  来源:信达证券
  二、 拓尔思—— 2021年,收入10.3亿元,50.13%来自数据、软件及服务(5.16亿元),17.56%来自人工智能产品(1.81亿元),13.86%来自软件销售(1.43亿元),18.45%来自其他业务(1.9亿元)。
  拓尔思前身易宝北信成立于1993年,由中国香港易宝、北信工程(北京信息科技大学)合资创办,根据客户需求提供大数据分析、门户网站搜索、舆情服务等,主要客户为各级机关、媒体等。具体来看:
  图:拓尔思收入结构
  来源:并购优塾
  1) 人工智能产品及服务: 专注语义智能识别(NLP)领域,比如:利用自然语言处理技术加速处理开源情报中不断增长的非结构化文本,利用人工智能等新兴技术识别开源情报中的伪造信息以确保数据和情报的真实性等。当前,其主要为防务、公安、政务、金融场景下的终端用户提供AI相关服务。
  2)大数据产品及服务业务: 主要为金融、制造、能源等企业客户,机关,互联网和传媒出版等主要行业提供大数据产品及服务 (大数据管理系统、网络信息雷达系统、智能媒体融合平台、专利和知识产权数据库等)。
  从数据资源化的角度,其具备完全自主研发的大数据基础平台,可提供采集、清洗、标注、管理等完整的数据闭环服务,具体产品包括海蜘分布式采集系统、海汇社交视频采集系统、海聚数据融合系统、海贝搜索数据库等。
  拥有来自境内外、各行各业的公开数据资产总量超1200亿,形成200多个行业知识库,并已具备数千亿数据量的数据索引、标记、查询、挖掘分析能力,日均亿级数据获取能力。
  3)数据安全领域: 子公司天行网安主要提供数据安全传输、交换产品及服务。
  图:拓尔思产品矩阵
  来源:年报
  从商业模式来看,科大讯飞和拓尔思均具备TO G属性(科大讯飞属于TO G+TO C属性)。而从AI相关业务类型来看,二者主营业务有所差异,科大讯飞以智能语音业务为主,而拓尔思以AI(NLP)+大数据服务业务为主。
  对相关的智能语音产业链,前段时间我们做过研究,详见优塾产业链报告库(扫描文末二维码可订阅)。
  (二)
  理清了业务构成,我们再来看过去10个季度的利润增长情况。
  图:归母净利润增长(%)
  来源:并购优塾
  1)科大讯飞在2020Q1归母净利润大幅下滑,主要原因是卫生事件导致的市场销售以及现场交付工作限制,较大程度上延缓了一季度项目的实施、交付、验收等相关工作的进度,从而拖累了收入实现。
  2)科大讯飞在2022上半年归母净利润大幅下滑,主要是其持有的三人行、寒武纪等资产波动导致公允价值变动收益较上年同期减2.73亿所致。
  3)拓尔思2021年归母净利润下滑,主要受资产剥离影响。当年其收入不再包含成都子公司2020年的配套商业房产项目收入、和原控股子公司耐特康赛的互联网营销收入,收入同比下降21.44%,归母净利润2.45亿元,同比下降23% (不考虑资产剥离因素影响,主营业务利润实际同比增长33.28%) 。
  然后,我们拉近视角,看看近期情况:
  一、 科大讯飞 ——2022年三季报,实现营业收入126.6亿元,同比增长16.5%;实现归母净利润4.2亿元,同比增长-42.33%。
  2022年Q3,实现归母净利润1.42亿元,同比增长-54.17%,环比增长-15.03%。
  图:近8个季度收入、利润增长情况
  来源:并购优塾、Wind
  归母净利润的下滑,主要由于持股的三人行、寒武纪等金融资产因股价波动导致公允价值变动收益金额减少所致。
  2022年上半年数据来看,教育、政务、医疗场景是其业绩增长的主要驱动力,教育产品和服务实现营业收入22.05亿元,同比增长27.38%;医疗业务实现营业收入1.40亿元,同比增长 40.17%;数字机关行业应用实现营业收入4.44 亿元,同比增长66.01%。
  二、拓尔思 ——2022年三季报,实现营业收入6.37亿元,同比增长4.95%;实现归母净利润1.04亿元,同比增长4.49%。2022年Q3,实现归母净利润0.29亿元,同比增长-34.56%,环比增长-45.71%。
  收入增长缓慢,主要是主业大数据软件产品及服务受卫生事件等因素影响,项目交付推迟,收入下滑;但是,其基于语义智能的人工智能软件产品和服务收入同比增长88.99%,占总收入比重达19.81%。
  利润下降,主要是可转债利息增加,且研发费用等增加。
  图:近8个季度收入、利润增长情况
  来源:并购优塾、Wind
  2022年上半年,拓尔思与知识产权出版社签订《战略合作协议》,依托公司在AI、大数据、搜索引擎等领域的先进技术,以及知识产权出版社在专利信息服务应用场景及专利大数据等方面优势,拓展专利智能检索、专利分析、生物多样性基因库建设、国家十大战略行业知识产权数据库、能源和金融等领域。
  综合来看,由于二者业务类型差异较大,导致收入增长的驱动力有所不同。科大讯飞主要受下游教育、智慧城市(政务)等场景驱动,而拓尔思主要由下游G端客户对于大数据服务、NLP技术需求驱动。
  (三)
  接下来,我们看一下各家现金流质量。
  一、净现比:
  两家净现比都比较高,拓尔思2020年净现比下降,主要是当年确认成都子公司西部总部基地配套商业用房销售净利,预收款减少。
  图:净现比
  来源:并购优塾
  二、 CAPEX与经营活动现金流量净额: 二者近几年的经营活动现金流整体基本覆盖CAPEX。
  图:经营活动现金流VS CAPEX
  来源:并购优塾
  (四)
  看完各家的增长趋势之后,我们来看他们的利润率及费用率情况。
  一、毛利率:
  受主营业务差异影响,二者毛利率差异较大。其中,拓尔思(语义智能,大数据)的毛利率在55%-65%之间,而科大讯飞 (以语音智能为主,包含语义智能、计算机视觉、以及录音笔、翻译笔、学习机等硬件产品) 毛利率在45%左右。
  2021年以来,拓尔思的毛利率有所抬升,主要原因是毛利率较高的人工智能及软件相关业务收入占比提升所致 (毛利率73.75%,同比增长51.95%) 。
  图:毛利率对比
  来源:并购优塾
  二、净利率:
  二者净利率水平主要由毛利率水平所决定。拓尔思净利率水平波动较大,主要由于其业务2G属性较强,收入主要集中在四季度确认,而费用端开支较为刚性。
  图:净利率对比
  来源:并购优塾
  二、 期间费用率:
  科大讯飞在研发投入(研发费用率)方面力度高于拓尔思。其财务费用率在2021年下半年上升较快,主要由于利息支出的提升(短期借款、应付债券占比提升),并且利息收入下降。
  图:期间费用率对比
  来源:并购优塾
  四、投资回报率:
  2021年,二者ROE、ROIC水平接近。
  拓尔思销售净利率较高,主要由于毛利率较高(NLP、大数据服务软件属性较强,叠加2G业务属性)。
  科大讯飞总资产周转率较高,主要由于存货周转率较高,拓尔思有部分地产业务;此外,其应付款项占比较高,导致经营杠杆较高 (权益乘数较高) 。
  图:投资回报率对比
  来源:并购优塾
  接下来,我们来重点研究一下行业需求和空间。
  (五)
  由于行业无法拆分,我们主要采用增速法预测。
  一、什么是自然语言处理?
  自然语言处理,是通过构建算法使计算机自动分析、表征人类自然语言的学科。
  从运行模式来看,自然语言处理,是计算机理解( 理解自然语言文本的思想和意图 )和生成自然语言( 计算机用自然语言文本表述思想和意图 )的过程,也就是让计算机具有识别、分析、理解和生成语言文本(包括字、词、句和篇章)的能力。
  与语音识别领域通过声波形态的数据化转换成文字信息不同,人类的语言是一个复杂系统,不同情境下的不同词语可能对应着不同的含义,因此自然语言处理的任务往往涉及到语言的理解能力。
  而语言理解,是一个递进的过程,从词法分析→句法分析→语义分析→语用语境分析,层层递进,因此,NLP技术复杂程度要高于智能语音领域。
  二、NLP的需求及应用场景有哪些?
  根据弗罗斯特沙利文数据,截至2018年,自然语言处理市场营收规模仅为20.6亿元人民币,预计2021年达到75.6亿元,但自然语言处理技术商业化仍不够成熟,部分已实现商业化应用的自然语言处理技术相关产品,主要依托于软硬件产品的商业场景而存在,比如智能家居设备、智能机器人、智能助手等。
  随着AI产业的深入发展,自然语言处理需求不断提升,众多类型智能应用需要NLP技术来实现。其中:
  1) 文本领域 —— 搜索引擎、信息检索、机器翻译、自动摘要、文本分类、意见挖掘、舆情分析、自动判卷系统、信息过滤和垃圾邮件处理等应用 。
  以金融领域为例,资讯信息极为丰富(如涉及标的公司重大新闻、公告、财务状况,金融产品信息、宏观经济状况、政策法规变化、社交媒体评论等),数据量庞大,这种情况下,舆情分析应用可以对海量数据自动摘要、归纳、缩简和抽取,为投研人员提供高效的信息展示。
  在法律领域,自然语言处理应用可帮助法律从业人员进行案例搜索、判决预测、法律文书自动生成、法律文本翻译等,实现事件预处理,缩短案件处理时间。医疗领域,病历的辅助录入、医学资料的检索与分析、辅助诊断等医疗步骤可由相关自然语言处理应用辅助进行。
  2) 语音领域 —— 语音助手、智能客服、聊天机器人、自动问答、智能解说和智能远程教学与答疑等应用,均需自然语言处理技术理解或生成自然语言 。
  随着智能设备数量增长以及行业智能化业务处理水平要求的提高,自然语言处理市场有望得到进一步拓展,自然语言处理市场营收规模有望在2019-2023年间以48.2%的年复合增速实现快速增长,达到150.7亿元。
  图:自然语言处理市场规模 来源:头豹研究院
  但是,注意,从现有的理论和技术现状看,通用的、高质量的自然语言处理系统,仍然需要更长期的努力,从而进一步打开更大的应用场景。
  我们接下来从Chat-CPT来看较先进的自然语言处理技术,有哪些进步和亮点。
  (六)
  图:早期的Transformer模型
  Chat-GPT由硅谷的初创公司OpenAI推出,OpenAI是一家具备实验室性质的半盈利组织,2015年由埃隆马斯克、美国创业孵化器Y-Combinator总裁阿尔特曼、PayPal联合创始人彼得·蒂尔等硅谷大佬创立,核心宗旨在于"实现安全的通用人工智能,使其有益于人类发展"。
  OpenAI团队由300个来自计算机、数学、生物学、神经科学、化学、心理学等不同学科背景的研究者组成,跨学科的开放属性有利于基础理论模型的创新,而其非盈利属性(商业化压力相对较小),使得其有长期投入、和广泛试错的资本。
  12月2日,Chat-GPT聊天机器人上线,五天内用户即突破100万,受到了广泛的关注。它既能完成包括写代码,修改bug,翻译文献,写小说,写商业文案,创作菜谱,做作业,评价作业等一系列常见文字和智力输出型任务,而且在和用户对话时,能记住对话的上下文,反应非常逼真。总而言之,它兼具兼具理解力、创造力和记忆力,凭实力出圈。
  Chat-GPT,是将Instruct GPT模型(GPT-3.5)经过微调后开发出来的对话界面,由OpenAI在2022年神经信息处理系统大会会议期间在社交网络上公布。 从GPT模型的技术迭代历程来看:模型能力的提高,与参数量、预训练数据量直接相关。
  接下来,对Chat-GPT的迭代过程,NLP行业的核心增长驱动力,以及关键竞争要素,我们挨个来拆解:
  …
  以上,仅为本报告部分内容,保留一半内容,以供试读。
  如需获取本文全文,以及其他更多内容,请订阅 :产业链尊享版产业链报告、专业版报告库、科技版报告库、。 订阅咨询 可添加微信:bgys2020
  一分耕耘一分收获,只有厚积薄发的硬核分析,才能在关键时刻洞见未来。
  【版权、内容与免责声明】1)版权:版权所有,违者必究,未经许可不得翻版、摘编、拷贝、复制、传播。2)尊重原创:如有引用未标注来源,请联系我们,我们会删除、更正相关内容。3)内容:我们只做产业研究,以服务于实体经济建设和科技发展为宗旨,本文基于各产业内公众公司属性,据其法定义务内向公众公开披露之财报、审计、公告等信息整理,不采纳非公开信息,不为未来变化背书,不支持任何形式决策依据,不提供任何形式投资建议。我们力求信息准确,但不保证其完整性、准确性、及时性,亦不为任何个人决策和市场变化负责。内容仅服务于产业研究需求、学术讨论需求,不提供证券期货市场之信息,不服务于虚拟经济相关人士、证券期货市场相关人士,以及无信息甄别力之人士。如为相关人士,请务必取消对本号的关注,也请勿阅读本页任何内容。4)格式:我们仅在微信呈现部分内容,标题内容格式均自主决定,如有异议,请取消对本号的关注。5)主题:鉴于工作量巨大,仅覆盖部分产业,不保证您需要的行业都覆盖,也不接受任何形式私人咨询问答,请谅解。6)平台:内容以微信平台为唯一出口,不为任何其他平台负责,对仿冒、侵权平台,我们保留法律追诉权力。7)完整性:以上声明和本页内容以及本平台所有内容(包括但不限于文字、图片、图表)构成不可分割的部分,在未详细阅读并认可本声明所有条款的前提下,请勿对本页面以及本平台所有内容做任何形式的浏览、点击、转发、评论。

星星冷链拟冲刺上交所主板IPO上市,预计使用募资15。42亿元浙江星星冷链集成股份有限公司3月2日递交首次公开发行股票并在主板上市招股说明书(申报稿)。公司拟冲刺上交所主板IPO上市,本次拟公开发行股数不超过1。61亿股,公司股东不公开发售股美科学家发现地球正变绿,原因就在中印,但专家对印度非常担忧综述地球正在变绿,这是怎么回事?众所周知,身为地球上的成员之一,地球所发生的一切变化也都或多或少将影响着我们的生活。人类如果想要在地球上永久生存,那么便得为维护地球生态系统平衡而做火山和地热能有什么关系?地热能有哪些用途?地热能是源于地核一种固有的自然现象,自地核45亿年前形成以来就产生了。在地球表面以下1800英里(2900公里)处,地核在巨大的引力摩擦以及钾40和钍232的放射性衰变作用下,达到来自匈牙利的天文学家已经证明地球有三个卫星据匈牙利科学家称,这些卫星完全由尘埃组成,这些神秘的云团绕地球运行25万英里,与月球的距离几乎相同。早在1961年,当时波兰天文学家KazimierzKordylewski就发现了新研究有助于详细了解地球上最大规模的灭绝事件最新二叠纪大灭绝(LPME)是地球历史上迄今为止最大的灭绝事件,导致地球上8090的生命丧失。尽管进行了广泛的研究,但这一时期气候发生剧烈变化的确切原因仍然是未知的。二叠纪三叠纪大为什么外星人从未造访过地球?科学家们给出了一个令人不安的答案先进文明可能注定停滞或死亡一位艺术家从行星表面观察到的外星星际飞船的图像。(图片来源ConeylJay)为什么人类从未被(我们所知道的)外星人访问过?几十年来,这个问题一直困扰着科1971年,苏联飞船返回地球,打开舱门却发现三名宇航员已经死亡1971年6月30日凌晨1点多,苏联的卡拉干达的航空基地上人声鼎沸,他们绕着巨大的场地围成一圈,静静地抬头看着天空。当天空中出现了一个光点,并伴随着巨大的轰鸣声传来的时候,有人兴奋1922年溥仪在故宫装了电话,激动地拨通了胡适的号码你猜我是谁前言光绪三十四年(1908年)十月,一个年仅3岁的孩童在太和殿内接受着众人的朝拜。高呼万岁的声响,回荡在硕大的宫殿。这浩大的阵仗吓得这位3岁的幼帝直哭,孩童清脆的哭声响彻大殿。跪拜海外全球最大电动汽车工厂?特斯拉墨西哥工厂是上海工厂20倍大文懂车帝原创彩丽美懂车帝原创行业近日,在特斯拉投资者大会上,特斯拉CEO马斯克宣布将在墨西哥建立下一座超级工厂。值得注意的是,特斯拉官方海报,这座超级工厂将用于生产下一代新车型。特华为ensp模拟器桥接本地网卡方便电脑实验练习一华为ensp模拟器简介eNSP(EnterpriseNetworkSimulationPlatform)是一款由华为提供的可扩展的图形化操作的网络仿真工具平台其主要用于对企业网络深耕Matter标准,泰凌微电子助力企业跨越物联网生态藩篱集微网消息,在今年的CES和MWC大展上,Matter再度成为物联网领域热点。各家厂商争相发布获得Matter认证的新产品,现场布置的智能家居典型场景下,支持Matter1。0规范
不管腌什么酸菜,牢记4个小诀窍,酸菜不烂发霉,味道正宗又脆爽立冬之后,好多朋友都喜欢自己在家盐酸菜食用。尤其是去年315爆出的土坑酸菜之后,大家也都是非常抵制,并且连带的蝴蝶效应,认为其他的酸菜都不是那么的干净卫生。所以宁可制作过程再麻烦,乌梅汁怎么做,乌梅汁的做法步骤教程冬天是吃火锅的好时候,但很多人在吃火锅以后容易上火,所以在吃火锅的时候最好搭配清凉爽口的乌梅汁,但乌梅汁应该怎么做呢?今天小编就介绍这方面的知识,能让大家对乌梅汁的做法步骤教程多一普洱茶饼,别总是用手掰!想要茶汤香浓口感好,这3个技巧要记牢普洱茶饼别再用手掰!想要茶汤香浓口感好,这3个泡茶技巧要记牢说起云南普洱茶,相信爱喝的朋友家里都有珍藏几块老茶饼。普洱茶滋味醇厚,含有多种人体所需的维生素,矿物质元素,对人体有很多太漂亮了,这才是花菜最解馋的做法,招待客人超有面子,比肉还香大家好,我是一个特别喜欢研究各种美食的帅哥,如果您也喜欢做美食,记得关注我,我们可以互相分享自己在做美食时积累的经验,这样以来可以做出更加好吃的美食,让我们的厨艺得到提升。导语大暑超市5款良心美食,坚决不加色素,味美有营养,你吃过几种?超市成为现代人们休闲的好去处。超市中的橱柜色彩斑斓,犹如一个商品童话世界,不仅有可以满足我们日常生活的商品,还有可以提升幸福感的美食。穿梭其中的人们可以尽情享受丰富的物质时代。但许(新华全媒)大美湿地城市哈尔滨有着冰城夏都美誉的黑龙江省哈尔滨市,地处松嫩平原,坐落于松花江中游两岸,拥有河流湿地沼泽湿地湖泊湿地等各类湿地19。87万公顷。2018年,哈尔滨市被评为首批国际湿地城市。近年来,(新华全媒)海口湿地万鸟翔集近期,不少候鸟进入海南越冬。在首批国际湿地城市海口市的美兰区一处湿地,大批前来越冬的须浮鸥呈现万鸟翔集景象。鸟群时而群飞,时而整齐栖息,颇为壮观。11月12日在海口市美兰区一处湿地沈阳四塔之东塔阳光普照,时来运转。因疫情关闭许久的护国永光寺又打开了大门,时隔两年寺内仍然是肃穆庄严,岁月静好。沈阳东塔沈阳,这个神秘而伟大的城市,孕育着太多太多的历史与文化。护国永光寺西侧鼓楼云上探宝再出发!走进百年吴淞,探寻宝山记忆云上追溯宝山母亲河蕰藻浜的历史渊源云上寻找中国第一条营运铁路的留存遗迹云上探寻吴淞老街两代人的舌尖美味记忆云上漫步吴淞百年开埠纪念广场吴淞铁路历史照片宝山区吴淞具有相当丰富的历史遗2016年的自由,怀念那时时光新冠2016年走过省内和省外的很多地方。看过的很多书,走过很多路愿疫情消散,让我们报复性旅游吧。2016年的南京夫子庙Mountainpeoplemountainsea南京的夫子庙锦城绿道是中国最美绿道?大错特错!那是你没见过锦江绿道成都旅游我的家乡在成都成都头条成都因你更新在南来北往的游客看来,成都是休闲的,这里有盖碗茶有熊猫有火锅成都是厚重的,这里有都江堰有金沙遗址有三国文化。若你问成都美吗?肯定有人说,成