今日,Tapdata(钛铂数据)宣布完成来自五源资本独家领投的Pre-A轮融资和来自XVC及德联资本联合领投的Pre-A+轮融资,投资金额达千万美金。 元一资本连续担任两轮融资的独家财务顾问。 两轮融资均将主要用于进一步扩充技术研发团队。 在企业数字化转型过程中,构建数据能力是关键步骤。以数仓、数据湖为代表的OLAP数据处理产品竞争已经进入白热化阶段,面向OLTP场景的解决方案却是一片待开发的蓝海市场。 以面向TP的实时DaaS的技术先进性与产品稀缺性赢得资本青睐的Tapdata,是如何引领这一新兴赛道,又能否在探路者的孤独中,迎来雨后彩虹呢? 一、第一家主推面向TP的实时DaaS 当创始人唐建法(TJ)听到Tapdata被称为DaaS(Data as a Service)赛道的"头部玩家"时,并没有否认这一身份,而是笑着坦言,"因为确实现在还没有很多的玩家"。 Tapdata创始人唐建法 严格来说,目前DaaS赛道中能叫出名字的厂商只有美国的Dremio和Tibco。前者被称为"数据仓库终结者",于今年年初完成了1.35亿美元D轮融资,估值达到10亿美元,是一家面向OLAP(Online analytical processing)数据处理场景的DaaS厂商;后者是一家有着20年历史的老牌中间件公司,实时DaaS只是其众多产品线中的一个分支。"我可以比较自信地说,我们是第一家主推面向OLTP(Online transaction processing)场景的实时DaaS 架构的团队。" 尽管DaaS是一种新兴的解决方案,Tapdata想要解决的问题却并不陌生,正是伴随产业数字化进程不断深入而来的"数据孤岛"现象。 Statista.com 统计数据(来源:超级观点) 据Statista统计发现,2020年全球数字化信息量已经达到50.5万亿GB。而在Gartner的数据统计中显示,目前各企业的数据湖中,仅有10%的数据是有意义的。为何企业对数据的利用率如此之低?很大程度上源于企业的数据分散在各个按照垂直和个性化业务逻辑部署的IT系统里,难以做到互通互联,因此无法为前端业务变化做有效的决策支撑。 事实上,数仓、大数据平台、数据中台等几代数据工具和架构都在解决"数据孤岛"问题,但是以Teradata、Vertica和Greenplum为代表的数仓基于MPP架构,拓展性较差,跨节点关联计算瓶颈明显,而且不支持半结构化和非结构化数据;基于Hadoop架构的数据湖、大数据平台由于是开放式架构,横向扩展性强,能以原始格式存储数据而无需对数据进行结构化处理,一度占据大数据技术"顶流"地位,直到近期数据中台的概念横空出世,但数据中台的技术底层仍然以大数据平台的技术为基础,更多是一种企业管理理念的创新。 纵观数仓、数据湖和数据中台的演变历史,可以发现,三者支持的核心业务场景还是偏BI报表、各种数据分析等OLAP场景,重在对历史数据做洞察和分析,而一个能为企业提供即时数据、用于OLTP业务支撑的实时数据平台却少之又少。正是看中了这一市场空白,Tapdata决定以实时数据为服务,打造一个面向TP的Real Time DaaS平台。 打通实时数据,支撑核心交互业务的数据赋能工具 和基于Hadoop的大数据平台相比,Tapdata的DaaS架构优势在于存储模式上使用支持索引的分布式数据库而非HDFS文件系统,因此能够提供 毫秒级查询响应及数以万计的并发,并和源系统的数据延迟保持在亚秒级 ,直接服务到TP业务系统,切中企业的核心运营价值链。 不过TJ也指出,Tapdata的DaaS平台与其他数仓和大数据平台并不是非此即彼的关系,因为DaaS是以数据服务为导向的数据平台,并不企图大而全地支撑起所有数据业务,因此 可以和数据湖和数仓形成上下游关系,为其提供完整、统一、准确的实时数据 。"我只把数据给到你,你把‘水’拿过去以后,是用去做饮料还是啤酒,由你来定。" 二、曲线救国 在创业之前,TJ曾是NoSQL数据库第一股MongoDB大中华区的首席架构师,并在北美留学、工作十余年。Tapdata的名字由来,就源于这段海外经历中的"小美好"时光。 "美国有很多小众的精酿啤酒,去餐馆或者酒吧的时候我们一般会问服务员,What’s on tap today? 就是那种龙头一扳就流出来的新鲜扎啤,喝一口非常yummy。"TJ说道。 正如Tapdata这一名称所揭示的,TJ希望"让企业使用数据像拧开水龙那样简单便捷",但是想要实现这一愿景,难度却不小。 TJ感慨地回忆道,在公司成立之前他曾向多位技术大牛征询意见,然而每个人都不认可他的技术构思,认为风险太大不可能做起来。大家更倾向于自己用代码开发的方式。 据TJ介绍,Tapdata的DaaS架构分为三层:在数据采集层,通过数据虚拟化技术,将企业孤岛系统的数据实时镜像到一个中央化的分布式数据库存储;在数据处理层,通过内建的流处理引擎的计算能力,将数据进行合并、去重、转型,构建成企业的主数据模型层;在数据服务层,为异构数据源提供了一个统一的数据服务层,让用户用一种方式就可以访问来自不同业务系统的数据。 技术难点首先存在于实时同步的可靠性。 Tapdata采用的数据虚拟化技术是基于数据同步而非主流的联邦查询模式,数据要在亚秒级经过源库事务日志监听、解析和传输处理回放到平台里,不能多,不能少,不能晚,再加上数据源都是非标的各种异构库,因此技术复杂度极高。 数据虚拟化:让用户用一种方式、一个入口、一套管理权限访问不同系统数据 其次是数据的反向更新。 DaaS的另一个核心基础是企业主数据层的建设,不仅要做到客户、订单、商品等核心数据能够在统一的平台上访问读取,还要实现数据的管理、更新、写入,这就会涉及到对多个异构库进行跨库的数据写入。在这一方面Tapdata也还只是在做一个早期的技术准备。所以尽管Tapdata已经可以覆盖80~90%的业务场景,但是距离成为一个真正"开箱即用"的企业级数据底座,仍然还有很长的路要走。 也正因为实时DaaS难度大、概念新,对许多企业来说并没有那么容易接受,因此TJ在市场推广上采取了"曲线救国"的方式。 由于将数据从Oracle、SQLServer、Sybase、DB2和MySQL等关系型数据库迁移至MongoDB或Elastic Search这样的非关系型数据库是企业的一大刚需,因此Tapdata将DaaS架构中的数据采集+流数据处理的子集单独作为一个实时异构数据库同步产品提供给企业,以一种体验更好的方式帮助企业实现数据的同步和ETL工作。 连接新旧数据库 在这之后,Tapdata会进一步引导企业客户认识到企业级DaaS架构的业务价值,推动客户的市场教育。通过这种方式,Tapdata已经在多个大型客户的生产线上成功落地了实时DaaS的产品架构,包括年销售额数百亿的头部高端零售厂商、顶级的汽车制造厂以及头部的运营商客户等。 三、仰望星空,脚踏实地 虽然在Tapdata的起步阶段,TJ并未得到多少支持,但 曾做过四年全职摇滚键盘手的他体内始终流淌着不羁的热血 。 在他看来,迎难而上、敢于探索的企业文化正是Tapdata的核心竞争力之一。"如果是这个事情太简单、太容易,就没有去做的意义了。作为一个创业者就要勇于创新,think out of box,走不同的路。" TJ坚定地说道。 一边是摇滚乐手的至情至性,另一边则是技术专家的实事求是,TJ为走通这条"不同的路",构建了强大的技术团队。来自于MongoDB、Oracle 等原厂数据库和BAT等一线互联网大厂的团队基因为Tapdata跻身DaaS 行业技术领先者行列奠定了坚实的基础。而对于Tapdata的未来,TJ也早已做好路径规划。 第一步是"开放"。为了能将产品和服务理念快速推广开,Tapdata将通过免费云版的方式触达广泛的用户。目前Tapdata已开放基础的实时数据同步工具,后期会逐步将DaaS的全部能力上云。同时Tapdata为用户提供的是开放式架构,因此用户能够自助接入新的数据源,或自行增加更多定制化数据处理能力,建设自己的开放生态。 第二步是"开源"。在完成必要的团队建设后,Tapdata将对核心模块开源,使得不能上云的用户也能使用到Tapdata的先进技术。也是通过这样的策略,Tapdata将海外市场作为未来增长的重要方向。事实上,尚未开源和推广,Tapdata已经获得了若干海外付费客户。 可以说,"仰望星空,脚踏实地"是TJ本人的真实写照,也是他所带领的Tapdata的最佳注脚。在采访的最后,TJ回顾自己从摇滚乐手、环游世界到从零创业的"朋克人生",言辞恳切:"我希望自己的人生能够充满新奇的东西,为梦想而活。尽管不是每个人都能实现自己的梦想,但你可以做的是,去做这件事情。 经历很多风雨以后可能见不到彩虹,但是这些风雨也都是人生的一种值得 。" 相信怀着赤子之心的热情与坚定,TJ和Tapdata能够穿越创业路上的疾风骤雨,让企业使用数据就如使用自来水一样简单的那天,早日到来。