背景 爱拼公司通过网络爬虫技术,从互联网公开信息中收集和分析了上亿条简历、招聘数据("原始数据"),基于原始数据研发衍生数据产品,于2014年6月发布涉案数据"662所高校学生毕业十年就业薪酬和就业行业分布"数据。 2015年,好未来收购高考派。 2017年,因好未来及其关联公司在高考派、高考帮相关网站、移动端应用、微信公众号等产品中使用和销售涉案数据,爱拼公司以其构成不正当竞争为由提起诉讼,索赔经济损失5000万。被告认为原告获取原始数据的手段不正当、原始数据不真实,不具有法律上的合法权益,因此不能基于反不正当竞争法主张权益。原告为证明涉案数据是原告自主研发及其市场价值,提供以下证据: A.《爱拼数据产品研发相关技术说明》,载明数据收集和研发流程如下: 通过爬虫技术获取原始数据; 通过数据清洗、别名识别等技术,将原始数据整理成标准化的有效信息; 对基础数据进行大数据分析和计算,最终得出涉案数据。 B. 广东省科学技术情报研究所和广州市科技和信息化局出具的相关报告,用于证明原告的"人才大数据项目",是采用大数据分析采集技术、数据清洗技术、数据智能关联等技术,开发人才数据挖掘系统,具有创新与行业应用价值。 C.提交《爱拼网:掘金高校就业大数据》等27篇网络报道,用于说明涉案数据的研发过程及市场价值。 被告从两方面进行抗辩: 第一,原告无法也无权使用相关原始数据 被告认为,即使原告声称的"原始数据为通过爬虫自行抓取"说法属实,原告对第三方平台上的公开的个人信息进行抓取、保存的行为也会因为无视网站robots协议限制、突破访问限制而具有不正当性。为此,被告提交多个招聘平台的隐私隐私政策和用户协议、58同城网和领英网的robots协议进行证明。 原告反对,提出原始数据来自互联网中用户自行公开的信息,有大量网站在2014年时并没有设置robots协议,比如智联招聘网就没有,因此原告没有违反robots协议获取数据。 第二,原告获取的原始数据是虚假的,由此分析得出的涉案数据亦不具有客观真实性,主要理由是: 原告抓取数据的目标网站,比如智联招聘网、猎聘网、前程无忧网,其网站中的简历可自行创建,网站亦表示自己不对简历的真实性进行核实,因此这些内容是否真实,无法保证; 原告宣称自己分析了4000万学生的数据,这个说法不合常理且属于虚假宣传,因为和中国教育在线网、新东方在线网等发布的毕业生数量数据相差甚远; 相关就业报告、调查报告基本都是采用抽样调查的方式进行,全样本调查不具有现实可能性,且调查报告花费时间长,并非短时间内能够完成,因此涉案数据并非真实客观,且不具有商业价值。 裁判 法院从举证责任分配、个人隐私或第三方平台权利、网络爬虫与访问权限三方面对双方诉辩意见进行分析与评价。第一,从举证责任分配角度进行分析: 法院认为,原告提交以下证据并进行说明,已经尽到初步举证责任: 针对涉案数据所依赖的原始数据的来源、收集方式; 以及涉案数据的研发过程和使用的相关技术。 被告如果认为原告该等市场行为,或者由此产生的商品或服务具有不正当性,应就其不正当性承担举证责任。 但是,本案被告未能举证证明原告通过非法手段获取原始数据。 其提交的部分网站的用户协议、隐私政策、robots协议等,都是在诉讼过程中取证的,没法证明2014年涉案数据完成之前、原告获取原始数据违反了相关平台的协议。第二,涉案数据是否侵犯个人隐私或第三方平台的相关权利? 法院认为,在案证据没法证明原告获取原始数据的行为不合法或者侵犯了个人隐私或第三方平台权利: 涉案数据是在原始基础上进行二次开发的衍生数据,本身不涉及任何个人信息和隐私,不存在侵犯公民个人信息或隐私的可能; 涉案数据不会对原始数据或其提供者在市场中产生替代; 2014年涉案数据面试后,原告进行了大量的宣传报道,向社会公示其研发过程和成果,原告表示从未有任何第三方向它们主张过权利,也没有证据显示曾经存在这种情况。 第三,被告抗辩时提出过某些网站需要用户登陆才能看到完整数据,法院指出:首先,被告没有举证证明"哪些原始数据是需要用户登录才能获取的",也没有证明"2014年时哪些第三方平台需要登陆才能查看简历等信息"; 其次,原告表示确实存在通过程序模拟用户登录过程从而浏览第三方网站的情形,但目前没有证据显示有第三方因此向原告主张权利,所以本案无法仅仅因为存在这种情况,就当然地认为原告获取数据的行为不合法。 综上,法院对被告抗辩意见评价如下:被告与原始数据相关的抗辩意见也因和本案缺乏关联,不予采信。 被告提出的涉案数据不具有客观真实性,法院认为涉案数据准确、优劣与否,与原告对涉案数据享有合法权益并无必然关联,故不予采信被告的该项意见。 对于原告关于"原始数据"的主张,法院认为: 原告关于原始数据内容和获取方式的相关意见,缺乏事实证据,与本案缺乏关联性,不予采信,因为: 本案原告不能提供原始数据; 原告主张自己通过爬虫技术获取原始数据,但提供的证据(技术说明和两份机构报告)只是对原始数据的内容、来源介绍,不能证明原始数据的具体内容和实际来源,也无法确认其与涉案数据之间的关联性和对应性。 但是法院并未因此否定涉案数据的价值和原告享有的合法权益,法院认为:涉案数据不同且独立于原始数据,是原告付出相关成本和智力劳动的经营成果 ; 涉案数据具有一定社会价值,也扩大原告收益范围和竞争优势; 原告使用涉案数据获取经营收益、市场份额及竞争优势,该种合法权益应受到反不正当竞争法的保护。 2020年3月3日,法院一审判决认定被告构成不正当竞争,但仅支持了50万元的经济损失索赔金额。 双方均不服判决并提起上诉,2022年1月24日,二审法院判决驳回上诉,维持原判。 结合裁判意见可知,获取原始数据的手段、原始数据的内容,会影响数据衍生产品权利基础的稳固性。 本案被告相关抗辩未获支持,是因为被告未完成其举证责任,而不是说前述二者无关联;本案原告索赔5000万,判赔50万,也与其关于原始数据的主张未被采信不无关系。 参见: 北京市海淀区人民法院在2020年3月3日作出的(2017)京0108民初51904号民事判决书; 北京知识产权法院在2022年1月24日作出的(2020)京73民终3422号民事判决书。