范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

软件推荐丨GoldDataSpider网页数据抽取工具

  点击右上方,关注开源中国OSC头条号,获取最新技术资讯
  GoldDataSpider 是用于抓取网页和抽取数据的工具。其核心代码是从金色数据抓取融合平台分离而来。
  该项目提供抓取和抽取来自网页数据,不仅可以抽取网页内的内容,还能抽取URL、HTTP报头、Cookie里的数据。
  该项目定义了一种简洁、灵活、敏捷的结构或者说是规则语法。极尽其所能将网页内容、HTTP报头、Cookie、甚至关联其它网页、其它网站数据,抽取出有意义有价值数据字段,组成一条数据记录。除此之外,还能内嵌http请求,以补充数据字段,比如某些字段需要向词典提供翻译这样的字段等等。
  该项目还可支持从各种类型文档抽取数据,比如html/xml/json/javascript/text等。
  我们还提供了规则可视化配制,请下载采集数量不受限、爬虫数量不受限、导出数据数量不受限的完全免费金色数据平台社区版 。以及详尽的文档
  使用入门
  首先,我们需要将依赖加入项目当中,如下:
  1、对于maven项目<dependency>
  <groupId>com.100shouhou.golddata</groupId>
  <artifactId>golddata-spider</artifactId>
  <version>1.1.3</version>
  </dependency>
  2、对于gradle项目 compile group: "com.100shouhou.golddata", name: "golddata-spider", version: "1.1.3"
  然后你将可以使用该依赖所提供的简洁清晰的API,如下:@Test
  public void testGoldSpider(){
  String ruleContent=
  " { \n"+
  " __node: li.sky.skyid \n"+
  " date: \n"+
  " { \n"+
  " expr: h1 \n"+
  " __label: 日期 \n"+
  " } \n"+
  " sn: \n"+
  " { \n"+
  " \n"+
  " js: md5(baseUri+item.date+headers["Content-Type"]);\n"+
  " } \n"+
  " weather: \n"+
  " { \n"+
  " expr: p.wea \n"+
  " } \n"+
  " temprature: \n"+
  " { \n"+
  " expr: p.tem>i \n"+
  " } \n"+
  " } \n";
  GoldSpider spider= com.xst.golddata.GoldSpider.newSpider()
  .setUrl("http://www.weather.com.cn/weather/101020100.shtml")
  .setRule(ruleContent)
  .request();
  List list=spider.extractList();
  // List<Weather> weathers=spider.extractList(Weather.class);
  // Weather weathers=spider.extractFirst(Weather.class);
  list.forEach( System.out::println);
  }
  运行上面的测试,你将可以看类似下面的输出:{date=19日(今天), weather=阴转小雨, temprature=10℃, sn=8bc265cb2bf23b6764b75144b255d81d}
  {date=20日(明天), weather=小雨转多云, temprature=11℃, sn=9efd7e7bbbfb9bb06e04c0c990568bfd}
  {date=21日(后天), weather=多云转中雨, temprature=11℃, sn=728539ac882721187741708860324afa}
  {date=22日(周六), weather=小雨, temprature=9℃, sn=a23fa2233e750a3bdd11b2e200ed06c3}
  {date=23日(周日), weather=小雨转多云, temprature=8℃, sn=b27e1b8a8e92a7bed384ceb3e4fdfb5f}
  {date=24日(周一), weather=多云转小雨, temprature=8℃, sn=c142b7fd12330ca031dd96b307c0d50d}
  {date=25日(周二), weather=小雨转中雨, temprature=6℃, sn=16f71d3c8f09394588532a3ed1a8bacf}
  当作Service或者API使用
  你可以在项目中,可以当作调用服务和API使用。例如如下:@Service
  public class WeatherServiceImpl implements WeatherService{
  public List<Weather> listByCityId(Long cityId){
  String url="http://www.weather.com.cn/weather/"+cityId+".shtml"
  String rule="<同上>"
  GoldSpider spider= com.xst.golddata.GoldSpider.newSpider()
  .setUrl(url)
  .setRule(ruleContent)
  .request();
  return spider.extractList(Weather.class);
  }
  }
  对于可视化配制,可以参考免费社区版文档。以下就免费社区版做简单介绍 ,详情见官网!
  免费社区版:
  开源/免费
  让用户更好理解和使用产品
  我们针对数据采集免费,还开放和维护核心的开源代码项目。让用户可以更好的使用、理解采集,用好采集。 让用户在各种场景应用金色数据采集带来的便利,我们有信心让客户见到一个开放的数据平台,让用户放心/省心/省力。
  自由/灵活
  透出一股强大的采集核心
  我们的采集器,将向用户暴露一切目标数据,除了常规网页内容,还有如URL、HTTP报头、Cookie等。还提供了各种解析工具和函数,让用户不仅能得到网页内容里的数据,还能得到URL、HTTP报头、Cookie里隐藏的核心数据,还能灵活做到智能防封。
  分布式采集
  私有云,更灵活,更安全,更放心
  可以根据自身需求,随意部署采集器数量,7*24小时不间断运行,采集后端集中灵活控制。可自由指挥数据在哪个采集器采集。可定义定时采集,无需人员值守。
  数据可关联可追踪
  恢复/重建数据内在与外在价值
  可以让每条数据随着目标网站目标内容更新(如商品价格)、而更新用户应用表该条数据相关字段内容。
  非侵入式融合
  融合从未如此现实和简单
  完全可以在不改变用户应用表结构(增删改表列),而将采集数据融入到应用表中。
  自动化/一体化
  无需人力操作,即抓即用
  不只是采集可以自动化抓取,融合也提供了手动化和强大自动化功能。还将采集与融合操作无缝对接,可将目标数据抓一条融合一条,实时流向应用表,做到即抓即用!
  点击下方链接,获取软件下载地址↓↓↓
  GoldDataSpider首页、文档和下载 - 网页数据抽取工具 - 开源中国

世卫组织人工智能的年龄歧视可能严重影响老年人健康品玩2月10日讯,据界面新闻引法新社消息,世卫组织周三警告说,人工智能系统正越来越多地用于医疗保健,但系统中的偏见有可能加深对老年人的歧视。世卫组织在一份政策简报中说,人工智能技术新科技对经济发展的推动与投资机会促进经济发展的因素有很多,但科学技术在其中确起着相当重要的作用。在当前时代,则起着决定性的作用。科技提高了劳动生产率。当下科学技术特别是高科技已经融合渗透,扩散到生产力诸要素中,使元宇宙在落地过程中会遭遇哪些困难和挑战?如何解决?来源科技日报在大量算法的加持之下,元宇宙所产生的新型视觉场景,会让更多的人沉浸在虚拟世界中不能自拔。如何维系现实世界和元宇宙之间的正面互动关系,发挥元宇宙的积极作用,抑制消极作用,苹果春季发布会新iPhoneSE领跑多款M2新设备亮相CNMO新闻在去年的苹果秋季发布会上,凭借A15处理器的跑分,iPhone新产品线再一次刷新了移动设备的性能天花板。据国外知名爆料人MarkGurman透露,苹果将在3月的春季发布操作系统SSH协议知识介绍今天给大家分享SSH协议相关的知识介绍,希望对大家能有所帮助!1SSH协议概念介绍SSH(SecureShell)安全外壳协议,是一种建立在应用层基础上的安全协议,通过对密码进行加情人节礼物送女友什么合适?情人节适合送女友的礼物推荐情人节是一个很有氛围的日子,这个节日里,送礼物是一个很有仪式感的事情,无论送啥,都是表达心意的,让她在收到礼物的时候也体验一把被爱的幸福,既惊喜又甜蜜。是不是正愁不知道给女朋友送什3000块钱买一个戴森吹风机,你觉得值不值?看看用过的人怎么说畅谈关于装修的那些事,分享装修的各种经验和知识。大家好,我是畅谈装修,关注我即可了解更多关于装修的那些事!问3000块钱买一个非常出名的戴森吹风机,你觉得值不值呢?好用吗?答几年前2年经验前端面试网易灵犀!太注重工程化了题目一面1聊项目2webpack和rollup的区别,打包出来的产物有什么区别?3postcss的原理4webpackbabelvue都用到了AST,你是怎么理解AST的?5如何提如何看待苹果计划推出非接触式点击支付功能?2月8日消息苹果计划推出点击支付功能,如何解读此举?对此都有哪些相关信息值得关注?苹果公司周二(2月8日)在官网发布公告称,计划在iPhone上推出点击支付(Taptopay)功能Python其实很简单第十六章目录管理为实现按名存取,必须建立文件名与辅存空间中物理地址的对应关系,体现这种对应关系的数据结构称为文件目录。文件目录表目至少要包含文件名文件的类型文件的长度访问权限建立时间访问时间和文件整新活!摩托罗拉全新翻盖折叠设计专利曝光,比Razr5G还夸张智能手机发展的未来趋势究竟在哪里?折叠屏会是手机行业的最终形态吗?这些问题现在还无法给出确定答案,但作为行业先驱者,摩托罗拉已经开始了行动。现在手机行业的发展遇到了一定的瓶颈期,厂
为什么手机充电器输出电压才5V,却有人触电的时候死亡?应悟空小秘书邀答!为什么手机充电器输出电压才5V,却有人触电的时候死亡?答发生手机充电时触电事故多发生在以下几个原因1手机充电器不是正规产品2手机电池电压过低充电时边充边用使隔离变为什么努比亚手机火不起来?真的有那么不堪吗?努比亚一直以来还是很有品牌优势和技术优势的,至于销量怎么样呀,为啥好像卖得并不火,这个有客观原因,也有主观原因,首选我们来认识下努比亚这个手机品牌有何优势?努比亚(nubia)是一手机信号栏旁突然出现HD字母,到底是什么意思?看完涨知识了现在的人们都用上了智能手机,我们可以出门不用带钱,带一部手机就能付钱买东西,这很大程度提高了我们的生活水平,可是有一些年纪大点的人,使用手机还是不太明白,手机上的一些功能也搞不太懂一部两年前的华为Mate40Pro,放到现在,相当于什么价位的手机?最近华为曝光了华为Mate50系列,大家期待已久的华为旗舰Mate系列终于迎来了新品,对这款新机妖妖个人还是相当亲切的。前几天还在转转上看到了一款两年前的华为Mate40Pro,只新鲜出炉!2022年3月手机处理器排行榜!值得收藏这里是太平洋知科技,如果本文对你有帮助,欢迎点赞关注我。往期精彩回顾如何长时间保存重要数据?拒绝U盘,拒绝网盘作为忠实的科技爱好者,在当今人手一部,甚至多部手机的时代,对手机再熟悉把你认为最好看的风景图片发出来,要自己拍的哦?唱起草原的牧歌,牛羊满山坡。这个月4号,我在重庆跟团到川西红原若尔盖草原旅游了4天。最值得说的是,去了红原日干乔,来到了红原瓦切红军长征记念碑下,默默地抬头观望,红军先烈们过草地英东风新能源EX1造型小巧容易上手,续航301km,适合城市代步出行随着时代的进步,人们的生活水平的不断提高,不少人放弃了乘坐地铁和搭乘公交车而选择购买一款汽车来满足家用代步需求,而新能源小型SUV凭借着灵活的操控和实用性受到不小消费者的青睐。今天从4198元跌至2629元,12G256G120W快充,旗舰机开始跳水大家好,我是良人。现如今手机数码产品已经是大家必不可少的东西,人们都用它来购物听歌拍照刷视频刷小说打电话玩游戏等等,科技的进步,已经让人们的日常生活都离不开手机了。如此高频率地使用蓝厂承包4月发布会,一揽子新机来袭,折叠屏配置曝光蓝厂可以说要承包4月份的发布会了,vivo积攒了一大批发布的新机即将,其中就包括X80系列折叠屏手机XFold大屏旗舰XNote蓝厂首款平板以及主打游戏体验的iQOONeo6等新品雷军点名两款MIX手机,小米11悲惨跌至大米价,米粉直呼亮瞎眼今天,小米创始人CEO兼董事长雷军也在微博发起了一项调查,让网友们选出了自己12年来最喜欢的小米手机,还谈到了雷军最喜欢的设计。从网友的评论来看,他显然不认为雷军只是在追忆往事。他OPPOFindX3Pro对决iPhone13ProMax,结果证明,国产手机还需努力主打全链路10亿色彩引擎的OPPOFindX3Pro,可以说是赚足了用户的眼光,背部一体成型的热锻工艺质感十足,手感也很棒,后置双5000万IMX766大底主摄,理论拍照素质也很强