Python爬虫几个步骤教你写入mysql数据库

爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

Python爬虫几个步骤教你写入mysql数据库

　　Python爬虫几个步骤教你写入mysql数据库
　　Python爬虫实现爬取网站中的数据并存入MySQL数据库中，在爬取的时候总要涉及到数据持久化存储，当然有很多中存储的方式，简单点的有excel、txt、json、csv等等。存入mysql我觉的有好多操作空间，如果是开发python后端也可以熟悉一下sql语句，存入数据库的方法也是试了些许网上一些方法，现在把完整功能供大家参考。
　　直接搜索phpStudy安装即可，按照下图配置数据库。用户名密码自行设置，然后返回首页启动即可。
　　pipinstallpymysql
　　打开刚安装的phpstudy安装一个mysql客户端连接，数据库是本地的host可以填127。0。0。1或localhost用户名密码是上面设置的
　　MySQL创建对应的表CREATETABLEtextarchives（idint（10）UNSIGNEDNOTNULLAUTOINCREMENTCOMMENTID，urlvarchar（255）CHARACTERSETutf8mb4COLLATEutf8mb4unicodeciNOTNULLDEFAULTCOMMENT链接，titlevarchar（255）CHARACTERSETutf8mb4COLLATEutf8mb4unicodeciNOTNULLDEFAULTCOMMENT标题，imagevarchar（255）CHARACTERSETutf8mb4COLLATEutf8mb4unicodeciNOTNULLDEFAULTCOMMENT图片，keywordsvarchar（255）CHARACTERSETutf8mb4COLLATEutf8mb4unicodeciNOTNULLCOMMENT关键描述，descriptionvarchar（600）CHARACTERSETutf8mb4COLLATEutf8mb4unicodeciNOTNULLDEFAULTCOMMENT内容描述，contenttextCHARACTERSETutf8mb4COLLATEutf8mb4unicodeciNULLCOMMENT内容，weighint（10）NOTNULLDEFAULT0COMMENT权重，createtimebigint（16）NOTNULLDEFAULT0COMMENT创建时间，updatetimebigint（16）NOTNULLDEFAULT0COMMENT更新时间，deletetimebigint（16）NULLDEFAULTNULLCOMMENT删除时间，PRIMARYKEY（id）USINGBTREE）ENGINEInnoDBAUTOINCREMENT2692CHARACTERSETutf8mb4COLLATEutf8mb4unicodeciCOMMENT内容表ROWFORMATDynamic；SETFOREIGNKEYCHECKS1；
　　构造SQL语句的字符串sql，然后通过cursor。excute（sql）执行，下面简单的封装，直接复制即可用。importpymysqlclassMysql（object）：definit（self）：self。connectpymysql。connect（host127。0。0。1，usertest，password，databasetest，charsetutf8mb4，cursorclasspymysql。cursors。DictCursor）self。cursorself。connect。cursor（）definsetdb（self，tablename，insertdata）：try：dataself。getmysqldata（datainsertdata）fieldsdata〔0〕valuesdata〔1〕sqlINSERTINTO｛tablename｝（｛fields｝）values（｛values｝）。format（tablenametablename，fieldsfields，valuesvalues）self。cursor。execute（sql）self。connect。commit（）exceptExceptionase：self。connect。rollback（）如果这里是执行的执行存储过程的sql命令，那么可能会存在rollback的情况，所以这里应该考虑到print（数据插入失败，失败原因：，e）print（insertdata）else：self。dbclose（）returnself。cursor。lastrowiddefupdatedb（self，tablename，updatedata，wheresNone）：try：ifwheresisnotNone：sqlUPDATE｛tablename｝SET｛updatedata｝WHERE｛wheres｝。format（tablenametablename，updatedataupdatedata，whereswheres）else：sqlUPDATE｛tablename｝SET｛updatedata｝。format（tablenametablename，updatedataupdatedata）self。cursor。execute（sql）self。connect。commit（）exceptExceptionase：print（更新失败：，e）returnFalseelse：self。dbclose（）returnTruedefdeletedb（self，tablename，wheres）：try：构建sql语句sqlDELETEFROM｛tablename｝WHERE｛wheres｝。format（tablenametablename，whereswheres）self。cursor。execute（sql）self。connect。commit（）exceptExceptionase：print（删除失败：，e）returnFalseelse：self。dbclose（）returnTruedefselectdb（self，tablename，fields，wheresNone，getoneFalse）：try：ifwheresisnotNone：sqlSELECT｛fields｝FROM｛tablename｝WHERE｛wheres｝。format（fieldsfields，tablenametablename，whereswheres）else：sqlSELECT｛fields｝FROM｛tablename｝。format（fieldsfields，tablenametablename）self。cursor。execute（sql）self。connect。commit（）ifgetone：resultself。cursor。fetchone（）else：resultself。cursor。fetchall（）exceptExceptionase：print（查询失败，e）returnNoneelse：self。dbclose（）returnresultdefgetmysqldata（self，data）：fieldsinsertdatafork，vindata。items（）：fieldsfieldsk，insertdatainsertdatastr（v），fieldsfields。strip（，）insertdatainsertdata。strip（，）return〔fields，insertdata〕defdbclose（self）：self。cursor。close（）self。connect。close（）
　　这次简单点咱们用xpath就行，有一个小技巧咱们在爬取的网页打开开发都模式F12。如下图红框复制第一个或都第二个就行。
　　下面代码是实现爬取数据然后存入数据库类，大家可参考frommodel。navimportNavimportrequestsfromurllibimportparsefromlxmlimportetreefromfakeuseragentimportUserAgentfromlib。reptileimportReptileimportjsonclassCommon（object）：definit（self，params）：self。urlparams〔url〕self。paramsparamsself。blog1defgetheader（self）：uaUserAgent（）headers｛UserAgent：ua。random｝returnheadersdefgethtml（self，url）：在超时间内，对于失败页面尝试请求三次ifself。blog3：try：resrequests。get（urlurl，headersself。getheader（），timeout3）res。encodingres。apparentencodinghtmlres。textreturnhtmlexceptExceptionase：print（e）self。blog1self。gethtml（url）defjsoninsertdata（self，params）：categoryidself。insertcategory（cnameparams〔categoryname〕，pidparams〔pid〕，icon）print（分类插入成功：｛｝。format（params〔categoryname〕））ifcategoryid：urlparams〔url〕titleparams〔title〕imageparams〔image〕descriptionparams〔description〕keywordsparams〔keywords〕contentparams〔content〕self。insertarchives（categoryid，url，title，image，description，keywords，content）print（内容插入成功：｛｝。format（title））print（）defgetitem（self，xpathhtml）：itemlistxpathhtml。xpath（self。params〔itemxpath〕）print（itemlist）forrowinitemlist：urllistrow。xpath（self。params〔urlxpath〕）iflen（urllist）0：self。getcontent（urllist〔0〕）defgetcontent（self，url）：print（正在抓取链接：｛｝。format（url））domainparse。urlparse（url）。netlocddomainparse。urlparse（self。url）。netlocifdomainddomain：htmlself。gethtml（url）self。reptile。blog1ifhtml：petree。HTML（html）titleself。getconmoncontent（p，self。params〔titlexpath〕）print（标题为：｛｝。format（title））categorynameself。getconmoncontent（p，self。params〔categoryxpath〕）print（分类为：｛｝。format（categoryname））imageself。getconmoncontent（p，self。params〔imagexpath〕）print（图片为：｛｝。format（image））linkself。getconmoncontent（p，self。params〔linkxpaht〕）print（链接为：｛｝。format（link））descriptionself。getconmoncontent（p，self。params〔descriptionxpath〕）print（描述为：｛｝。format（description））keywordsself。getconmoncontent（p，self。params〔keywordsxpath〕）print（关键描述：｛｝。format（keywords））contentself。getconmoncontent（p，self。params〔contentxpath〕）print（内容为：｛｝。format（content））params｛pid：158，title：title，categoryname：categoryname，image：image，url：link，description：description，keywords：keywords，content：content，｝iftitleandcategorynameandlink：self。jsoninsertdata（params）存入数据库defgetconmoncontent（self，xpathhtml，xpath）：contentlistxpathhtml。xpath（xpath）contentiflen（contentlist）0：contentcontentlist〔0〕。strip（）returncontentdefrun（self）：print（url：｛｝。format（self。url））htmlself。gethtml（self。url）ifhtml：petree。HTML（html）self。getitem（p）爬取的xpathparams｛url：https：www。widiz。com，爬取urlurlxpath：。a〔1〕href，titlexpath：htmlbodyp〔1〕p〔2〕p〔3〕pp〔3〕ph1text（），categoryxpath：htmlbodyp〔1〕p〔2〕p〔3〕pp〔3〕pa〔1〕text（），imagexpath：htmlbodyp〔1〕p〔2〕p〔3〕pp〔2〕pimgsrc，linkxpaht：htmlbodyp〔1〕p〔2〕p〔3〕pp〔3〕ppp〔1〕spanahref，descriptionxpath：htmlheadmeta〔10〕content，keywordsxpath：htmlheadmeta〔5〕content，contentxpath：htmlbodyp〔1〕p〔2〕p〔3〕mainp〔1〕pp〔1〕pp〔2〕text（）｝Common（params）。run（）
　　最终效果：

72岁老戏骨我这辈子最正确的决定，就是在61岁高龄做了妈妈她是人世间中绵里藏针洞察秋毫的丈母娘她是红岩中坚贞不渝的江姐她是九香里含辛茹苦的母亲，一个舔碗的镜头让人久久不能忘怀她是巡回检查组里为儿鸣冤的疯婆婆，感人至深，催人泪下。出道40多2016年浙江农民翻修老宅时，竟挖出南宋红棺，打开棺内有绫罗绸缎为了您更好的阅读互动体验，为了您及时看到更多内容，点个关注，我们每天为您更新精彩故事分享不一样的历史瞬间！2016年5月初，台州市黄岩区屿头乡一处寻常的小山村，前礁村。往日的平静被央媒批评狂耍大牌无视法律，这5位频频翻车的明星该消停了文楠楠编辑楠楠希望这是第一次，也是最后一次。从艺路上任重道远，德为先。这是前几年吴谨言耍大牌，对待工作不认真，被央视电影频道发文痛批的原话。吴谨言，名为谨言慎行，应该是一个低调行事沙特超1伊蒂哈德丢掉榜首北京时间3月10日凌晨1点30分，202223赛季沙特足球超级联赛第20轮进行一场榜首大战，利雅得胜利客场挑战伊蒂哈德。比赛中，罗马里尼奥打进制胜进球，C罗在补时阶段错失扳平比分的台军士兵冒死出逃游向中国大陆，因体力不支被厦门海警救起！近日，一名台军士兵冒死出逃，疑是打算只身游往祖国大陆，结果体力不支，所幸被厦门海警及时救起。台当局海巡部门声称正在与厦门海警部门积极接洽，希望尽早交还这名士兵！据华夏经纬网3月1021！U20亚洲杯日本头名出线，卫冕冠军小组出局，中国第2晋级！北京时间2023年3月9日U20亚洲杯小组赛第3轮迎来最后的较量，D组第1的日本对阵第3的沙特阿拉伯。日本37次参加U20亚洲杯赛事，最好成绩是2016年的冠军，另外他们还获得6次沃尔沃中国公开赛公布赛程，深圳11月初迎回高尔夫盛会8日，中国高尔夫球协会与沃尔沃中国公开赛联合宣布2023年沃尔沃中国公开赛及旗下沃尔沃全国青少年锦标赛沃尔沃中国公开赛资格赛的日程安排。2023年沃尔沃中国公开赛将于11月2日至1谁说中国男足是亚洲五流？在亚洲杯他们以第二档抽签，你们相信吗以前大家都在骂中国男足，认为他们在世界只是不入流的球队，非要整一个档次，可能他们也是七流，在亚洲也是五流，可是最近亚足联分了一个档次，居然把中国男足定成第二档，也就是二流水平，你们20，61000球迷见证！迪巴拉送助攻，中超旧将破门，穆帅剑指冠军北京时间3月10日凌晨，欧联杯16强淘汰赛打响，罗马坐镇奥林匹克球场对阵西甲的皇家社会。上半场，亚伯拉罕助攻沙拉维打破僵局，久保建英小角度打门击中立柱。下半场，贝洛蒂抽射击中门框，中国男人的足球还行不？中国的足球是圆的，兜兜转转许多年，醒来还是在原地。昨晚男足U20进入亚洲杯8强，各大媒体纷纷报道称赞，也给近段足球反腐氛围沏入一股清流，中国男足到底行不行？我一直关注着中国足球运动湖人交易詹姆斯两条理由39岁拿4400万破坏体系妨碍戴维斯带队赢球洛杉矶时报记者乔万布哈最新报道，现在这支湖人队交易勒布朗詹姆斯才是组建总冠军球队的正确选择，这是从篮球技术层面考虑，暂时忽略詹姆斯作为全明星票王的影响力。美国体育界知名主持人斯蒂芬

<<<<<<－>>>>>>

发券让利上新成都年末消费活力足消费是经济增长的持久动力，日前召开的中央经济工作会议将着力扩大国内需求作为明年经济工作首要任务，并敲定了具体路线。发放文旅惠民畅游券举行系列美食体验活动推出超亿元消费让利元旦春节将年糕带你环游世界第三十站厄瓜多尔目的地名称厄瓜多尔共和国目的地位置南美洲北部国土面积25。6万平方公里首都基多主要民族印欧混血种人印第安人白种人穆拉托人黑种人国旗厄瓜多尔共和国国旗长宽比为21，国旗底色为黄色红色文旅复苏，西安如何打好IP王炸？近日，长安十二时辰大唐不夜城唐文化全景展示创新实践项目成功入选文化和旅游部2022年度文化和旅游最佳创新成果。随着政策的调整和经济的复苏，西安的文旅产业也将迎来新的发展机遇。文旅产冬日傲雪平庆美的惊人！冬天一到，大家是不是就准备猫冬了对于没有经历过华丽冬日的人来说每一个冬季都极其平庸看着外面萧瑟的景象你的身体是不是是不是日渐懒惰了你知道完美的冬季藏在哪里吗完美的冬季，藏在诗和远方八条通道！重庆发布飞鸟猛禽迁徙行踪随着气温逐渐降低，又到了候鸟越冬的季节。近日，市林业局首次发布重庆候鸟迁徙路线示意图，这些远道而来的贵客，将在重庆经历一段什么样的旅程？一起来看看。在本次发布的重庆候鸟迁徙路线示意塞舌尔地球上最后的伊甸园，一个适合退休养老的天堂岛国15世纪初，郑和率领庞大的船队7次下西洋，当船队航行到东非海岸时，在肯尼亚东北部海滨的拉穆群岛遗留了一批中国古代瓷器，见证了历史上海路的交流。而郑和船队在到达东非前，应该会途径一处玩转武夷阳康们做好准备，这场旅行一定要还给自己！阳康之后的第一件事一定是去旅行！去大口呼吸新鲜的空气！爱上旅行的原因有很多有人是为了拍摄美好风景有人是为了寻觅舌尖上的美食有人是为了探索自然的奥秘有人是为了远离城市度个假而已那么，逛摩洛哥海鲜市场，发现世界上最会烹饪海鲜的还得是东亚人全球之旅我在摩洛哥大家好，我是申典启，一个实地走访世界各地，关注全球华人的旅行者。抵达摩洛哥北部城市，丹吉尔。1，丹吉尔老城，主色调白色在丹吉尔待了四天，说实话整个老城非常小，几乎乾隆退位时不愿交出玉玺，刘墉在他耳边说了8个字，他立马交出乾隆是我国历史上著名的长寿皇帝，在皇帝的平均年龄只有39岁的封建社会，他活了88岁，难怪他会自称为十全老人，用来炫耀自己的高寿。原本他可以成为我国历史上在位时间最长的皇帝，但是在他1962年印度战败后，出兵占领了一块尼泊尔领土印度是南亚地区最大的国家，分别和我国巴基斯坦孟加拉国等多个国家接壤，首都为新德里。印度和巴基斯坦孟加拉国，历史上都是英属印度的一部分，1947年印巴分治后，印度继承了英属印度大部分为何杭州财政收入可以排名全国省会城市第一位！如果说GDP只是字面上的广义国民生产总值，而财政收入才是货真价实的实力担当，扛把子。举一个简单例子，如果说GDP是销售收入，那么说财政收入就是净利润，它才是真正的中流砥柱。如图所示

友情链接：快好找快生活快百科快传网中准网文好找聚热点快软网