范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

Python批量采集B站美女内容并把音频数据和画面内容合并保存

  前言
  嗨喽,大家好呀!这里是魔王呐~
  环境使用:Python 3.8  Pycharm  ffmpeg
  软件的使用 合成视频和音频 需要找wo 领取  模块使用:import requests >>> pip install requests  内置模块
  你安装好python环境就可以了  import re  import json  import subprocess  Python的应用学习方向有哪些?网站开发:
  如目前优秀的全栈的 django、框架flask ,都继承了python简单、明确的风格,开发效率高、易维护,与自动化运维结合性好。
  python已经成为自动化运维平台领域的事实标准;
  python开发的网站:
  豆瓣 , Youtube , Dropbox , 豆瓣...等等  爬虫程序
  在爬虫领域,Python几乎是霸主地位,将网络一切数据作为资源,通过自动化程序进行有针对性的数据采集以及处理。
  从事该领域应学习爬虫策略、高性能异步IO、分布式爬虫等,并针对Scrapy框架源码进行深入剖析,从而理解其原理并实现自定义爬虫框架。  数据分析
  Python语言相对于其它解释性语言最大的特点是其庞大而活跃的科学计算生态,
  在数据分析、交互、可视化方面有相当完善和优秀的库.  自动化脚本
  执行许多重复的任务,例如阅读 pdf、播放音乐、查看天气、打开书签、清理文件夹等等,
  使用自动化脚本就无需手动一次又一次地完成这些任务,非常方便。  人工智能
  各种人工智能算法都基于Python编写,尤其PyTorch之后,Python作为AI时代头牌语言的位置基本确定。
  游戏开发/辅助 自动化测试 运维  基本四大步骤:发送请求  获取数据  解析数据  保存数据
  完整代码import requests  # 数据请求模块 import re  # 正则表达式模块 import json  # 序列化与反序列化 import pprint  # 格式化输出模块 import subprocess import os  # 文件操作模块   def get_response(html_url):     """     发送请求函数         模拟浏览器对于url地址发送请求, 获取服务器返回响应数据         请求头headers是用来伪装             user-agent: 用户代理 表示浏览器基本身份标识     :param html_url: 要请求网址是什么     :return: response 服务器返回响应数据     """     headers = {         "referer": "https://www.bilibili.com/",         "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36"     }     response = requests.get(url=html_url, headers=headers)  #  响应对象     # 200 状态码 表示请求成功     # print(response)     return response   def get_video_info(html_url):     """     获取视频信息函数     def 关键字 用自定义函数 get_video_info函数名 html_url 形式参数 <不具备实际意义>     :param html_url: 传入视频播放页面url地址     :return: 视频信息      正则表达式提取数据:         re.findall() 需要给这个括号里面传两个基本参数             从什么地方去找什么样数据         re.findall("

", response.text) 从response.text里面去找

这段数据 这段数据中 (.*?) 这段就是我们想要数据 .*?表示匹配任意字符(除了换行符 以外) 正则表达式 全部掌握, 系统学习2.5个小时 列表 list 正则匹配出来的数据返回列表 <作为文件名数据保存, 都是要字符串数据> [0] 取列表里第一个元素 """ response = get_response(html_url=html_url) # print(response.text) # 网页源代码 js逆向需要你掌握JavaScript基础语法 title = re.findall("

", response.text)[0].replace(" ", "") html_data = re.findall("", response.text)[0] # print(title) # print(html_data) # print(type(html_data)) # type内置函数, 可以查看数据类型 json_data = json.loads(html_data) # print(json_data) # print(type(json_data)) # pprint.pprint(json_data) # 字典取值好处: 键值对取值 根据冒号左边内容<键>, 提取冒号右边内容<值> """ 源码、解答、教程、资料加Q群:832157862 dit = { "键1": "值1", "键2": "值2", } dit["键2"] >>> "值2" jsonpath """ audio_url = json_data["data"]["dash"]["audio"][0]["baseUrl"] video_url = json_data["data"]["dash"]["video"][0]["baseUrl"] # print(title) # print(audio_url) # print(video_url) video_info = [title, audio_url, video_url] return video_info def save(title, audio_url, video_url): """ 保存数据函数 :param title: 视频标题 :param audio_url: 音频url :param video_url: 视频url :return: """ # 调用前面定义好的数据请求函数 audio_content = get_response(html_url=audio_url).content # 获取视频和音频二进制数据内容 video_content = get_response(html_url=video_url).content # wb二进制写入数据 with open("video" + title + ".mp3", mode="wb") as f: # 保存数据, 保存数据前提是得获取数据 f.write(audio_content) with open("video" + title + ".mp4", mode="wb") as f: # 保存数据, 保存数据前提是得获取数据 f.write(video_content) print(title, "保存成功") #  合并视频 需要 ffmpeg软件 找木子获取 cmd = f"D:demoffmpegbinffmpeg.exe -i video{title}.mp4 -i video{title}.mp3 -c:v copy -c:a aac -strict experimental video{title}output.mp4" subprocess.run(cmd, shell=True) os.remove(f"video{title}.mp4") os.remove(f"video{title}.mp3") def main(bv_id): """ 主函数 整合前面所有定义好的函数 :param bv_id: 视频bv号 视频ID :return: """ link = f"https://www.bilibili.com/video/{bv_id}" video_info = get_video_info(html_url=link) # 调用获取视频信息函数 返回数据是什么? save(video_info[0], video_info[1], video_info[2]) # 保存函数 if __name__ == "__main__": # 函数入口 当文件运行时的时候下面的代码块会被执行 # 当文件被当作模块被调用的时候, 下面的代码不会执行 # print("hello") # bv = input("请输入你想要下载视频BV号: ") for page in range(1, 7): index_url = f"https://api.bilibili.com/x/space/arc/search?mid=487939159&ps=30&tid=0&pn={page}&keyword=&order=pubdate&jsonp=jsonp" json_data = get_response(html_url=index_url).json() # pprint.pprint(json_data) bv_id_list = [i["bvid"] for i in json_data["data"]["list"]["vlist"]] title_list = [i["title"] for i in json_data["data"]["list"]["vlist"]] print(bv_id_list) print(title_list) # for bv_id in bv_id_list: # main(bv_id=bv_id)   尾语   成功没有快车道,幸福没有高速路。   所有的成功,都来自不倦地努力和奔跑,所有的幸福都来自平凡的奋斗和坚持   愿所有美好如期而至,以后的生活不将就,也不辜负。   ——励志语录   本文章就写完啦~感兴趣的小伙伴可以复制代码去试试   你们的支持是我最大的动力!!感谢陪伴~   记得三连哦~ 欢迎大家阅读往期的文章呀


iOS15。4。1在iPhone12ProMax上的使用体验是拉跨还是经典前言为了解决iOS15。4正式版本它可能带来的续航问题,iPhone手机在2022年4月1号,推送了iOS15。4。1系统的更新,我们今天就和大家一起聊一聊,在iPhone12Pr意想不到!联合国难民署公然接受币安加密货币的捐赠联合国最近有史以来第一次接受加密货币捐赠,究竟是站队了,还是?大家知道,早在去年,联合国就发文表示2021年6月20日,联合国官网发文可持续解决方案还是气候灾难?加密货币技术的危险有哪些没有十年以上网龄就不会知道的事情?某次的计算机考试题目里有过这样一道题,今天你有否亿唐是哪家网站的广告语?很简单的题,后来每逢想起都无限唏嘘。曾经有一家辉煌一时的门户网站因忘记续费导致域名遭抢注,后几经波折才得以赎封面评论网络募捐平台开启收费,在商言商不妨坦坦荡荡蒋璟璟近期不少网友反馈称,多家互联网大病筹款平台向捐款者收取支持费,甚至捐款1元也被收取3元。记者在多个大病筹款平台测试发现,收取支持费逐渐成为行业惯例。此外,还有相关平台近期在部五部门发布新能源汽车企业安全体系指导意见据工信部8日消息,近日,工业和信息化部公安部交通运输部应急管理部市场监管总局五部门联合发布了关于进一步加强新能源汽车企业安全体系建设的指导意见(下称意见)。工信部装备工业一司发布的高通骁龙8Gen2曝光年初,高通CEO安蒙就在媒体交流中确认,下一代旗舰手机处理器会是骁龙8Gen2。站宝数码闲聊站在最新爆料中透露,今年的SM8475(骁龙8Gen1Plus)最快二季度能看到,SM8空调推荐换了家里的老空调,终于能睡个好觉了终于解放啦,这几天南方又热了,中午休息不开空调根本睡不着。不知道你们有没有人和我一样,我是属于那种有一点动静就睡不着,而且睡眠很浅的人。我们家里之前的空调有点老了,我爸妈很早以前买iPhone14最新CAD外观渲染图曝光,双挖孔设计,边框更薄苹果在上个月举行的春季新品发布会上推出了新款低价版iPhone手机iPhoneSE3手机以及全新配色的iPhone13系列手机。对于iPhoneSE3手机来说其亮点在于硬件配置以及苹果耳机全新配色渲染图曝光,iPhone12跌至白菜价,爱疯史无前例近日,欧洲媒体曝光了AppleBeatsStudioBuds耳机的三个新品版本月灰海洋蓝和日落粉,同时有媒体称这三种新配色已在当地上市。目前尚不清楚这三款新配色是否会在中国市场发售iOS15。4更新续航大翻车曝光,iPhone12让路新机跌至爱疯价4月8日上午,苹果于上月31日发布了iOS15。4。1系统,目前苹果已经关闭了iOS15。4老版本的验证通道。这意味着如果您已经更新到iOS15。4。1或最新的iOS15。5测试版motoedgeS30更多消息出炉,edgeS低至百元一夜成弃机4月8日消息,今日,摩托罗拉手机官方宣布,motoedgeS30手机正式发布MYUI3。0系统更新。值得一提的是,由于MotoedgeS30新机的曝光,导致MotoedgeS价格持
1分钟搞懂什么是JS代理对象(proxies)今天我们将尝试下花1分钟的时间简单地了解下什么是JS代理对象(proxies)?我们可以这样理解,JS代理就相当于在对象的外层加了一层拦截,在拦截方法里我们可以自定义一些个性化的逻中汽协9月新能源汽车销量35。7万辆,市场渗透率17。3新京报贝壳财经讯(记者王琳琳)10月12日,中国汽车工业协会披露9月新能源汽车产销数据情况。9月,新能源汽车产销分别完成35。3万辆和35。7万辆,同比均增长1。5倍今年19月,新现实中如果遇到王多鱼那种情况,一个月能花完十个亿吗?如果我是王多鱼的话,我很有可能完不成这项任务,因为王多鱼之所以能够把这笔钱花出去,是因为时机得到极度巧妙地运用。你不会真的以为普通人花掉10亿是一件很容易的事情吧?不会,理论上来说科技开放合作带来互利共赢前不久,中国平方公里阵列射电望远镜正式启动。这是我国参与国际大科学工程的又一典型代表。这项射电天文学领域的巨大工程,由政府间国际组织平方公里阵列天文台负责建设运行,我国作为发起者倡山东林安物流信息管理系统面临的问题及建议专业技术人员不足。虽然我国已经全面进入到大数据时代,信息数据领域也得到了很大的发展是实际上在物流行业从事信息管理的人才还是相对较少的,大部分信息化数据人才都留在了一些信息行业中,进胡玮炜套现15亿走人戴威负债离场,为何后入场的杨磊却笑到最后?他做过代驾平台智慧停车,却在创业初期就被投资巨头以过亿价格收购了项目,后来又在共享单车红黄大战最焦灼的时候冒险入局,被众人嘲笑等着看他怎么死。让人意外的是,他不仅没死,反而在混乱中家里有宽带,有各种盒子,电视是智能的,没有必要保留有线电视了吗?看电视的三种主要方式广电的有线电视运营商的IPTV智能电视或者网络盒子(OTT盒子)。这三种方式均有固定的人群,有线电视操作简单适合老年人运营商的IPTV盒子办宽带免费送,基本上涵上海作为经济之都为什么出不了像阿里腾讯美的和华为等这种行业内领先的民营企业?谢邀!其实首先,根源还是在于上海的金融太发达了,发达到盖过了其他产业的风光,这也让上海在互联网以及科技硬件产品上并没有那么大的热情和精力。除此之外我们知道金融赚钱也是比较轻松的,依五角大楼前软件主管评中美人工智能之战中国已赢亚太日报丁宁来自路透社在伦敦的报道称,10月11日,五角大楼的前软件主管告诉金融时报,中国已经赢得了与美国的人工智能之战,并正因其科技的迅速发展而走向全球主导地位。根据西方世界的情iPhone14Pro渲染图来了药丸挖孔丨多家企业捐款驰援山西按照每年的惯例,9月份新iPhone发布完毕之后,没过多久网上就会出现关于下一代iPhone的爆料。不出意外,iPhone13系列发售后,近日网上就出现了iPhone14Pro的渲华为的5G手机内销的部分是不是可以不用高通的标准呢,你怎么看?谢谢邀请。首先,我对联想投国外企业5G的支持票坚决反对,使我国失去了5G话语权,意味将给美国更多的专利费,非常愤怒联想。关于华为手机5G完全可以不用高通的标准,我们中华14亿儿女有