使用python简单封装selenium常用函数
前言
年前走查脚本代码时,发现大家对selenium功能都在重复造轮子,而且容易出现一些常见低级bug。于是在闲暇之余,封装一些常用的selenium功能。一、自动切换frame寻找元素
在某些网页中,存在多个frame嵌套。而selenium提供的find_element函数只能在当前frame中查找,不能切换到其他frame中,需要从最上级frame中逐步切换(当然也可以指定xpath的绝对路径,但是一般没人这么做)。在我们写代码过程中,需要明确知道当前frame位置和需要寻找元素的frame位置。在frame切换过程中,容易因为疏忽导致frame切换错误导致元素无法找到的bug。
页面中分布的frame,可以理解为树状结构。因此我们可以采用递归的方式,沿着某条搜索路线frame节点,依次对树中每个节点均做一次访问。
我们以163网址上的登录框为例:点击登录按钮,弹出登录iframe页面。输入框位置在iframe中,因此我们不能使用xpath获取元素位置,需要进入iframe中,然后获取元素。
点击登录按钮
输入框在iframe中
手动切换ifame可能会产生bug,因此需要一套自动切换和检索frame的机制。具体代码如下:from selenium.webdriver.common.by import By from selenium import webdriver import time def switch_to_frame(browser, *iframe): """ :param browser: :param iframe: iframe的绝对路径 :return: """ #从最上层开始逐层切入 browser.switch_to.default_content() for frame in iframe: browser.switch_to.frame(frame) def find_element(browser, xpath, *iframe, **kwargs): """ :param browser: :param xpath: 元素的xpath :param iframe: 页面中的iframe路径,在这个iframe中搜索xpath :param kwargs: 扩展值 :return: """ # 如果没指定iframe 就进入默认的iframe if not iframe: browser.switch_to.default_content() try: return browser.find_element(By.XPATH, xpath) except Exception: # 如果当前iframe中没有找到元素,则寻找当前页面所有的子iframe,在子iframe中搜寻元素 iframes = browser.find_elements(By.XPATH, "//iframe") for frame in iframes: # *(iframe + (frame,) 子iframe的绝对路径 switch_to_frame(browser, *(iframe + (frame,))) element = find_element(browser, xpath, *(iframe + (frame,))) if element: return element return None def login(browser): find_element(browser, "//a[@id="js_N_nav_login_title"]").click() time.sleep(3) ele = find_element(browser, "//input[@data-placeholder="网易邮箱/常用邮箱"]") print(ele) if __name__ == "__main__": browser = webdriver.Edge(executable_path="msedgedriver") browser.get("https://www.163.com/") try: login(browser) except Exception as e: print(e.__class__.__name__, e) browser.quit()
需要注意的是:如果页面中多个frame中,存在相同的xpath元素。还是需要指定frame的路径,否则会返回搜索到的第一个元素。二、强制等待、隐式等待和显示等待
强制等待
直接调用系统time.sleep函数,不管页面加载情况一定会等待指定的时间,即使元素已被加载 。
1.如果设置的时间较长,会浪费时间
2.如果设置的时间较短,元素可能没有加载。
隐式等待
页面中某元素如果未能立即加载,隐式等待告诉WebDriver需等待一定的时间,然后去查找元素。默认不等待,隐式等待作用于整个WebDriver周期,只需设置一次即可。
1.在上文的find_element函数中,采用递归方式在所有frame寻找元素。若采用隐式等待,则在每个frame中都需要等待设定的时间,耗时非常长。
2.某些页面我们想要的元素已经加载完毕,但是部分其他资源未加载。隐式等待必须等待所有元素加载完毕,增加额外等待时间。
显示等待
显示等待一般作用于某一个元素,在设定的时间范围内,默认每间隔0.5秒查找元素。返回被加载的元素,若超过设定的时间范围未能查找则报错。显示等待作为selenium常用的等待机制,我们来看下他的源码和机制。
WebDriverWait初始函数
driver 注释中解释为WebDriver实例,但是代码中并未有相关检测,因此可以传入任何对象 def __repr__(self): return "<{0.__module__}.{0.__name__} (session="{1}")>".format( type(self), self._driver.session_id)
但是__repr__函数中使用到session_id属性,如果需要显示属性或者转为str对象,最好在driver对象中添加session_id属性
WebDriverWait的until函数
在until函数中,我们可以看到driver对象传入method函数。在计时结束前,在不断循环执行method函数,如果method函数有正常返回值则退出循环,否则报TimeoutException错误。from selenium.webdriver.support.wait import WebDriverWait def test(): return 1 def test2(fun): print(fun) return 2+fun() if __name__ == "__main__": test.session_id = "123" print(WebDriverWait(test, 2)) e = WebDriverWait(test, 2).until(test2) print(e) 输出结果入下: 3
可以采用装饰器对隐式等待进行封装,这样代码更加精简def wait_time(fun): def wrapper(*args, **kwargs): time = kwargs.get("wait_time", 10) if time: web_element = WebDriverWait(fun, time).until(lambda x: x(*args, **kwargs)) else: web_element = fun(*args, **kwargs) return web_element return wrapper
同样的,采用装饰器对其他常用的函数进行封装,例如强制等待、点击、输入文本等。三、解除装饰器
装饰器虽然很方便,但也会产生一些麻烦。例如在find_element函数递归调用过程中,理应只要执行一次装饰器函数。但因为装饰器已经装饰完毕,导致每次递归都会执行。例如强制等待的sleep函数,如果递归次数越多等待时间越长。
解除装饰器一般有两种做法:一是约定参数,当递归第二次调用时则不生效。例如def sleep(fun): def wrapper(*args, **kwargs): first_sleep = kwargs.get("first_sleep", True) if first_sleep: kwargs["first_sleep"] = False sleep_time = kwargs.get("sleep", 0.2) time.sleep(sleep_time) result = fun(*args, **kwargs) return result return wrapper
这种方式实现简单,容易理解。但是增加了参数限制,在fun函数中就不能使用first_sleep参数。
二是采用装饰器采用wrapped实现,通过访问wrapped属性获得原始函数。例如def sleep(fun): @wraps(fun) def wrapper(*args, **kwargs): sleep_time = kwargs.get("sleep", 0.2) time.sleep(sleep_time) result = fun(*args, **kwargs) return result return wrapper
但是某一个函数被多个装饰器装饰时,需要递归解除装饰器。例如def wrapped(fun): """ 解除所有的注解 """ if "__wrapped__" in dir(fun): fun = fun.__wrapped__ fun = wrapped(fun) return fun
最后整体代码如下import datetime import time from selenium.webdriver.common.by import By from datetime import timedelta from selenium import webdriver from selenium.webdriver.remote.webelement import WebElement from functools import wraps from selenium.webdriver.support.wait import WebDriverWait def sleep(fun): @wraps(fun) def wrapper(*args, **kwargs): sleep_time = kwargs.get("sleep", 0.2) time.sleep(sleep_time) result = fun(*args, **kwargs) return result return wrapper def click(fun): @wraps(fun) def wrapper(*args, **kwargs): browser = args[0] is_click = kwargs.get("click", False) web_element = fun(*args, **kwargs) if isinstance(web_element, WebElement) and is_click: browser.execute_script("arguments[0].click();", web_element) return web_element return wrapper def send_keys(fun): @wraps(fun) def wrapper(*args, **kwargs): keys = kwargs.get("send_keys", "") web_element = fun(*args, **kwargs) if isinstance(web_element, WebElement) and keys: web_element.clear() web_element.send_keys(keys) return web_element return wrapper def wait_time(fun): @wraps(fun) def wrapper(*args, **kwargs): time = kwargs.get("wait_time", 10) if time: web_element = WebDriverWait(fun, time).until(lambda x: x(*args, **kwargs)) else: web_element = fun(*args, **kwargs) return web_element return wrapper def wrapped(fun): """ 解除所有的注解 """ if "__wrapped__" in dir(fun): fun = fun.__wrapped__ fun = wrapped(fun) return fun def switch_to_frame(browser, *iframe): #从最上层开始逐层切入 browser.switch_to.default_content() for frame in iframe: browser.switch_to.frame(frame) @sleep @click @send_keys @wait_time def find_element(browser, xpath, *iframe, **kwargs): # 如果没指定iframe 就进入默认的iframe if not iframe: browser.switch_to.default_content() try: return browser.find_element(By.XPATH, xpath) except Exception: iframes = browser.find_elements(By.XPATH, "//iframe") for frame in iframes: switch_to_frame(browser, *(iframe + (frame,))) element = wrapped(find_element)(browser, xpath, *(iframe + (frame,))) if element: return element return None def login(browser): # 2.通过浏览器向服务器发送URL请求 browser.get("http://192.168.*.*/") find_element(browser, "//*[@id="loginName"]", send_keys="*****") find_element(browser, "//*[@id="password"]", send_keys="*****") find_element(browser, "//*[@id="login"]", click=True) find_element(browser, "//a[text()="项目个人任务"]", click=True) if __name__ == "__main__": browser = webdriver.Edge(executable_path="msedgedriver") browser.maximize_window() try: login(browser) finally: time.sleep(6) browser.quit()结束语
这次的封装其实还存在很多问题
1.find_element函数不仅仅只是提供查找元素功能,还提供一些其他功能,因此叫element_operation更为合适。
2.find_element函数的参数过多,并且很多参数的使用并不在函数本身中,对代码阅读很不友好。
3.得小心避免参数重复问题,假设装饰器sleep和装饰器wait_time都使用time这个参数,将无法区分具体是哪个函数使用。
4.不利于扩展和维护,当功能过多时find_element的参数过于庞大。
如果只是简单地封装和使用,上面这种方式也能达到较好的效果。如果想进一步封装,建议采用链式调用方式,装饰器辅助封装。例如 find_element(browser, "//*[@id="login"]") .sleep(3) .click() .send_keys("123456")
这样函数的扩展性和可阅读性有较大的提升