今天在做验证码识别项目的时候,一开始就碰到了一个问题,出了各种各样的报错,研究查询了很久终于解决了,在这里归纳分享一下。
在我定位验证码滑块元素的时候一直显示我定位语句错误,多次调试定位方法及路径未果,后来发现这里验证码的部分是用iframe写入的,也就是子Frame,相当于页面的子页面,它的结构与外部网页完全一致,selenium在打开网页后,默认在父级Frame里面操作,所以获取不到子Frame的节点。
这时需要用switch_to.frame()的方式切换到iframe:
from selenium import webdriver broswer = webdriver.Chrome() broswer.get('网页链接') broswer.switch_to.frame('iframe的id或者name值')
但是这里最后报错显示:NoSuchFrameException: Message: tcaptcha_iframe_dy,经过查询对比发现原来这个网页里面有两个iframe
这时候我以为定位近的一个就行了,结果很不幸,又是一样的报错,我只能再去查找原因。
我用亿图照着画了两个。
iframe有两种嵌套方式 :
1.平行嵌套
2.层级嵌套
层级嵌套需要一层一层的进入,最后再一层一层的退出,结果按照方法尝试后还是定位不到iframe,这下就又蒙了,好在只要肯查大概率就能解决问题,结合分析对比后发现,这里的iframe标签属性是动态的,直接定位iframe标签:
from selenium import webdriver from selenium.webdriver.common.by import By browser = webdriver.Chrome() browser.get("网页链接") iframe = driver.find_elements(By.TAG_NAME, "iframe")[0] broswer.switch_to.frame(iframe)
但是有意思的是我在使用时又有了新的报错:IndexError: list index out of range,这个报错有两种可能,
1、索引超出范围;
2、列表是空的没有元素,我估计也就是根本没找到这个标签,原因是这里其实是平行嵌套,但我理解错了用了层级嵌套的方法,先进入了第一个iframe,没回到Frame,所以查不到第二个标签元素。
最后代码如下
from selenium import webdriver from selenium.webdriver.common.by import By import time broswer = webdriver.Chrome() broswer.get('https://maoyan.com/board/4?offset=100') time.sleep(2) iframe = broswer.find_elements(By.TAG_NAME, "iframe")[0] broswer.switch_to.frame(iframe) # 也可以这么写 # iframe = broswer.find_elements(By.TAG_NAME, "iframe") # broswer.switch_to.frame(iframe[0]) element = broswer.find_element(By.XPATH, '//head/meta') # 获取列表元素信息 print(element.get_attribute('charset')) # 回到默认的frame broswer.switch_to.default_content() elements = broswer.find_element(By.XPATH, '//head/meta') print(elements.get_attribute('charset'))
测试成功,这里的属性内容在父frame里是大写的,子frame为小写:
作者:Yy_Rose
原文链接:https://blog.csdn.net/Yy_Rose/article/details/121682665