Selenium+Tesseract-OCR智能识别验证码爬取网页数据的实例
更新时间:2021年9月27日 16:01 点击:1430
1.项目需求描述
通过订单号获取某系统内订单的详细数据,不需要账号密码的登录验证,但有图片验证码的动态识别,将获取到的数据存到数据库。
2.整体思路
1.通过Selenium技术,无窗口模式打开浏览器
2.在输入框中动态输入订单号
3.将图片验证码截图保存到本地
4.通过Tesseract-OCR技术去本地识别验证码转化为文字
5.将获取的验证码输入输入框
6.点击查询获取列表数据
3.功能实现
1.下载并安装Google浏览器,安装Google驱动chromedriver.exe,获取安装路径,配置在项目中
2.使用Selenium进行浏览器操作
System.setProperty(浏览器驱动, 浏览器驱动安装位置); ChromeOptions options = new ChromeOptions(); options.addArguments("--headless"); // 无窗口模式 options.addArguments("--disable-infobars"); // 禁言消息条 options.addArguments("--disable-extensions"); // 禁用插件 options.addArguments("--disable-gpu"); // 禁用GPU options.addArguments("--no-sandbox"); // 禁用沙盒模式 options.addArguments("--disable-dev-shm-usage"); options.addArguments("--hide-scrollbars"); // 隐藏滚动条 WebDriver driver = new ChromeDriver(options); driver.get(爬取网站URL); driver.manage().window().setSize(new Dimension(450, 260)); // 设置游览器打开后调整大小 try { // 保存IMG图片到本地 saveImgToLocal(driver); Thread.sleep(2000); // OCR智能识别验证码 String codeByOCR = getCodeByOCR(); if (codeByOCR != null) { try { WebElement input1 = driver.findElement(By.id(TEXTBOX1)); input1.sendKeys(code); WebElement input2 = driver.findElement(By.id(TEXTBOX2)); input2.sendKeys(codeByOCR); // 获取table数据 WebElement addButton = driver.findElement(By.id(SELECT_BUTTON)); addButton.click(); List<WebElement> tRCollection = driver.findElement(By.id(TABLE_ID)).findElements(By.tagName("tr")); for (int t = 1; t < tRCollection.size(); t++) { List<WebElement> tDCollection = tRCollection.get(t).findElements(By.tagName("td")); VipLogisticsMinHangDetailVo minHangDetailVo = new VipLogisticsMinHangDetailVo(); minHangDetailVo.setLogistics_number(code); for (int i = 0; i < tDCollection.size(); i++) { String text = tDCollection.get(i).getText(); switch (i) { case 0: minHangDetailVo.setTime(text); case 1: minHangDetailVo.setOutlet(text); case 2: minHangDetailVo.setOrganization(text); case 3: minHangDetailVo.setEvent(text); case 4: minHangDetailVo.setDetail(text); } } list.add(minHangDetailVo); } log.info("验证码识别成功!"); } catch (Exception e) { if (e.toString().contains("错误提示:验证码错误或已过期!")) { log.error("验证码识别错误!" + e.toString()); } else if (e.toString().contains("错误提示:请输入验证码!")) { log.error("未输入验证码!:" + e.toString()); } else { log.error("其他异常:" + e.toString()); } } } driver.quit(); } catch (Exception e) { e.printStackTrace(); }
3.将图片验证码截图保存到本地(截屏法)
private void saveImgToLocal(WebDriver driver) { WebElement element = driver.findElement(By.id(img元素ID)); //创建全屏截图 WrapsDriver wrapsDriver = (WrapsDriver) element; File screen = ((TakesScreenshot) wrapsDriver.getWrappedDriver()).getScreenshotAs(OutputType.FILE); try { BufferedImage image = ImageIO.read(screen); //创建一个矩形使用上面的高度,和宽度 Point p = element.getLocation(); //元素坐标 BufferedImage img = image.getSubimage(p.getX(), p.getY(), element.getSize().getWidth(), element.getSize().getHeight()); ImageIO.write(img, "png", screen); FileUtils.copyFile(screen, new File(保存本地地址 + "imgname.png")); } catch (IOException e) { e.printStackTrace(); } }
4.将图片验证码保存到本地(鼠标法)
private static void saveImgToLocal1(WebDriver driver) { Actions action = new Actions(driver); action.contextClick(driver.findElement(By.id(img元素ID))).build().perform(); try { Robot robot = new Robot(); Thread.sleep(1000); robot.keyPress(KeyEvent.VK_DOWN); Thread.sleep(1000); robot.keyPress(KeyEvent.VK_DOWN); Thread.sleep(1000); robot.keyPress(KeyEvent.VK_ENTER); Thread.sleep(1000); //释放向下键,不然在此之前的条目将起作用 robot.keyRelease(KeyEvent.VK_DOWN); Thread.sleep(1000); //运行保存 Runtime.getRuntime().exec(SAVE_IMG_EXE); Thread.sleep(10000); } catch (Exception e) { e.printStackTrace(); } }
5.对本地验证码进行OCR识别
private String getCodeByOCR() { String result = null; File file = new File(本地图片地址); if (!file.exists()) { if (systemFalg != 1) { file.setWritable(true, false); } file.mkdirs(); } File imageFile = new File(本地图片地址 + "imgname.png"); if (imageFile.exists()) { ITesseract instance = new Tesseract(); instance.setDatapath(tessdata存放地址); try { String doOCR = instance.doOCR(imageFile); result = replaceBlank(doOCR); log.info("解析的验证码为:{}", result != null ? result : "为空!"); } catch (Exception e) { e.printStackTrace(); log.error("解析验证码异常!"); } } else { log.error("解析验证码的文件不存在!"); } return result; }
综上,该网页的数据就可以获取了。
到此这篇关于Selenium+Tesseract-OCR智能识别验证码爬取网页数据的实例的文章就介绍到这了,更多相关Selenium+Tesseract-OCR智能识别验证码爬取 内容请搜索猪先飞以前的文章或继续浏览下面的相关文章希望大家以后多多支持猪先飞!
相关文章
- 最近想自学PHP ,做了个验证码,但不知道怎么搞的,总出现一个如下图的小红叉,但验证码就是显示不出来,原因如下 未修改之前,出现如下错误; (1)修改步骤如下,原因如下,原因是apache权限没开, (2)点击打开php.int., 搜索extension=ph...2013-10-04
- 这篇文章主要为大家详细介绍了JS实现随机生成验证码,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...2021-09-06
jQuery Real Person验证码插件防止表单自动提交
本文介绍的jQuery插件有点特殊,防自动提交表单的验证工具,就是我们经常用到的验证码工具,先给大家看看效果。效果图如下: 使用说明 需要使用jQuery库文件和Real Person库文件 同时需要自定义验证码显示的CSS样式 使用实例...2015-11-08- 通过jquery.cookie.js插件可以快速实现“点击获取验证码后60秒内禁止重新获取(防刷新)”的功能效果图:先到官网(http://plugins.jquery.com/cookie/)下载cookie插件,放到相应文件夹,代码如下:复制代码 代码如下: <!DOCTYPE ht...2015-03-15
- 这篇文章主要介绍了Python爬取微信小程序通用方法代码实例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下...2020-09-29
- 验证码类文件 CreateImg.class.php <?php class ValidationCode { private $width,$height,$codenum; public $checkcode; //产生的验证码 private $checkimage; //验证码图片 private $disturbColor = ''; /...2015-11-08
- 这篇文章主要介绍了selenium 反爬虫之跳过淘宝滑块验证功能,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下...2020-08-27
- 这篇文章主要介绍了基于JavaScript实现验证码功能的相关资料...2017-04-03
- 下面小编就为大家带来一篇单击按钮发送验证码,出现倒计时的简单实例。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧 代码...2017-07-06
- 验证码是一个现在WEB2.0中常见的一个功能了,像注册、登录又或者是留言页面,都需要注册码来验证当前操作者的合法性,我们会看到有些网站没有验证码,但那是更高级的验证了,...2016-11-25
- 这篇文章主要介绍了基于Pytorch版yolov5的滑块验证码破解思路详解,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下...2021-02-25
Bootstrap中文本框的宽度变窄并且加入一副验证码图片的实现方法
这篇文章主要介绍了Bootstrap中文本框的宽度变窄并且加入一副验证码图片的实现方法的相关资料,非常不错,具有参考借鉴价值,需要的朋友可以参考下...2016-06-24- 这篇文章主要介绍了Python爬虫之Selenium实现关闭浏览器,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2020-12-04
- 本篇文章主要介绍了node.js爬虫爬取拉勾网职位信息的方法。具有很好的参考价值。下面跟着小编一起来看下吧 用node.js写了一个简单的小爬虫,用来爬取拉勾网上的招...2017-07-06
- 工信部的ICP备案网站登录时验证码一直输入不正确怎么回事,为了防止一些机器采集人工信部对于查询验证做得识别度极低,所以许多的朋友都会发现输入验证码一直有问题了,那...2016-10-10
- 最近接到新需求,需要实现一个点击发送验证码之后,按钮禁用,在5秒之后取消禁用,看似需求很简单,实现起来还真的好好动动脑筋,下面小编把jquery控制按钮禁用核心代码分享给大家,需要的朋友参考下吧...2021-07-24
c# Selenium爬取数据时防止webdriver封爬虫的方法
这篇文章主要介绍了c# Selenium爬取数据时防止webdriver封爬虫的方法,帮助大家更好的理解和使用c#,感兴趣的朋友可以了解下...2021-01-15- web开发中,经常会使用验证码功能,例如登录、注册,或其他关键功能之前经常会使用。下面通过实例代码给大家介绍Web制作验证码功能实例代码,感兴趣的朋友一起看看吧...2017-06-24
- 今天带大家爬取携程评论练练手,文中有非常详细的代码示例,对正在学习python的小伙伴们很有帮助,需要的朋友可以参考下...2021-06-02
- GoDaddy怎么开启手机验证码登录?最近老听朋友说gd用户盗了,然后域名丢失了,今天 我们一起来看看关于GoDaddy开启手机验证码登录的教程. 给账户添加多重验证是为了账...2016-10-10