<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

以一個真實網站的驗證碼為例，實現了基于一下KNN的驗證碼識別

很多網站登錄都需要輸入驗證碼，如果要實現自動登錄就不可避免的要識別驗證碼。本文以一個真實網站的驗證碼為例，實現了基于一下KNN的驗證碼識別。

準備工作

這里我們使用opencv做圖像處理，所以需要安裝下面兩個庫

pip3 install opencv-pythonpip3 install numpy

識別原理

我們采取一種有監督式學習的方法來識別驗證碼，包含以下幾個步驟

圖片處理 - 對圖片進行降噪、二值化處理

切割圖片 - 將圖片切割成單個字符并保存

人工標注 - 對切割的字符圖片進行人工標注，作為訓練集

訓練數據 - 用KNN算法訓練數據

檢測結果 - 用上一步的訓練結果識別新的驗證碼

下面我們來逐一介紹一下每一步的過程，并給出具體的代碼實現。

圖片處理

先來看一下我們要識別的驗證碼是長什么樣的

可以看到，字符做了一些扭曲變換。仔細觀察，還可以發現圖片中間的部分添加了一些顆?；脑肼?。

我們先讀入圖片，并將圖片轉成灰度圖，代碼如下

import cv2im = cv2.imread(filepath)im_gray = cv2.cvtColor(im, cv2.COLOR_BGR2GRAY)

經過上面的處理，我們的彩色圖片變成了下面這樣

將圖片做二值化處理，代碼如下

ret, im_inv = cv2.threshold(im_gray,127,255,cv2.THRESH_BINARY_INV)

127是我們設定的閾值，像素值大于127被置成了0，小于127的被置成了255。處理后的圖片變成了這樣

接下來，我們應用高斯模糊對圖片進行降噪。高斯模糊的本質是用高斯核和圖像做卷積，代碼如下

kernel = 1/16*np.array([[1,2,1], [2,4,2], [1,2,1]])im_blur = cv2.filter2D(im_inv,-1,kernel)

降噪后的圖片如下

可以看到一些顆?；脑肼暠黄交袅?。

降噪后，我們對圖片再做一輪二值化處理

ret, im_res = cv2.threshold(im_blur,127,255,cv2.THRESH_BINARY)

現在圖片變成了這樣

好了，接下來，我們要開始切割圖片了。

切割圖片

這一步是所有步驟里最復雜的一步。我們的目標是把最開始的圖片切割成單個字符，并把每個字符保存成如下的灰度圖

首先我們用opencv的findContours來提取輪廓

im2, contours, hierarchy = cv2.findContours(im_res, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)

我們把提取的輪廓用矩形框起來，畫出來是這樣的

可以看到，每個字符都被檢測出來了。

但這只是理想情況，很多時候，相鄰字符有粘連的會被識別成同一個字符，比如像下面的情況

要處理這種情況，我們就要對上面的圖片做進一步的分割。字符粘連會有下面幾種情況，我們逐一來看下該怎么處理。

4個字符被識別成3個字符

這種情況，對粘連的字符輪廓，從中間進行分割，代碼如下

result = []for contour in contours: x, y, w, h = cv2.boundingRect(contour) if w == w_max: # w_max是所有contonur的寬度中最寬的值 box_left = np.int0([[x,y], [x+w/2,y], [x+w/2,y+h], [x,y+h]]) box_right = np.int0([[x+w/2,y], [x+w,y], [x+w,y+h], [x+w/2,y+h]]) result.append(box_left) result.append(box_right) else: box = np.int0([[x,y], [x+w,y], [x+w,y+h], [x,y+h]]) result.append(box)

分割后，圖片變成了這樣

4個字符被識別成2個字符

4個字符被識別成2個字符有下面兩種情況

對第一種情況，對于左右兩個輪廓，從中間分割即可。對第二種情況，將包含了3個字符的輪廓在水平方向上三等分。具體代碼如下

result = []for contour in contours: x, y, w, h = cv2.boundingRect(contour) if w == w_max and w_max >= w_min * 2: # 如果兩個輪廓一個是另一個的寬度的2倍以上，我們認為這個輪廓就是包含3個字符的輪廓 box_left = np.int0([[x,y], [x+w/3,y], [x+w/3,y+h], [x,y+h]]) box_mid = np.int0([[x+w/3,y], [x+w*2/3,y], [x+w*2/3,y+h], [x+w/3,y+h]]) box_right = np.int0([[x+w*2/3,y], [x+w,y], [x+w,y+h], [x+w*2/3,y+h]]) result.append(box_left) result.append(box_mid) result.append(box_right) elif w_max < w_min * 2: ? ? ? ?# 如果兩個輪廓，較寬的寬度小于較窄的2倍，我們認為這是兩個包含2個字符的輪廓 ? ? ? ?box_left = np.int0([[x,y], [x+w/2,y], [x+w/2,y+h], [x,y+h]]) ? ? ? ?box_right = np.int0([[x+w/2,y], [x+w,y], [x+w,y+h], [x+w/2,y+h]]) ? ? ? ?result.append(box_left) ? ? ? ?result.append(box_right) ? ?else: ? ? ? ?box = np.int0([[x,y], [x+w,y], [x+w,y+h], [x,y+h]]) ? ? ? ?result.append(box)

分割后的圖片如下

4個字符被識別成1個字符

這種情況對輪廓在水平方向上做4等分即可，代碼如下

result = []contour = contours[0]x, y, w, h = cv2.boundingRect(contour)box0 = np.int0([[x,y], [x+w/4,y], [x+w/4,y+h], [x,y+h]])box1 = np.int0([[x+w/4,y], [x+w*2/4,y], [x+w*2/4,y+h], [x+w/4,y+h]])box2 = np.int0([[x+w*2/4,y], [x+w*3/4,y], [x+w*3/4,y+h], [x+w*2/4,y+h]])box3 = np.int0([[x+w*3/4,y], [x+w,y], [x+w,y+h], [x+w*3/4,y+h]])result.extend([box0, box1, box2, box3])

分割后的圖片如下

對圖片分割完成后，我們將分割后的單個字符的圖片存成不同的圖片文件，以便下一步做人工標注。存取字符圖片的代碼如下

for box in result: cv2.drawContours(im, [box], 0, (0,0,255),2) roi = im_res[box[0][1]:box[3][1], box[0][0]:box[1][0]] roistd = cv2.resize(roi, (30, 30)) # 將字符圖片統一調整為30x30的圖片大小 timestamp = int(time.time() * 1e6) # 為防止文件重名，使用時間戳命名文件名 filename = "{}.jpg".format(timestamp) filepath = os.path.join("char", filename) cv2.imwrite(filepath, roistd)

字符圖片保存在名為char的目錄下面，這個目錄里的文件大致是長這樣的（文件名用時間戳命名，確保不會重名）

接下來，我們開始標注數據。

人工標注

這一步是所有步驟里最耗費體力的一步了。為節省時間，我們在程序里依次打開char目錄中的每張圖片，鍵盤輸入字符名，程序讀取鍵盤輸入并將字符名保存在文件名里。代碼如下

files = os.listdir("char")for filename in files: filename_ts = filename.split(".")[0] patt = "label/{}_*".format(filename_ts) saved_num = len(glob.glob(patt)) if saved_num == 1: print("{} done".format(patt)) continue filepath = os.path.join("char", filename) im = cv2.imread(filepath) cv2.imshow("image", im) key = cv2.waitKey(0) if key == 27: sys.exit() if key == 13: continue char = chr(key) filename_ts = filename.split(".")[0] outfile = "{}_{}.jpg".format(filename_ts, char) outpath = os.path.join("label", outfile) cv2.imwrite(outpath, im)

這里一共標注了大概800張字符圖片，標注的結果存在名為label的目錄下，目錄下的文件是這樣的（文件名由原文件名+標注名組成）

接下來，我們開始訓練數據。

訓練數據

首先，我們從label目錄中加載已標注的數據

filenames = os.listdir("label")samples = np.empty((0, 900))labels = []for filename in filenames: filepath = os.path.join("label", filename) label = filename.split(".")[0].split("_")[-1] labels.append(label) im = cv2.imread(filepath, cv2.IMREAD_GRAYSCALE) sample = im.reshape((1, 900)).astype(np.float32) samples = np.append(samples, sample, 0)samples = samples.astype(np.float32)unique_labels = list(set(labels))unique_ids = list(range(len(unique_labels)))label_id_map = dict(zip(unique_labels, unique_ids))id_label_map = dict(zip(unique_ids, unique_labels))label_ids = list(map(lambda x: label_id_map[x], labels))label_ids = np.array(label_ids).reshape((-1, 1)).astype(np.float32)

接下來，訓練我們的模型

model = cv2.ml.KNearest_create()model.train(samples, cv2.ml.ROW_SAMPLE, label_ids)

訓練完，我們用這個模型來識別一下新的驗證碼。

檢測結果

下面是我們要識別的驗證碼

對于每一個要識別的驗證碼，我們都需要對圖片做降噪、二值化、分割的處理（代碼和上面的一樣，這里不再重復）。假設處理后的圖片存在變量im_res中，分割后的字符的輪廓信息存在變量boxes中，識別驗證碼的代碼如下

for box in boxes: roi = im_res[box[0][1]:box[3][1], box[0][0]:box[1][0]] roistd = cv2.resize(roi, (30, 30)) sample = roistd.reshape((1, 900)).astype(np.float32) ret, results, neighbours, distances = model.findNearest(sample, k = 3) label_id = int(results[0,0]) label = id_label_map[label_id] print(label)

運行上面的代碼，可以看到程序輸出

yy4e

圖片中的驗證碼被成功地識別出來。

我們測試了下識別的準確率，取100張驗證碼圖片（存在test目錄下）進行識別，識別的準確率約為82%?？吹接腥苏f用神經網絡識別驗證碼，準確率可以達到90%以上，下次有機會可以嘗試一下。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

圖像處理

圖像處理

+關注

關注
26

文章
1238

瀏覽量
56042
驗證碼

驗證碼

+關注

關注
2

文章
20

瀏覽量
4410

原文標題：太囂張了！他竟用 Python 繞過了“驗證碼”

文章出處：【微信號：magedu-Linux，微信公眾號：馬哥Linux運維】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

鴻蒙原生應用/元服務開發-Serverless賬戶驗證碼的問題

在應用/元服務早期使用過程中，-Serverless賬戶驗證碼的格式是[AGC][應用/元服務名稱]，如下圖。但是，在最近，[應用/元服務]名稱直接變成了【default】,用戶收到這種驗證碼后，心里存有疑慮的，這是哪里配置或者設置的問題嗎？大家有遇到同樣的問題嗎？如何

發表于 12-27 15:55

織夢dedecms登陸提示“驗證碼不正確”的完整解決方案

很多朋友碰到了網站登陸的時候遇到了驗證碼不正確，考慮到剛剛設置了網站文件夾的權限，估計是權限不夠造成的，后來經過了解，dedecms的驗證碼

發表于 03-10 23:53

10種意想不到的驗證碼風格設計

67條評論】發表評論關鍵詞：驗證碼,設計 | 作者：老槍 | 收藏這篇資訊眾所周知，驗證碼就是幫助我們的網站防止計算機生成答案。今天的這10個用戶體驗絕佳、令人意想不到的

發表于 05-05 14:03

什么時候才能發帖不需要驗證碼?

每次發帖都要驗證碼,什么時候才能發帖不需要驗證碼?

發表于 06-04 19:17

12306圖片驗證碼難倒了誰？

驗證碼的清晰度也不高，識別起來比較困難。有些關鍵詞還從一個變成了兩個。0　　記者登錄12306時，就碰到了系統需要

發表于 12-08 10:29

論壇注冊時不顯示驗證碼啊

論壇注冊時不顯示驗證碼啊，提交時提示驗證碼錯誤，希望早點解決，這是用別人的號發的?。。。。。。。。。?！

發表于 03-01 21:45

無法驗證郵箱，總是提示驗證碼錯誤，驗證碼明明是正確的。

`無法驗證郵箱，總是提示驗證碼錯誤，驗證碼明明是正確的。是不是系統的bug？`

發表于 05-12 10:41

《Visual C# 2008程序設計經典案例設計與實現》---動態繪制驗證碼

《Visual C# 2008程序設計經典案例設計與實現》---動態繪制驗證碼.zip

發表于 07-08 13:15

為什么短信驗證碼在我們生活中頻頻出現

隨著時代的進步和科學技術的發展，越來越多的企業已經離不開短信驗證碼發送平臺了，因為它可以幫助企業處理大量的用戶信息，提高接收短信驗證碼的經驗意識。大型網站提供

發表于 04-16 23:12

一文解析驗證碼與打碼平臺的攻防對抗

1、驗證碼與打碼平臺的攻防對抗　　眾所周知，驗證碼的出現是為了區分人和機器，但隨著科技的發展，黑產從業者的可圖之利增多，驗證碼的戰場也進入了一

發表于 09-28 11:02

java圖形驗證碼生成的設計實現

今天來學習下圖形驗證碼的生成，首先依賴開源組件：<dependency><groupId>com.github.penggle<

發表于 10-21 14:42

打碼平臺是如何高效的破解市面上各家驗證碼平臺的各種形式驗證碼的？

通過了這個驗證碼的識別才返回數據。對于一般的黑灰產而言，其是沒有應對驗證碼手段的，于是就獲取不到數據。打碼平臺的出現則解決

發表于 11-01 15:21

【國民技術N32項目移植】手機驗證碼項目移植4--手機驗證碼計算

驗證碼，在sntp協議解析并更新本地RTC時間后調用，圖中有我定義的device_id值。同時，在任意時刻，只要按下按鍵KEY2(PA5)，就會再進行一次計算。上圖的cal_totp_pwd函數

發表于 02-24 14:45

帶帶弟弟OCR通用驗證碼識別SDK免費開源版

在使用爬蟲登錄網站的時候，經常輸入用戶名和密碼后會遇到驗證碼，簡單一點的有字母驗證碼，復雜一點的有滑塊驗證碼，點選文章和點選圖片驗證碼。這些

發表于 03-30 17:26 ?4326次閱讀

Java 中驗證碼的使用

今天我們講一下在 Java 中驗證碼的使用。 驗證碼生成本效果是利用easy-captcha工具包實現，首先需要添加相關依賴到pom.xml中，代碼如下： com .github.w

發表于 09-25 11:11 ?515次閱讀

馬哥Linux運維
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot Linux如何使用XFS?
Hot keepalived及LVS概述,KeepAlived工作原理

New 什么是空接口？空接口代碼示例
New MySQL的整體邏輯架構

精選推薦
更多

文章

資料

帖子

采用144核，能效提升66%！英特爾至強6處理器震撼上市，加速數據中心升級

章鷹觀察
16小時前

799 閱讀

如何移植FFmpeg

ElfBoard
2天前

572 閱讀

基于Arm Cortex-CM85內核的RA8D1作為控制器通過MIPI DSI實現LVGL顯示

瑞薩MCU小百科
2天前

800 閱讀

便攜式直流接地故障查找儀如何使用——每日了解電力知識

武漢摩恩
2天前

817 閱讀

重磅！英特爾發布intel3制程至強6能效核處理器，賦能數據中心能效升級

章鷹觀察
2天前

818 閱讀

低成本NOR Flash如何選擇優質的在線燒錄方案

Hx
447KB

免費

12下載

Firefox Focus隱私保護瀏覽器

李玉蘭
4.00 MB

免費

0下載

person-hunter人流檢測/統計系統

王利祥
3.79 MB

免費

0下載

CW-Zabbix基于Zabbix的監控工具

楊麗
28.70 MB

免費

1下載

BlueSCSI 1.1-a 50針開源資料

郭大
0.20 MB

免費

3下載

I.MX6ULL-飛凌 ElfBoard ELF1板卡 - 如何在Ubuntu中編譯OpenCV庫(X86架構）

jf_25331175
3天前

724 閱讀

鴻蒙原生應用元服務開發-設備管理USB服務開發場景與接口

李洋水蛟龍
3天前

302 閱讀

嵌入式學習-飛凌ElfBoard ELF 1板卡 - 如何在Ubuntu中編譯OpenCV庫

jf_25331175
3天前

909 閱讀

【留言有禮】佳節至，分享“粽”要記憶，傳遞溫馨祝福，贏取精美禮品！

ElecFans小喇叭
4天前

993 閱讀

無刷電機用的單電阻采樣的FOC，拿天線貼著電機線或者貼近采樣芯片，電機就會停轉

剛剛回國弄
4天前

1497 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看