資料介紹
描述
從原始音頻數據中檢測火花聲音
抽象的:
該項目的目的是從原始時(shí)域信號中解決模式識別任務(wù)。我們使用 Sparkfun RedBoard Artemis ATP 模塊和集成 MEMS 麥克風(fēng)來(lái)記錄和分類(lèi)環(huán)境聲音。在這個(gè)項目摘要中,我們?yōu)槌鯇W(xué)者提供了一個(gè)簡(jiǎn)單的管道來(lái)訓練和部署一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò ) (NN) 以及可用于提高模型性能的高級方法。我們希望在這次挑戰中收集到的經(jīng)驗可以用于我們?yōu)榇笙笤O計的槍聲探測器。
介紹:
用于聲音分類(lèi)的神經(jīng)網(wǎng)絡(luò )通常將其輸入解釋為圖像。這是通過(guò)計算原始音頻記錄的 2D 頻譜圖來(lái)完成的。但是,也存在頻譜圖轉換導致相關(guān)信息丟失的情況。一個(gè)例子是槍聲檢測,其中彈道沖擊波聲音具有如此獨特的形狀(類(lèi)似于大寫(xiě)字母 N),基于這種原始信號形狀的檢測器比基于頻譜圖的解決方案更準確地工作。我們的想法來(lái)自這種情況,因為在時(shí)域中可能有許多具有特定形狀的可能事件。
在我們的例子中,這些獨特形狀的音頻信號是由火花產(chǎn)生的。火花是一種突然的放電,會(huì )產(chǎn)生短暫的光發(fā)射和尖銳的裂紋或啪啪聲。這種聲音包含非常高的頻率并且時(shí)間長(cháng)度很短(大約 4 毫秒)。這種火花聲事件可以通過(guò)集成在 Redboard Artemis ATP 上的 MEMS 麥克風(fēng)進(jìn)行記錄,圖 1 顯示了一個(gè)示例記錄。
記錄的火花噪聲的形狀并不完全相同,但它們都包含幾個(gè)長(cháng)度相似的尖峰。NN 應該理解這些相似性以執行檢測任務(wù)。
目標、實(shí)驗設置和數據收集:
總之,我們構建了一個(gè)可以檢測火花噪聲的分類(lèi)器。為了實(shí)現這一目標,我們使用揚聲器、火花發(fā)生器和 RedBoard Artemis 作為數據收集器,收集了具有不同脈沖背景噪聲的火花聲音。背景噪聲有助于概括檢測器的知識。并使檢測任務(wù)更加困難。
使用的背景噪音是:汽車(chē)喇叭、說(shuō)話(huà)的數字、狗叫聲、高斯噪音、槍聲、手提鉆、各種音樂(lè )、警報器、沉默。
基本管道如下:
- 記錄揚聲器產(chǎn)生的具有不同背景噪音的火花
- 僅將背景噪音記錄為負樣本
- 將這些記錄收集到帶有二進(jìn)制標簽的數據集中——0:沒(méi)有火花;1:包含火花
- 訓練一個(gè)簡(jiǎn)單的模型并將其部署在 Sparkfun Redboard Artemis ATP 上
- 使用涉及的高級方法訓練各種模型
- 評估模型
數據收集設置包含 RedBoard Artemis 作為記錄設備。一個(gè)額外的設備,一個(gè) Arduino Due 控制一個(gè)繼電器,該繼電器通過(guò)大電流通過(guò) DC-DC 升壓器產(chǎn)生火花。整個(gè)過(guò)程由 PC 同步,PC 還通過(guò)揚聲器播放各種背景噪音。設置如圖 2 所示。RedBoard Artemis ATP 記錄了背景噪聲和火花聲的疊加。圖 3 說(shuō)明了一種這樣的組合記錄,其中car_horn
在測量過(guò)程中產(chǎn)生了噪聲。可以發(fā)現錄音中間的脈沖區域,對應于火花聲。在錄音中,火花的位置會(huì )有所不同,以防止過(guò)度擬合到特定位置。
生成的數據集包含:
從所有類(lèi)中,100 個(gè)樣本被添加到訓練集,30 個(gè)樣本被添加到測試集,20 個(gè)樣本被添加到驗證集。
我們已將訓練過(guò)程的源代碼添加到該項目中,但它也可以在此處作為 Python 筆記本獲得:Training notebook 。Google Colaboratory 是初學(xué)者在受控環(huán)境中使用免費提供的 GPU 測試他們的想法的好地方。
本筆記本包含模型訓練的主要步驟,包括:
- 數據加載:正面和負面的例子
- 數據分離為訓練集、驗證集和測試集:100 + 20 + 30 個(gè)樣本
- 神經(jīng)網(wǎng)絡(luò )模型創(chuàng )建:簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò )
- 模型擬合 - 訓練:默認訓練參數
- 模型評估:在測試數據集上評估
- 模型轉換為 TensorFlow Lite 模型。
- 模型轉換為字節數組,可以上傳到 Artemis Board。
本例中使用的模型由一個(gè)具有 2 個(gè)內核的卷積層和一個(gè)最大池化層組成。它涵蓋了卷積產(chǎn)生的整個(gè)特征向量。由于其簡(jiǎn)單性,該模型幾乎無(wú)法泛化知識,但在測試數據集上可以達到 94% 左右的高精度,在可接受的范圍內。架構如圖 4 所示。(注意:使用了 Conv2D,因為 TF Lite Micro 僅支持此操作,否則需要使用 Conv1D。)
訓練有素的模型有利有弊:
+ 體積小,只有 71 個(gè)可訓練參數
+ 可以處理 12000 個(gè)樣本的長(cháng)輸入
+ Artemis 板可在 1 秒內運行
- 對噪音非常敏感,不能一概而論
[數據收集詳細信息] -> [在 GPU 上訓練] -> [模型部署] -> [推理]
部署從字節數組開(kāi)始,字節數組是在上一節訓練期間生成的。左側可見(jiàn)Arduino連接,表示當發(fā)送一個(gè)'s'字符時(shí),會(huì )產(chǎn)生火花。很快,“檢測到火花!” 右側應該有消息,它會(huì )打印來(lái)自 Artemis Board 的消息。
概括:
在本節中,我們提出了一個(gè)檢測問(wèn)題的基線(xiàn)解決方案,旨在基于火花聲音包含對錄音進(jìn)行分類(lèi)。我們包括用于數據收集、模型訓練以及模型部署和推理的源代碼。
進(jìn)階方法:
上一節中訓練的簡(jiǎn)單模型在測試數據集上達到了可接受的準確度,但是,在其真實(shí)世界的評估過(guò)程中,我們可以測試它對鼓掌或敲擊等其他脈沖響亮事件的魯棒性。基于這些實(shí)驗,可以得出結論,該模型能夠識別響亮的脈沖事件,而不僅僅是火花聲。如此簡(jiǎn)單的架構無(wú)法泛化知識以檢測復雜背景噪聲中的這些復雜模式是合理的。
在本節中,我們展示了高級方法的使用,這些方法可以幫助找到更合適的模型,具有更高的準確性和魯棒性,以及最佳的內存和計算復雜性。
準確率:正確分類(lèi)示例的比率
魯棒性:誤導分類(lèi)器的平均輸入擾動(dòng)幅度的度量
內存復雜度:運行模型所需的內存總量
計算復雜度:運行模型必須執行的浮點(diǎn)運算總數
前面介紹的簡(jiǎn)單模型是根據一些經(jīng)驗以臨時(shí)方式創(chuàng )建的。即使初始架構已知,其提供最佳結果的超參數也是未知的。因此,我們從基線(xiàn)模型開(kāi)始,實(shí)現了一種能夠找到優(yōu)越超參數集的搜索算法。這種方法稱(chēng)為網(wǎng)格搜索,它從給定的間隔將超參數收集到集合中,并根據一些指標測試這些配置。在我們的案例中,考慮的參數如下:
- 卷積層中的內核數:[3, 5, 8, 13]
- 卷積核的膨脹率:[1, 2, 3]
- 卷積核的大?。篬15, 36, 57, 93, 150]
為了評估特定的超參數集,我們使用了準確性和魯棒性指標。準確率很簡(jiǎn)單,就是正確分類(lèi)的樣本數與樣本總數的比值。魯棒性更復雜。在沒(méi)有完整的科學(xué)背景的情況下,它可以概括為模型對輸入擾動(dòng)不敏感的度量,而這些暗示錯誤分類(lèi)的擾動(dòng)的平均幅度就是該屬性的度量。研究這個(gè)參數的研究領(lǐng)域稱(chēng)為對抗性機器學(xué)習。我們使用了DeepFool方法的略微修改版本來(lái)測量我們的 NN 的這一屬性。
除了超參數優(yōu)化之外,我們還通過(guò)在輸入中添加具有不同標準差值的高斯噪聲來(lái)擴展模型性能檢查。隨著(zhù)噪聲水平的增加,信噪比降低,這使得檢測問(wèn)題變得更加困難。噪聲參數選自 [0.00, 0.01, 0.05, 0.1] 集合。為了使這些值具有可解釋性,圖 5 顯示了具有不同噪聲級別的示例記錄。可以觀(guān)察到,在最極端的情況下,火花形狀完全消失在噪聲中。
選擇來(lái)自呈現的參數值區間的所有組合,并相應地生成相應的神經(jīng)網(wǎng)絡(luò )。這產(chǎn)生了240 個(gè)生成的模型。每個(gè)網(wǎng)絡(luò )都在相同的訓練數據集上進(jìn)行了訓練,并在驗證數據集上進(jìn)行了評估。高斯噪聲是在訓練期間動(dòng)態(tài)生成的,使用以下參數進(jìn)行:
- 批量:5
- Early Stopping:以 10 個(gè) epoch 的耐心監測訓練損失
- 優(yōu)化器:亞當
網(wǎng)格搜索的結果如圖 6 所示。這里,x 軸表示精度,y 軸表示平均擾動(dòng)大小的對數。較大的擾動(dòng)表示更好的魯棒性。圖上的每個(gè)符號都有一個(gè)編碼噪聲水平的形狀、一個(gè)表示記憶復雜度的直徑和一個(gè)編碼神經(jīng)網(wǎng)絡(luò )計算復雜度的顏色。噪音等級符號:star
- 不添加噪音;circle
- 噪聲級 0.01;square
- 噪聲級 0.05;triangle
- 噪音水平 0.1。
在圖 6 中,可以識別出幾個(gè)點(diǎn)簇。例如,可以觀(guān)察到較高的噪聲水平會(huì )降低準確性,但會(huì )增強魯棒性(triangles
在左上角)。另一個(gè)例子是squares
中間的簇,它同時(shí)從左到右,從下到上同時(shí)進(jìn)化,這意味著(zhù)一些參數集也提高了準確性和魯棒性。
在我們的案例中,需要具有良好性能和魯棒性的模型,但由于我們希望將其部署在微控制器上,因此還必須考慮內存和計算復雜性。這些參數被編碼成一個(gè)點(diǎn)的顏色和大小。根據彩條,需要一個(gè)小直徑的藍色點(diǎn),從圖的右側開(kāi)始,該點(diǎn)也可以最大限度地提高魯棒性。我們選擇了模型,它由位于circle
集群頂部右側的圓圈集群上方的單個(gè)離群藍色表示squares
。該模型在測試數據集上進(jìn)行了評估。模型的參數和性能如下:
Accuracy on the test dataset: 0.99074
Accuracy on the training dataset: 0.99444
Robustness: 0.00136
---------------------------------------------
Dilation rate: 1
Kernel size: 57
Number of kernels: 5
Added noise level: 0.01
---------------------------------------------
Memory complexity: 238 KB
Computational complexity: 3.4 MFLOP (12kS input size)
該模型的計算復雜度高于我們的基準模型,因此推斷需要激活 Apollo 3 MCU 的突發(fā)模式。在這種狀態(tài)下,核心時(shí)鐘頻率從 48 MHz 翻倍到 96 MHz。
所提出的 NN 架構的另一個(gè)優(yōu)點(diǎn)是全窗口最大池化(稱(chēng)為 GlobalMaxPooling,但 TF Lite Micro 不支持)使模型能夠接受各種輸入長(cháng)度。例如,我們發(fā)現如果我們將輸入長(cháng)度從 12000 個(gè)樣本減少到 3000 個(gè)樣本,內存復雜度可以顯著(zhù)降低:從 238 KB 到 14 KB。一個(gè)缺點(diǎn)是,如果我們想要在具有重疊區域的信號上運行檢測器以確保完全包含火花事件,我們必須調用推理 7 次,而不是之前的 2 次。但是,MCU 足夠快以處理計算開(kāi)銷(xiāo)(總共 5.6 個(gè) MFLOP)。
當我們應用對抗性攻擊來(lái)測量 NN 結構的魯棒性時(shí),很容易將這些對抗性示例中的一些可視化。圖 7 顯示了一個(gè)這樣的示例。這里的目標是生成一個(gè)記錄,該記錄位于已訓練的神經(jīng)網(wǎng)絡(luò )結構的決策表面的邊緣。這個(gè)例子是從一個(gè)最初的負樣本(絕對沉默)生成的,但在當前的形式中,它欺騙了網(wǎng)絡(luò ),以便它產(chǎn)生一個(gè)正標簽。
這些方法很復雜,我們認為源代碼的發(fā)布不會(huì )有助于上述說(shuō)明的普遍適用性,因此我們僅應要求通過(guò)電子郵件共享這些文件。
項目總結:
我們實(shí)現了一個(gè)基于神經(jīng)網(wǎng)絡(luò )的火花聲音檢測器,可以部署在 SparkFun RedBoard Artemis ATP 上。數據是通過(guò)使用相同的設備及其集成的 MEMS 麥克風(fēng)收集的。數據采集??采用具有不同背景噪聲的火花產(chǎn)生。
為初學(xué)者解釋了一個(gè)簡(jiǎn)單的管道,并部署了一個(gè)基線(xiàn)神經(jīng)網(wǎng)絡(luò )模型。我們共享了解決類(lèi)似問(wèn)題所需的所有主要步驟的源代碼。
此外,還包括更先進(jìn)的方法和想法,可以提高模型性能和魯棒性。
未來(lái),我們計劃將 Artemis 板集成到我們正在積極開(kāi)發(fā)的獸傳槍聲探測器中。本報告中呈現的先進(jìn)成果可為這些方向的研究提供基礎。
?
- CS43198 音頻數模轉換器HIFI
- Amiga立體聲音頻數字轉換器開(kāi)源 0次下載
- 基于LabVIEW的音頻數據采集系統設計.pdf 30次下載
- 采用PIC32的高質(zhì)量音頻應用 14次下載
- IS2062和IS2064立體聲音頻SoC的詳細中文數據手冊免費下載 21次下載
- 24位192kHz采樣增強型立體聲音頻數模轉換器 14次下載
- MPEG2/AC-3兼容立體聲音頻數位類(lèi)比轉換器 5次下載
- 立體聲音頻數位類(lèi)比轉換器 7次下載
- 網(wǎng)絡(luò )傳輸中實(shí)時(shí)音頻數據丟包恢復方法 32次下載
- 音頻數據加工標準與工作規范標準規范 14次下載
- 音頻數控前級電路的設計 42次下載
- AES音頻數據流之間的異步采樣率轉換 19次下載
- 基于變換域的音頻數字零水印算法研究 10次下載
- 廣播音頻數據文件格式規范—廣播波形格式(BWF) GY T 39次下載
- ATMEL音頻數碼產(chǎn)品 11次下載
- 立體聲音頻放大器電路圖分享 1339次閱讀
- 沉浸式音頻的未來(lái):計算機視覺(jué)輔助下的聲音重現 745次閱讀
- 如何使用10位LVDS串行器/解串器IC對I2S音頻數據流進(jìn)行STP布線(xiàn) 1884次閱讀
- I2S音頻總線(xiàn)基本知識科普 2.5w次閱讀
- digilent立體聲音頻輸出簡(jiǎn)介 1363次閱讀
- 電火花加工有哪些類(lèi)型 2.6w次閱讀
- 電火花加工放電狀態(tài) 8829次閱讀
- 藍牙的音頻通路 4784次閱讀
- 音頻幾個(gè)很重要的參數 6175次閱讀
- 基于Kinetis MK60N512和MAX5556的立體聲音頻接口設計 2605次閱讀
- 音頻卡怎么打開(kāi)_音頻卡調試教程詳解 5427次閱讀
- 一文了解音頻卡工作原理及主要特點(diǎn) 9136次閱讀
- 基于Kinetis微控制器和16位/24位MAX5556的立體聲音頻接口設計 1348次閱讀
- 一文了解火花塞的工作原理 2.7w次閱讀
- 基于火花塞離子電流檢測技術(shù)設計應用 3859次閱讀
下載排行
本周
- 1山景DSP芯片AP8248A2數據手冊
- 1.06 MB | 532次下載 | 免費
- 2RK3399完整板原理圖(支持平板,盒子VR)
- 3.28 MB | 339次下載 | 免費
- 3TC358743XBG評估板參考手冊
- 1.36 MB | 330次下載 | 免費
- 4DFM軟件使用教程
- 0.84 MB | 295次下載 | 免費
- 5元宇宙深度解析—未來(lái)的未來(lái)-風(fēng)口還是泡沫
- 6.40 MB | 227次下載 | 免費
- 6迪文DGUS開(kāi)發(fā)指南
- 31.67 MB | 194次下載 | 免費
- 7元宇宙底層硬件系列報告
- 13.42 MB | 182次下載 | 免費
- 8FP5207XR-G1中文應用手冊
- 1.09 MB | 178次下載 | 免費
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234315次下載 | 免費
- 2555集成電路應用800例(新編版)
- 0.00 MB | 33566次下載 | 免費
- 3接口電路圖大全
- 未知 | 30323次下載 | 免費
- 4開(kāi)關(guān)電源設計實(shí)例指南
- 未知 | 21549次下載 | 免費
- 5電氣工程師手冊免費下載(新編第二版pdf電子書(shū))
- 0.00 MB | 15349次下載 | 免費
- 6數字電路基礎pdf(下載)
- 未知 | 13750次下載 | 免費
- 7電子制作實(shí)例集錦 下載
- 未知 | 8113次下載 | 免費
- 8《LED驅動(dòng)電路設計》 溫德?tīng)栔?zhù)
- 0.00 MB | 6656次下載 | 免費
總榜
- 1matlab軟件下載入口
- 未知 | 935054次下載 | 免費
- 2protel99se軟件下載(可英文版轉中文版)
- 78.1 MB | 537798次下載 | 免費
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420027次下載 | 免費
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234315次下載 | 免費
- 5Altium DXP2002下載入口
- 未知 | 233046次下載 | 免費
- 6電路仿真軟件multisim 10.0免費下載
- 340992 | 191187次下載 | 免費
- 7十天學(xué)會(huì )AVR單片機與C語(yǔ)言視頻教程 下載
- 158M | 183279次下載 | 免費
- 8proe5.0野火版下載(中文版免費下載)
- 未知 | 138040次下載 | 免費
評論
查看更多