電子發(fā)燒友網(wǎng)>電子資料下載>電子資料>從原始音頻數據中檢測火花聲音

從原始音頻數據中檢測火花聲音

2076859 2023-07-03 | zip | 2.35 MB | 次下載 | 免費

資料介紹

描述

從原始音頻數據中檢測火花聲音

抽象的：

該項目的目的是從原始時(shí)域信號中解決模式識別任務(wù)。我們使用 Sparkfun RedBoard Artemis ATP 模塊和集成 MEMS 麥克風(fēng)來(lái)記錄和分類(lèi)環(huán)境聲音。在這個(gè)項目摘要中，我們?yōu)槌鯇W(xué)者提供了一個(gè)簡(jiǎn)單的管道來(lái)訓練和部署一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò ) (NN) 以及可用于提高模型性能的高級方法。我們希望在這次挑戰中收集到的經(jīng)驗可以用于我們?yōu)榇笙笤O計的槍聲探測器。

介紹：

用于聲音分類(lèi)的神經(jīng)網(wǎng)絡(luò )通常將其輸入解釋為圖像。這是通過(guò)計算原始音頻記錄的 2D 頻譜圖來(lái)完成的。但是，也存在頻譜圖轉換導致相關(guān)信息丟失的情況。一個(gè)例子是槍聲檢測，其中彈道沖擊波聲音具有如此獨特的形狀（類(lèi)似于大寫(xiě)字母 N），基于這種原始信號形狀的檢測器比基于頻譜圖的解決方案更準確地工作。我們的想法來(lái)自這種情況，因為在時(shí)域中可能有許多具有特定形狀的可能事件。

在我們的例子中，這些獨特形狀的音頻信號是由火花產(chǎn)生的。火花是一種突然的放電，會(huì )產(chǎn)生短暫的光發(fā)射和尖銳的裂紋或啪啪聲。這種聲音包含非常高的頻率并且時(shí)間長(cháng)度很短（大約 4 毫秒）。這種火花聲事件可以通過(guò)集成在 Redboard Artemis ATP 上的 MEMS 麥克風(fēng)進(jìn)行記錄，圖 1 顯示了一個(gè)示例記錄。

圖 1：MEMS 麥克風(fēng)記錄的火花聲音示例

記錄的火花噪聲的形狀并不完全相同，但它們都包含幾個(gè)長(cháng)度相似的尖峰。NN 應該理解這些相似性以執行檢測任務(wù)。

目標、實(shí)驗設置和數據收集：

總之，我們構建了一個(gè)可以檢測火花噪聲的分類(lèi)器。為了實(shí)現這一目標，我們使用揚聲器、火花發(fā)生器和 RedBoard Artemis 作為數據收集器，收集了具有不同脈沖背景噪聲的火花聲音。背景噪聲有助于概括檢測器的知識。并使檢測任務(wù)更加困難。

使用的背景噪音是：汽車(chē)喇叭、說(shuō)話(huà)的數字、狗叫聲、高斯噪音、槍聲、手提鉆、各種音樂(lè )、警報器、沉默。

基本管道如下：

記錄揚聲器產(chǎn)生的具有不同背景噪音的火花
僅將背景噪音記錄為負樣本
將這些記錄收集到帶有二進(jìn)制標簽的數據集中——0：沒(méi)有火花；1：包含火花
訓練一個(gè)簡(jiǎn)單的模型并將其部署在 Sparkfun Redboard Artemis ATP 上
使用涉及的高級方法訓練各種模型
評估模型

數據收集設置包含 RedBoard Artemis 作為記錄設備。一個(gè)額外的設備，一個(gè) Arduino Due 控制一個(gè)繼電器，該繼電器通過(guò)大電流通過(guò) DC-DC 升壓器產(chǎn)生火花。整個(gè)過(guò)程由 PC 同步，PC 還通過(guò)揚聲器播放各種背景噪音。設置如圖 2 所示。RedBoard Artemis ATP 記錄了背景噪聲和火花聲的疊加。圖 3 說(shuō)明了一種這樣的組合記錄，其中car_horn在測量過(guò)程中產(chǎn)生了噪聲。可以發(fā)現錄音中間的脈沖區域，對應于火花聲。在錄音中，火花的位置會(huì )有所不同，以防止過(guò)度擬合到特定位置。

圖 2. 數據收集設置。

圖 3.：包含帶有汽車(chē)喇叭背景噪音的火花的示例錄音。

生成的數據集包含：

數據集

從所有類(lèi)中，100 個(gè)樣本被添加到訓練集，30 個(gè)樣本被添加到測試集，20 個(gè)樣本被添加到驗證集。

我們已將訓練過(guò)程的源代碼添加到該項目中，但它也可以在此處作為 Python 筆記本獲得：Training notebook 。Google Colaboratory 是初學(xué)者在受控環(huán)境中使用免費提供的 GPU 測試他們的想法的好地方。

本筆記本包含模型訓練的主要步驟，包括：

數據加載：正面和負面的例子
數據分離為訓練集、驗證集和測試集：100 + 20 + 30 個(gè)樣本
神經(jīng)網(wǎng)絡(luò )模型創(chuàng )建：簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò )
模型擬合 - 訓練：默認訓練參數
模型評估：在測試數據集上評估
模型轉換為 TensorFlow Lite 模型。
模型轉換為字節數組，可以上傳到 Artemis Board。

本例中使用的模型由一個(gè)具有 2 個(gè)內核的卷積層和一個(gè)最大池化層組成。它涵蓋了卷積產(chǎn)生的整個(gè)特征向量。由于其簡(jiǎn)單性，該模型幾乎無(wú)法泛化知識，但在測試數據集上可以達到 94% 左右的高精度，在可接受的范圍內。架構如圖 4 所示。（注意：使用了 Conv2D，因為 TF Lite Micro 僅支持此操作，否則需要使用 Conv1D。）

圖 4.：從原始音頻輸入執行火花聲音檢測的建議神經(jīng)網(wǎng)絡(luò )的結構

訓練有素的模型有利有弊：

+ 體積小，只有 71 個(gè)可訓練參數

+ 可以處理 12000 個(gè)樣本的長(cháng)輸入

+ Artemis 板可在 1 秒內運行

- 對噪音非常敏感，不能一概而論

[數據收集詳細信息] -> [在 GPU 上訓練] -> [模型部署] -> [推理]

部署從字節數組開(kāi)始，字節數組是在上一節訓練期間生成的。左側可見(jiàn)Arduino連接，表示當發(fā)送一個(gè)'s'字符時(shí)，會(huì )產(chǎn)生火花。很快，“檢測到火花！” 右側應該有消息，它會(huì )打印來(lái)自 Artemis Board 的消息。

概括：

在本節中，我們提出了一個(gè)檢測問(wèn)題的基線(xiàn)解決方案，旨在基于火花聲音包含對錄音進(jìn)行分類(lèi)。我們包括用于數據收集、模型訓練以及模型部署和推理的源代碼。

進(jìn)階方法：

上一節中訓練的簡(jiǎn)單模型在測試數據集上達到了可接受的準確度，但是，在其真實(shí)世界的評估過(guò)程中，我們可以測試它對鼓掌或敲擊等其他脈沖響亮事件的魯棒性。基于這些實(shí)驗，可以得出結論，該模型能夠識別響亮的脈沖事件，而不僅僅是火花聲。如此簡(jiǎn)單的架構無(wú)法泛化知識以檢測復雜背景噪聲中的這些復雜模式是合理的。

在本節中，我們展示了高級方法的使用，這些方法可以幫助找到更合適的模型，具有更高的準確性和魯棒性，以及最佳的內存和計算復雜性。

準確率：正確分類(lèi)示例的比率

魯棒性：誤導分類(lèi)器的平均輸入擾動(dòng)幅度的度量

內存復雜度：運行模型所需的內存總量

計算復雜度：運行模型必須執行的浮點(diǎn)運算總數

前面介紹的簡(jiǎn)單模型是根據一些經(jīng)驗以臨時(shí)方式創(chuàng )建的。即使初始架構已知，其提供最佳結果的超參數也是未知的。因此，我們從基線(xiàn)模型開(kāi)始，實(shí)現了一種能夠找到優(yōu)越超參數集的搜索算法。這種方法稱(chēng)為網(wǎng)格搜索，它從給定的間隔將超參數收集到集合中，并根據一些指標測試這些配置。在我們的案例中，考慮的參數如下：

卷積層中的內核數：[3, 5, 8, 13]
卷積核的膨脹率：[1, 2, 3]
卷積核的大?。篬15, 36, 57, 93, 150]

為了評估特定的超參數集，我們使用了準確性和魯棒性指標。準確率很簡(jiǎn)單，就是正確分類(lèi)的樣本數與樣本總數的比值。魯棒性更復雜。在沒(méi)有完整的科學(xué)背景的情況下，它可以概括為模型對輸入擾動(dòng)不敏感的度量，而這些暗示錯誤分類(lèi)的擾動(dòng)的平均幅度就是該屬性的度量。研究這個(gè)參數的研究領(lǐng)域稱(chēng)為對抗性機器學(xué)習。我們使用了DeepFool方法的略微修改版本來(lái)測量我們的 NN 的這一屬性。

除了超參數優(yōu)化之外，我們還通過(guò)在輸入中添加具有不同標準差值的高斯噪聲來(lái)擴展模型性能檢查。隨著(zhù)噪聲水平的增加，信噪比降低，這使得檢測問(wèn)題變得更加困難。噪聲參數選自 [0.00, 0.01, 0.05, 0.1] 集合。為了使這些值具有可解釋性，圖 5 顯示了具有不同噪聲級別的示例記錄。可以觀(guān)察到，在最極端的情況下，火花形狀完全消失在噪聲中。

圖 5：各種噪聲水平影響的可視化。

選擇來(lái)自呈現的參數值區間的所有組合，并相應地生成相應的神經(jīng)網(wǎng)絡(luò )。這產(chǎn)生了240 個(gè)生成的模型。每個(gè)網(wǎng)絡(luò )都在相同的訓練數據集上進(jìn)行了訓練，并在驗證數據集上進(jìn)行了評估。高斯噪聲是在訓練期間動(dòng)態(tài)生成的，使用以下參數進(jìn)行：

批量：5
Early Stopping：以 10 個(gè) epoch 的耐心監測訓練損失
優(yōu)化器：亞當

網(wǎng)格搜索的結果如圖 6 所示。這里，x 軸表示精度，y 軸表示平均擾動(dòng)大小的對數。較大的擾動(dòng)表示更好的魯棒性。圖上的每個(gè)符號都有一個(gè)編碼噪聲水平的形狀、一個(gè)表示記憶復雜度的直徑和一個(gè)編碼神經(jīng)網(wǎng)絡(luò )計算復雜度的顏色。噪音等級符號：star- 不添加噪音；circle - 噪聲級 0.01；square - 噪聲級 0.05；triangle - 噪音水平 0.1。

圖 6：關(guān)于 240 個(gè)訓練模型的 5 維圖。

在圖 6 中，可以識別出幾個(gè)點(diǎn)簇。例如，可以觀(guān)察到較高的噪聲水平會(huì )降低準確性，但會(huì )增強魯棒性（triangles在左上角）。另一個(gè)例子是squares中間的簇，它同時(shí)從左到右，從下到上同時(shí)進(jìn)化，這意味著(zhù)一些參數集也提高了準確性和魯棒性。

在我們的案例中，需要具有良好性能和魯棒性的模型，但由于我們希望將其部署在微控制器上，因此還必須考慮內存和計算復雜性。這些參數被編碼成一個(gè)點(diǎn)的顏色和大小。根據彩條，需要一個(gè)小直徑的藍色點(diǎn)，從圖的右側開(kāi)始，該點(diǎn)也可以最大限度地提高魯棒性。我們選擇了模型，它由位于circle 集群頂部右側的圓圈集群上方的單個(gè)離群藍色表示squares 。該模型在測試數據集上進(jìn)行了評估。模型的參數和性能如下：

Accuracy on the test dataset:        0.99074
Accuracy on the training dataset:    0.99444
Robustness:                          0.00136
---------------------------------------------
Dilation rate:         1
Kernel size:           57
Number of kernels:     5
Added noise level:     0.01
---------------------------------------------
Memory complexity:         238 KB
Computational complexity:  3.4 MFLOP  (12kS input size)

該模型的計算復雜度高于我們的基準模型，因此推斷需要激活 Apollo 3 MCU 的突發(fā)模式。在這種狀態(tài)下，核心時(shí)鐘頻率從 48 MHz 翻倍到 96 MHz。

所提出的 NN 架構的另一個(gè)優(yōu)點(diǎn)是全窗口最大池化（稱(chēng)為 GlobalMaxPooling，但 TF Lite Micro 不支持）使模型能夠接受各種輸入長(cháng)度。例如，我們發(fā)現如果我們將輸入長(cháng)度從 12000 個(gè)樣本減少到 3000 個(gè)樣本，內存復雜度可以顯著(zhù)降低：從 238 KB 到 14 KB。一個(gè)缺點(diǎn)是，如果我們想要在具有重疊區域的信號上運行檢測器以確保完全包含火花事件，我們必須調用推理 7 次，而不是之前的 2 次。但是，MCU 足夠快以處理計算開(kāi)銷(xiāo)（總共 5.6 個(gè) MFLOP）。

當我們應用對抗性攻擊來(lái)測量 NN 結構的魯棒性時(shí)，很容易將這些對抗性示例中的一些可視化。圖 7 顯示了一個(gè)這樣的示例。這里的目標是生成一個(gè)記錄，該記錄位于已訓練的神經(jīng)網(wǎng)絡(luò )結構的決策表面的邊緣。這個(gè)例子是從一個(gè)最初的負樣本（絕對沉默）生成的，但在當前的形式中，它欺騙了網(wǎng)絡(luò )，以便它產(chǎn)生一個(gè)正標簽。

圖 7.：從沉默中生成的對抗性示例。它欺騙了產(chǎn)生正面標簽的網(wǎng)絡(luò )。

這些方法很復雜，我們認為源代碼的發(fā)布不會(huì )有助于上述說(shuō)明的普遍適用性，因此我們僅應要求通過(guò)電子郵件共享這些文件。

項目總結：

我們實(shí)現了一個(gè)基于神經(jīng)網(wǎng)絡(luò )的火花聲音檢測器，可以部署在 SparkFun RedBoard Artemis ATP 上。數據是通過(guò)使用相同的設備及其集成的 MEMS 麥克風(fēng)收集的。數據采集??采用具有不同背景噪聲的火花產(chǎn)生。

為初學(xué)者解釋了一個(gè)簡(jiǎn)單的管道，并部署了一個(gè)基線(xiàn)神經(jīng)網(wǎng)絡(luò )模型。我們共享了解決類(lèi)似問(wèn)題所需的所有主要步驟的源代碼。

此外，還包括更先進(jìn)的方法和想法，可以提高模型性能和魯棒性。

未來(lái)，我們計劃將 Artemis 板集成到我們正在積極開(kāi)發(fā)的獸傳槍聲探測器中。本報告中呈現的先進(jìn)成果可為這些方向的研究提供基礎。