Dolphin Attack-Detection

特征提取：

双声道合并为单声道，做MFCC，mel滤波器组共40个滤波器，分帧参数：帧长2048个点，每次移动512个点，采样频率48kHz。

做long-time average MFCC（自己拍脑袋想出来的），就是把所有帧的同一个梅尔滤波器输出的结果做一个average，优点如下：

可能缺陷：

整段语音直接FFT再挑500Hz-1000Hz之间的频段作为feature：

效果很差（模型直接过拟合，在测试集上跑时全部判断sample是demod类型的），原因可能在于：

每个sample的长度不一样，虽然可以补零再FFT，但是这样会造成feature的长度太长，容易导致SVM过拟合
即使通过Maxpool或其他方法来提取FFT的包络并且减少feature的长度，但语音信号是非平稳信号，不满足FFT的条件，而且FFT的特征会受到说话内容的影响，从而导致SVM难以将其分类。

Positive_acc = TP / (TP + FN)

Nagetive_acc = TN / (FP + TN)

All_acc = (TP + TN) / (TP + FN + FP + TN)

RBF参数选择：

主要是C和Gamma两个超参数

对线性核、RBF核做Grid search，结合Cross validation

Grid search: 暴力搜索

结果：

总之出来的结果就是很好就是了，基本上C随便取一取，然后gamma往小了调就行。

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
README.assets		README.assets
.gitattributes		.gitattributes
.gitignore		.gitignore
Data_analyse.py		Data_analyse.py
Data_pretreatment.py		Data_pretreatment.py
Load_data.py		Load_data.py
README.md		README.md
SVC.py		SVC.py
all_dataset.xlsx		all_dataset.xlsx
grid_search.py		grid_search.py
grid_search_all.py		grid_search_all.py
maxpool test.py		maxpool test.py
test_data.py		test_data.py
test_dataset.xlsx		test_dataset.xlsx
train_dataset.xlsx		train_dataset.xlsx

Provide feedback