cgoxpx's blog

SingingRivuletProject
Powered by TanTa

可选方法:

针对音乐的识别与针对语言的识别算法上并无太大差异

        生成模型(如HMM、seq2seq)              识别模型(如CRF、RNN)  
优点      包含语言模型𝑝(𝐒)                        学习、识别过程简洁  
        (理论上)可以进行半监督、无监督学习      准确率比较好  
局限      可选的模型有限                           难以整合语言模型  
        表达能力有限,准确率较低                只能进行有监督学习,性能受制于数据量  

生成模型

基于HMM的语音识别

可参考资料

基于HMM的语音识别(一)
基于HMM的语音识别(二)
Speech_Recognition


为什么在生成模型中不能用深度神经网络?

生成模型中很难将输入的序列与输出的序列配对。所以,深度学习模型一般是用在另外一个思路上,也就是识别型的模型

一个可能的解决方法:
可借鉴SongMass中的对齐方法

cgoxopx
音乐识别