可选方法：

针对音乐的识别与针对语言的识别算法上并无太大差异

        生成模型（如HMM、seq2seq）              识别模型（如CRF、RNN）  
优点      包含语言模型𝑝(𝐒)                        学习、识别过程简洁  
        （理论上）可以进行半监督、无监督学习      准确率比较好  
局限      可选的模型有限                           难以整合语言模型  
        表达能力有限，准确率较低                只能进行有监督学习，性能受制于数据量

生成模型

基于HMM的语音识别

可参考资料

基于HMM的语音识别（一）
基于HMM的语音识别（二）
Speech_Recognition

为什么在生成模型中不能用深度神经网络？

生成模型中很难将输入的序列与输出的序列配对。所以，深度学习模型一般是用在另外一个思路上，也就是识别型的模型

一个可能的解决方法：
可借鉴SongMass中的对齐方法

cgoxopx

2021-10-28:10:48:45

音乐识别

cgoxpx's blog

可选方法：

生成模型

基于HMM的语音识别

可参考资料