可选方法:
针对音乐的识别与针对语言的识别算法上并无太大差异
生成模型(如HMM、seq2seq) 识别模型(如CRF、RNN)
优点 包含语言模型𝑝(𝐒) 学习、识别过程简洁
(理论上)可以进行半监督、无监督学习 准确率比较好
局限 可选的模型有限 难以整合语言模型
表达能力有限,准确率较低 只能进行有监督学习,性能受制于数据量
生成模型
基于HMM的语音识别
可参考资料
基于HMM的语音识别(一)
基于HMM的语音识别(二)
Speech_Recognition
为什么在生成模型中不能用深度神经网络?
生成模型中很难将输入的序列与输出的序列配对。所以,深度学习模型一般是用在另外一个思路上,也就是识别型的模型
一个可能的解决方法:
可借鉴SongMass中的对齐方法
cgoxopx
音乐识别