作者您好,您在使用Conformer时使用的数据没有通道这一维度。想请问您如果我是多通道数据可以对每个通道的数据应用自注意力机制,最终将多个多个通道的结果在连接起来传入下一个卷积层。这种想法合理嘛。 之所以有这种想法是因为看到很多自注意力机制对于输入的长度是固定的。歌曲的长度不固定,不想放弃输入不同长度进行训练这一数据增强的方式。 对于Time Domain Pool池化是否也可以采用以上思路呢。