Hemant Vishwakarma: Masking layer vs attention_mask parameter in MultiHeadAttention

Monday, 12 September 2022

Masking layer vs attention_mask parameter in MultiHeadAttention

I use MultiHeadAttention layer in my transformer model (my model is very similar to the named entity recognition models). Because my data comes with different lengths, I use padding and attention_mask parameter in MultiHeadAttention to mask padding. If I would use the Masking layer before MultiHeadAttention, will it have the same effect as attention_mask parameter? Or should I use both: attention_mask and Masking layer?

from Masking layer vs attention_mask parameter in MultiHeadAttention

Hemant Vishwakarma

Monday, 12 September 2022

Masking layer vs attention_mask parameter in MultiHeadAttention

No comments:

Post a Comment