在这种架构中,对句子中所有词之间的关系进行建模,而与它们的位置无关。这是哪种架构?
区块链毕设网qklbishe.com为您提供问题的解答
在这种架构中,对句子中所有词之间的关系进行建模,而与它们的位置无关。这是哪种架构?
GPT 采用了 Transformer 的 Decoder,而 BERT 采用了 Transformer 的 Encoder。GPT 使用 Decoder 中的 Mask Multi-Head Attention 结构,在使用 [u1, u2, …, u(i-1)] 预测单词 ui 的时候,会将 ui 之后的单词 Mask 掉,而BERT 会同时利用 [u1, u2, …, u(i-1), u(i+1), …, un] 的信息。
01:25
以上就是关于问题在这种架构中,对句子中所有词之间的关系进行建模,而与它们的位置无关。这是哪种架构?的答案
欢迎关注区块链毕设网-
专业区块链毕业设计成品源码,定制。
区块链NFT链游项目方科学家脚本开发培训