본문 바로가기

NLP29

[논문 리뷰] Using the Output Embedding to Improve Language Models - Weight tying 이번에는 Embedding vector의 weight를 같게 하는 weight tying에 대해 연구한 Using the Output Embedding to Improve Language Models 논문에 대해 리뷰해보고자 한다. Transformer를 소개한 Attention is all you need 논문에서 인용되었고, Transformer의 embedding vector를 구성할 때 이 논문을 인용하며 same weight를 공유한다길래, 관심이 생겨서 읽어보게 되었다. 논문 원문 링크는 아래와 같다. Using the Output Embedding to Improve Language Models We study the topmost weight matrix of neural network l.. 2022. 12. 8.
[논문 리뷰] Attention is all you need - transformer란? 이번 글에서는 Attention is all you need 논문을 살펴봄과 동시에 논문에서 제시하는 아키텍처이자, 현재로서는 매우 중요해진 transformer에 대해 살펴보도록 하겠다. 논문 링크는 아래와 같다. Attention Is All You Need The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a.. 2022. 12. 6.
[논문 리뷰] Effective Approaches to Attention-based Neural Machine Translation - Luong Attention 이번에는 Luong Attention을 다루고 있는 Effective Approaches to Attention-based Neural Machine Translation이라는 논문에 대해 리뷰해보려고 한다. 원문 링크는 아래와 같다. Effective Approaches to Attention-based Neural Machine Translation An attentional mechanism has lately been used to improve neural machine translation (NMT) by selectively focusing on parts of the source sentence during translation. However, there has been little wo.. 2022. 12. 4.
[논문 리뷰] Neural Machine Translation by Jointly Learning to Align and Translate - Bahdanau Attention 이번에는 Neural Machine Translation by Jointly Learning to Align and Translate 이라는 논문을 리뷰해보겠다. 해당 논문의 경우, seq2seq에 attention을 도입, NMT(Neural Machine translation, 신경망 기계 번역) task에 적용하여 성능을 발전시킨 논문이다. 원문 링크는 다음과 같다. Neural Machine Translation by Jointly Learning to Align and Translate Neural machine translation is a recently proposed approach to machine translation. Unlike the traditional statistical .. 2022. 12. 4.
Attention이란?-원리부터 masking까지 (General Luong Attention을 기반으로) 지난 게시글에서 시퀀스-투-시퀀스(Sequence-to-Sequence, seq2seq)를 알아보았다. 시퀀스-투-시퀀스(Sequence-to-Sequence, seq2seq)란? - 기본 구조편 시퀀스-투-시퀀스(Sequence-to-Sequence, seq2seq)는 입력된 시퀀스로부터 다른 도메인의 시퀀스를 출력하는 모델이다. 기계번역, 챗봇, text summarization 등 다양한 분야에서 사용되지만, 모델 자체의 이해 gbdai.tistory.com 그러나, 이러한 RNN 기반의 시퀀스-투-시퀀스(Sequence-to-Sequence, seq2seq)(Sequence-to-Sequence, seq2seq)에는 다음과 같은 문제가 있다. hidden state에 정보를 저장하는데, capac.. 2022. 11. 25.