NLP29 [논문 리뷰] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 이번 게시물에서는 구글에서 연구하고 발표한 T5를 다룬 논문인 Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer에 대해 다뤄보겠다. 해당 모델의 경우, BART와 같이 Encoder-Decoder 구조를 지니고 있으며, 모든 task에 대해 text-to-text task로 다룬다는 특징을 가지고 있다. 이에 대한 자세한 내용은 아래에서 다루도록 하겠다. 또한, 논문의 양이 매우 긴 편인데(Appendix와 Reference를 제외하고도 40페이지 남짓), 저자들이 T5를 연구하면서 진행한 가설 설정 및 비교 실험을 모두 담아놓았기 때문에 그렇다. 처음부터 차근차근 따라가면 NLP에서의 language mod.. 2023. 3. 17. [논문 리뷰] Self-Attention with Relative Position Representations 이번 게시물에서는 transformer 구조에서 위치 정보를 추가해주기 위해 사용되는 position representation을 절대적인 위치 정보가 아닌 상대적인 위치 정보로 나타낸다는 아이디어를 담은 논문인 Self-Attention with Relative Position Representations을 리뷰해보겠다. 원문 링크는 다음과 같다. Self-Attention with Relative Position Representations Relying entirely on an attention mechanism, the Transformer introduced by Vaswani et al. (2017) achieves state-of-the-art results for machine trans.. 2023. 3. 6. [논문 리뷰] Big Bird: Transformers for Longer Sequences 이번 게시물에서는 Big Bird를 제시한 논문인 Big Bird: Transformers for Longer Sequences에 대해 다뤄보도록 하겠다. 해당 논문은 2020년도 NeurIPS에 소개되었다. 원문 링크는 다음과 같다. Big Bird: Transformers for Longer Sequences Transformers-based models, such as BERT, have been one of the most successful deep learning models for NLP. Unfortunately, one of their core limitations is the quadratic dependency (mainly in terms of memory) on the sequen.. 2023. 2. 22. [논문 리뷰] Multilingual Language Processing From Bytes 이번 게시물에서는 GPT-2 논문에서 제시된 Byte-level BPE(BBPE)에서 언급된 Multilingual Language Processing From Bytes라는 논문을 리뷰해보도록 하겠다. 사실 BBPE를 더 잘 이해해보기 위해 보게 된 논문이기에, 이번 게시물에서는 byte-level에서의 input representation처리와 관련해서만 다루고, 나머지는 생략하도록 하겠다. 원문 링크는 다음과 같다 Multilingual Language Processing From Bytes We describe an LSTM-based model which we call Byte-to-Span (BTS) that reads text as bytes and outputs span annotation.. 2022. 12. 24. [논문 리뷰] Language Models are Unsupervised Multitask Learners - GPT-2 이번 게시물에서는 GPT-2를 제안한 Language Models are Unsupervised Multitask Learners 논문에 대해 리뷰해보려고 한다. 원문 링크는 다음과 같다. https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf Introduction 이 논문이 작성될 시기의 machine learning system들은 data의 분포와 model이 수행해야 하는 task의 변화에 대해 매우 민감했었다. 또한, 그 당시 machine learning system은 모든 task에서 general하게 좋은 성능을 보여주는 방향이 아닌, 수행해야하는 특정 task에 대해 특화되어있는 모습을 보였다.(원문에.. 2022. 12. 23. 이전 1 2 3 4 5 6 다음