13. 문장 임베딩 | Attention Meshanism

1. 어텐션 메커니즘(Attention Meshanism)

기본적으로 Seq2Seq 모델의 한계를 해결하기 위해 2014년도에 제안한 논문

입력 시퀀스가 길어지면 출력 시퀀스의 정확도가 떨어지는 것을 보정해주기 위해 등장한 기법

논문1: https://arxiv.org/abs/1409.0473

논문2: https://arxiv.org/abs/1508.04025

참고사이트: https://wikidocs.net/22893

15-01 어텐션 메커니즘 (Attention Mechanism)

앞서 배운 seq2seq 모델은 **인코더**에서 입력 시퀀스를 컨텍스트 벡터라는 하나의 고정된 크기의 벡터 표현으로 압축하고, **디코더**는 이 컨텍스트 벡터를 통해서 출력 …

wikidocs.net

1. 어텐션의 아이디어

디코더에서 출력 단어를 예측하는 매 시점(time step)마다, 인코더에서의 전체 입력 문장을 다시 한 번 참고한다는
단 , 전체 입력 문장을 전부 다 동일한 비율로 참고하는 것이 아니라, 해당 시점에서 예측해야 할 단어와 연관이 있는 입력 단어 부분을 좀 더 집중해서 보게 함

2. 어텐션 함수

어텐션을 함수로 표현 -Attention(Q,K,V) = Attention Value
어텐션 함수는 주어진 쿼리에 대해서 모든 키와의 유사도를 각각 계산
계산된 유사도를 키와 맴핑되어 있는 각각의 값에 반영한 뒤 유사도가 반영된 값을 모두 더해서 반환(어텐션 값)
- Q = Query : t 시점의 디코더 셀에서의 은닉 상태
- K = Keys : 모든 시점의 인코더 셀의 은닉 상태들
- V = Values : 모든 시점의 인코더 셀의 은닉 상태들

3. 어텐션 작동 원리

시점의 예측하고자 하는 단어를 위해 입력단어들의 정보를 다시 참고
어텐션 스코어를 구하는데 사용하는 수식은 다양하게 있으나 가장 간단한 dot product를 사용하는 것이 일반적
단어들의 정보를 참고하여 나온 확률 중 가장 큰 값을 예측하고자 하는 단어를 위해 사용함

4. 어텐션과 Seq2Seq

- 어텐션 메커니즘은 Seq2Seq 모델이 가지는 한계를 해결하기 위해 제안 되었기 때문에 논문에서는 Seq2Seq 모델에 어텐션 메커니즘을 적용한 모델을 제안

'AI > 자연어처리' 카테고리의 다른 글

15. 문장임베딩 \| BERT (1)	2024.07.05
14. 문장 임베딩 \| ELmo / Transformer (1)	2024.07.04
12. 문장 임베딩 \| Seq2Seq (1)	2024.07.03
11. LSTM과 GRU (0)	2024.07.02
10. CNN Text Classification (0)	2024.07.02

leesarr-study

13. 문장 임베딩 | Attention Meshanism

1. 어텐션 메커니즘(Attention Meshanism)

1. 어텐션의 아이디어

2. 어텐션 함수

3. 어텐션 작동 원리

4. 어텐션과 Seq2Seq

'AI > 자연어처리' 카테고리의 다른 글

티스토리툴바

13. 문장 임베딩 | Attention Meshanism

1. 어텐션 메커니즘(Attention Meshanism)

1. 어텐션의 아이디어

2. 어텐션 함수

3. 어텐션 작동 원리

4. 어텐션과 Seq2Seq

'AI > 자연어처리' 카테고리의 다른 글

관련글

티스토리툴바