본문 바로가기
AI/자연어처리

13. 문장 임베딩 | Attention Meshanism

by 사라리24 2024. 7. 4.

1. 어텐션 메커니즘(Attention Meshanism)

 

 

15-01 어텐션 메커니즘 (Attention Mechanism)

앞서 배운 seq2seq 모델은 **인코더**에서 입력 시퀀스를 컨텍스트 벡터라는 하나의 고정된 크기의 벡터 표현으로 압축하고, **디코더**는 이 컨텍스트 벡터를 통해서 출력 …

wikidocs.net

 

 

1. 어텐션의 아이디어

  • 디코더에서 출력 단어를 예측하는 매 시점(time step)마다, 인코더에서의 전체 입력 문장을 다시 한 번 참고한다는
  • 단 , 전체 입력 문장을 전부 다 동일한 비율로 참고하는 것이 아니라, 해당 시점에서 예측해야 할 단어와 연관이 있는 입력 단어 부분을 좀 더 집중해서 보게 함

2. 어텐션 함수

  • 어텐션을 함수로 표현 -Attention(Q,K,V) = Attention Value
  • 어텐션 함수는 주어진 쿼리에 대해서 모든 키와의 유사도를 각각 계산
  • 계산된 유사도를 키와 맴핑되어 있는 각각의 값에 반영한 뒤 유사도가 반영된 값을 모두 더해서 반환(어텐션 값)
    • Q = Query : t 시점의 디코더 셀에서의 은닉 상태
    • K = Keys : 모든 시점의 인코더 셀의 은닉 상태들
    • V = Values : 모든 시점의 인코더 셀의 은닉 상태들

3. 어텐션 작동 원리

  • 시점의 예측하고자 하는 단어를 위해 입력단어들의 정보를 다시 참고
  • 어텐션 스코어를 구하는데 사용하는 수식은 다양하게 있으나 가장 간단한 dot product를 사용하는 것이 일반적
  • 단어들의 정보를 참고하여 나온 확률 중 가장 큰 값을 예측하고자 하는 단어를 위해 사용함

4. 어텐션과 Seq2Seq

- 어텐션 메커니즘은 Seq2Seq 모델이 가지는 한계를 해결하기 위해 제안 되었기 때문에 논문에서는 Seq2Seq 모델에 어텐션 메커니즘을 적용한 모델을 제안

 

 

'AI > 자연어처리' 카테고리의 다른 글

15. 문장임베딩 | BERT  (1) 2024.07.05
14. 문장 임베딩 | ELmo / Transformer  (1) 2024.07.04
12. 문장 임베딩 | Seq2Seq  (1) 2024.07.03
11. LSTM과 GRU  (0) 2024.07.02
10. CNN Text Classification  (0) 2024.07.02