1. 문제 정의
- 문제의 대한 솔루션이 있어야 하고, 명확하고 구체적일수록 알맞는 자연어처리 기술을 찾을 수 있음
2. 데이터 수집 및 분석
- 다양한 학습데이터를 수집하기 위해 공개된 데이터셋, 유료 데이터셋 또는 웹 크로링을 사용하여 수집
Papers with Code - Machine Learning Datasets
282 datasets • 132562 papers with code.
paperswithcode.com
- 웹크로링을 통해 데이터를 수집 했다면 EDA(탑색적 데이터 분석) 및 분석을 통해 데이터를 철저하게 검증해야함
- 레이블이 필요하다면 수집한 데이터에 레이블을 붙여야 함
3. 데이터 전처리
- 학습에 용이하게 데이터를 수정/보완 하는 작업
- 자연어처리 진행 과정에서 데이터가 차지하는 비준이 매우 높기 때문에 데이터를 수집하고 전처리하는 과정이 매우 중요함
- 토큰화(Tokenization): 주어진 데이터셋에서 문장이나 문서들을 토큰 단위로 나누는 작업
- 정제(Cleaning):갖고 있는 데이터셋으로 노이즈 데이터(이상치, 편향 등)을 제거하는 작업
- 정규화(normalization):표현 방법이 다른 데이터들을 통합시커서 같은 항목으로 합침
1. 토큰화 (Tokenization) |
|
2. 토큰화 과정의 필요성 |
|
3. 토큰화 방법 |
|
4. 서브워드 토큰화
1. 서브워드 토큰화 |
|
2. BPE(Byte Pair Encoding) |
|
3. WorldPiece Tokenizer |
|
5. 정제(Cleaning)
- 토큰화 작업에 방해가 되는 부분들을 필터링하거나 토큰화 작업 이후에도 여전히 남아있는 노이즈들을 제거하기 위해 지속적으로 이뤄지는 전처리 과정
- 어떤 특성이 노이즈인지 판단하거나 모든 노이즈를 완벽하게 제거하는 것은 어렵기 때문에 일돈의 합의점을 찾아야 함
1. 정제 작업의 종류 |
|
2. 정제 과정에서 유의해야할 점 |
|
6. 정규화(Normalization)
- 일반적인 머신러닝 작업에서 데이터 정규화는 학습데이터의 값들이 적단한 범위를 유지하도록 데이터의 범위를 변환하거나 스케일링하는 과정
- 정규화 목표는 모든 데이터가 같은 정도의 스케일로 반영되도록 하는 것
- 자연어처리 정규화의 핵심은 표현방법이 다른 단어들을 통합시켜서 같은 단어로 만들어주는 과정
1. 정규화 작업이 필요한 이유 |
|
2. 정규화 작업의 종류 |
|
3. 정규화 시 유의할 점 |
|
7. 한국어 데이터 전처리
1. 한국어의 특성 |
|
2. 형태소 분석 |
|
@. 과제
논문리뷰하기
1. https://arxiv.org/abs/1508.07909
Neural Machine Translation of Rare Words with Subword Units
Neural machine translation (NMT) models typically operate with a fixed vocabulary, but translation is an open-vocabulary problem. Previous work addresses the translation of out-of-vocabulary words by backing off to a dictionary. In this paper, we introduce
arxiv.org
2. https://arxiv.org/abs/1609.08144
Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation
Neural Machine Translation (NMT) is an end-to-end learning approach for automated translation, with the potential to overcome many of the weaknesses of conventional phrase-based translation systems. Unfortunately, NMT systems are known to be computationall
arxiv.org
'AI > 자연어처리' 카테고리의 다른 글
06. 자연어처리 - 워드 임베딩 (0) | 2024.06.25 |
---|---|
05. 자연어처리 - 임베딩 실습 (0) | 2024.06.25 |
04. 자연어처리 - 임베딩 (1) | 2024.06.25 |
03. 자연어처리 - 전처리 실습 (0) | 2024.06.24 |
01. 자연어처리 - 개요 (0) | 2024.06.24 |