본문 바로가기

AI34

07. 워드 임베딩 시각화 1. 네이버 영화 리뷰 데이터 셋 총 20만개의 리뷰로 구성된 데이터로, 영화 리뷰를 긍/부정으로 분류하기 위해 만들어진 데이터셋리뷰가 긍정인 경우1, 부정인 경우 0으로 표시한 레이블로 구성되어 있음   ◼  데이터 준비설치               !sudo apt-get install -y fonts-nanum        !sudo fc-cache -fv        !rm ~/.cache/matplotlib -rf  import               import urllib.request        import pandas as pd   git-hub에 올라가 있는 파일 가져오기               urllib.request.urlretrieve('https://raw.githubus.. 2024. 6. 27.
06. 자연어처리 - 워드 임베딩 1. 워드 임배딩(Word Embedding)단어를 컴퓨터가 이해하고, 효율적으로 처리할 수 있도록 단어를 백터화하는 기술단어를 밀집 백터의 형태로 표현하는 방법워드 임배딩 과정을 통해 나온 결과를 임배딩 백터워드 임배딩을 거쳐 잘 표현된 단어 백터들은 계산이 가능하여, 모델에 입력으로 사용할 수 있음  1. 희소 표현(Sparse Representation)원 핫 인코딩을 통해서 나온 백터들은 표현하고자 하는 단어의 인덱스의 값만 1이고, 나머지 인덱스에는 전부 0으로 표현되는 백터 표현 방법원-핫 인코딩에 의해 만들어지는 백터를 '희소 백터'하고 함 2. 희소 백터의 문제점희소 백터의 특징은 단어의 개수가 늘어나면 백터의 차원이 한없이 커진다는 것원-핫 백터는 백터 표현 방식이 단순하여, 단순히 단어.. 2024. 6. 25.
05. 자연어처리 - 임베딩 실습 1. 유사도 측정 실습   ◼ 데이터             sen_1 = '오늘 점심에 배가 너무 고파서 밥을 너무 많이 먹었다'      sen_2 = '오늘 점심에 배가 고파서 밥을 많이 먹었다'      sen_3 = '오늘 배가 너무 고파서 점심에 밥을 너무 많이 먹었다'      sen_4 = '오늘 점심에 배가 고파서 지하철을 많이 먹었다'      sen_5 = '어제 저녁에 밥을 너무 많이 먹었더니 배가 부르다'      sen_6 = '이따가 오후 6시에 출발하는 비행기가 3시간 연착 되었다고 하네요'      training_documents = [sen_1, sen_2, sen_3, sen_4, sen_5, sen_6]      for text in training_documents:.. 2024. 6. 25.
04. 자연어처리 - 임베딩 1. 자연어의 특성 자연어를 기계가 처리하도록 하기 위해서 먼저 자연어를 기계가 이해할 수 있는 언어로 바꾸는 방법을 알아야 함토큰화 작업의 결과인 단어 사전을 기계가 이해할 수 있는 언어로 표현하는 과정이고, 단어 사전 내 단어 하나를 어떻게 표현할까의 문제로 볼 수 있음  1. 단어의 유사성과 모호성단어의 의미는 유사성과 모호성을 가지고 있는데 단어는 겉으로 보이는 형태인 표제어안에 여러가지 의미를 담고 있음 사람은 주변 정보에 따라 숨겨진 의미를 파악하고 이해할 수 있으나, 기계는 학습의 부재 또는 잘못된 데이터로 의미를 파악하지 못하는 경우가 있음 한 가지 형태의 단어에 여러 의미가 포함되어 생기는 중의성 문제는 자연어 처리에서 매우 중요동형어: 형태는 같으나 뜻이 서로 다른 단어 _예) 배다의어.. 2024. 6. 25.
LIST