본문 바로가기

불용어3

05. 자연어처리 - 임베딩 실습 1. 유사도 측정 실습   ◼ 데이터             sen_1 = '오늘 점심에 배가 너무 고파서 밥을 너무 많이 먹었다'      sen_2 = '오늘 점심에 배가 고파서 밥을 많이 먹었다'      sen_3 = '오늘 배가 너무 고파서 점심에 밥을 너무 많이 먹었다'      sen_4 = '오늘 점심에 배가 고파서 지하철을 많이 먹었다'      sen_5 = '어제 저녁에 밥을 너무 많이 먹었더니 배가 부르다'      sen_6 = '이따가 오후 6시에 출발하는 비행기가 3시간 연착 되었다고 하네요'      training_documents = [sen_1, sen_2, sen_3, sen_4, sen_5, sen_6]      for text in training_documents:.. 2024. 6. 25.
03. 자연어처리 - 전처리 실습 1. 자연어 전처리   ◼ 뉴스 기사 크롤링 라이브러리 설치            # 웹 스크래핑을 통해 뉴스 기사를 수집하고 분석하는데 사용되는 라이브러리      !pip install newspaper3k   ◼ 지원 언어 확인                import newspaper        newspaper.languages()Your available languages are: input code full name   vi   Vietnamese   it   Italian   de   German   sr   Serbian   zh   Chinese   fa   Persian   be   Belarusian   sv   Swedish   el   Greek   da   Danish   no .. 2024. 6. 24.
02. 자연어처리 - 진행순서 1. 문제 정의 문제의 대한 솔루션이 있어야 하고, 명확하고 구체적일수록 알맞는 자연어처리 기술을 찾을 수 있음     2. 데이터 수집 및 분석다양한 학습데이터를 수집하기 위해 공개된 데이터셋, 유료 데이터셋 또는 웹 크로링을 사용하여 수집 사이트: https://paperswithcode.com/datasets?mod=texts&task=question-answering  Papers with Code - Machine Learning Datasets282 datasets • 132562 papers with code.paperswithcode.com웹크로링을 통해 데이터를 수집 했다면 EDA(탑색적 데이터 분석) 및 분석을 통해 데이터를 철저하게 검증해야함레이블이 필요하다면 수집한 데이터에 레이블을.. 2024. 6. 24.
LIST