토큰화방법1 02. 자연어처리 - 진행순서 1. 문제 정의 문제의 대한 솔루션이 있어야 하고, 명확하고 구체적일수록 알맞는 자연어처리 기술을 찾을 수 있음 2. 데이터 수집 및 분석다양한 학습데이터를 수집하기 위해 공개된 데이터셋, 유료 데이터셋 또는 웹 크로링을 사용하여 수집 사이트: https://paperswithcode.com/datasets?mod=texts&task=question-answering Papers with Code - Machine Learning Datasets282 datasets • 132562 papers with code.paperswithcode.com웹크로링을 통해 데이터를 수집 했다면 EDA(탑색적 데이터 분석) 및 분석을 통해 데이터를 철저하게 검증해야함레이블이 필요하다면 수집한 데이터에 레이블을.. 2024. 6. 24. 이전 1 다음