본문 바로가기
AI/머신러닝

01. 머신러닝 | 데이터 사이트

by 사라리24 2024. 6. 10.

1. 머신러닝(Machine Learning)

  

 

  •  인공지능: 인공(Artificial) + 지능(Intelligence)
        - 1956: 인간의 지능을 복제하거나 능가할 수 있는 지능형 기계를 만들고자 하는 컴퓨터 과학 분야
  • 개발자에 의한 인공지능, 데이터에 의한 인공지능
  • 머신러닝: 데이터를 기반으로 한 한습(learning)하는 기계(machine)
        - 1997: 기계가 기존 데이터에서 학습하고 해당 데이터를 개선하여 의사 결정 또는 예측을 할 수 있도록 하는 AI의 하위 집합
  • 딥러닝 : 깊은(deep) 신경망 구조의 머신러닝
        - 2017: 신경망 레이어를 사용하여 데이터를 처리하고 결정을 내리는 기계 학습 기술
  • Generative AI
        - 2021: 프롬프트나 기존 데이터를 기반으로 새로운 문서, 시각, 청각 컨텐츠를 생성하는 기술
  • ChatGPT
        - 2022: GPT(Generative Pre-trained Transformer) 시리즈를 기반으로 하는 OpenAI가 개발한 대화형 AI모델

 

 

2. 머신러닝의 정의

  

 

  • 배경: 데이터를 대량으로 수집 처리할 수 있는 환경이 갖춰짐으로 머신러닝으로 할 수 있는 일들이 많아짐
  • 머신러닝은 데이터로부터 특징이나 패턴을 찾아내는 것이기 때문에 데이터가 가장 중요함
  • 인공지능의 한 분야로 컴퓨터가 학습할 수 있도록 알고리즘과 기술을 개방하는 분야
  • "무엇(x)으로 무엇(y)을 예측하고 싶다"의 f(함수)를 찾아내는 것
  • x: 입력변수(독립변수), y:출력변수(종속변수),f모형(머시러닝과 알고리즘)

 

 

3. 머신러닝으로 할 수 있는 것

  

 

1. 회귀(Regression)
* 시계열(시간적인 변화를 연속적으로 관측한 데이터) 데이터 같은 연속된 데이터를 취급할 때 사용하는 기법
* 예측
* 예) 과거 주식 추세를 학습해서 내일의 주가를 예측하는 시스템을 개발

2. 분류(Classification)
* 주어진 데이터를 클래스별로 구별해 내는 과정으로 데이터와 데이터의 레이블 값을 학습시키고 어느 범주에 속한 데이터인지 판단
* 예) 스팸메일인지 아닌지를 구별해주는 시스템을 개발

3. 클러스터링(Clustering)
* 분류와 비슷하지만 데이터에 레이블(정답 데이터)이 없음
* 유사한 속성들을 갖는 데이터를 일정한 수의 군집으로 그룹핑하는 비지도 학습
* 예) sns 데이터를 통해 소셜 및 사회 이슈를 파악

 

 

4. 학습

  

 

1. 지도학습(Supervised Learning)
* 문제와 정답을 모두 학습시켜 예측 또는 분류하는 문제
* y=f(x)에 대하여 입력변수(x)와 출력변수(y)의 관게에 대하여 모델링하는 것
* y에 대하여 예측 또는 분류하는 문제

2. 비지도 학습(Unsupervised Learning)
* 출력 변수(y)가 존재하지 않고, 입력변수(x)간의 관계에 대해 모델링 하는 것
* 군집분석: 유사한 데이터끼리 그룹화
* PCA: 독립변수들의 차원을 축소화

3. 자기지도 학습(Self-Supervised Learning)
* 데이터 자체에서 스스로 레이블을 생성하여 학습에 이용하는 방법
* 다량의 Label이 없는 Raw Data로 부터 데이터 부분들의 관계를 통해 Label을 자동으로 생성하여 지도 학습에 이용하는 비지도 학습 기법
* GPT, BERT 모델

4. 강화학습(Reinforcement Learning)
* 결정을 순차적으로 내려야 하는 문제에 적용
* 레이블이 있는 데이터를 통해서 가중치와 편향을 학습하는 것과 비슷하게 보상이라는 개념을 사용하여 가중치와 편향을 학습하는 것
* 수많은 시뮬레이션을 통해 현재의 선택이 미래에 보상이 최대가 되도록 학습

 


 

5. 데이터 사이트: 캐글(Kaggle)

  

 

  •  구글에서 운영하는 전세계 AI 개발자, 데이터 사이언티스트들이 다양한 데이터를 분석하고 토론할 수 있는 커뮤니티를 제공
  • 데이터 분석 및 머신러닝, 딥러닝 대회를 개최
  •  데이터셋, 파이썬 자료, R 자료 등을 제공
  •  공식 사이트: https://kaggle.com
 

Kaggle: Your Machine Learning and Data Science Community

Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

www.kaggle.com

 

 

 

6. 데이터 사이트: 데이콘(Dacon)

  

 

  • 국내 최초 AI 해커톤 플랫폼
  • 전문 인력 채용과 학습을 할 수 있는 여러가지 AI 자료 등을 제공
  • 공식 사이트: https://dacon.io/
 

데이터사이언티스트 AI 컴피티션

10만 AI 팀이 협업하는 데이터 사이언스 플랫폼. AI 경진대회와 대상 맞춤 온/오프라인 교육, 문제 기반 학습 서비스를 제공합니다.

dacon.io

 

 

7. 데이터 사이트:  AI 허브

  

 

  • 한국지능정보사회진흥원이 운영하는 AI 통합 플랫폼
  •  AI 기술 및 제품 서비스 개발에 필요한 AI 인프라제공
  • 공식 사이트 : https://www.aihub.or.kr/
 

AI-Hub

[한국어] 한국어 음성 #일상 대화 # 쇼핑 대화 # 정치 대화 # 경제 대화 # 취미 대화 # AI 비서 # 동시통역 # 감성형 대화 음성지능 서비스 조회수 53,325 관심등록 125 다운수 14,160

www.aihub.or.kr