1. 컴퓨터 비전(Computer Vision)
* 인공지능(AI)의 한 분야로, 컴퓨터와 시스템을 통해 디지털이미지, 비디오 및 기타 시각적 입력에서 의미있는 정보를 추출한 다음 이런 정보를 바탕으로 작업을 실행하고 추천할 수 있게 함
- AI -> 생각
- 컴퓨터 비전 -> 보기, 관찰, 이해
2. 데이터셋
* 컴퓨터 비전 모델은 데이터 모음(일반적으로 이미지, 비디오 또는 기타 시각적 정보)를 학습
* 데이터셋은 모델의 성능을 결정하는데 중요(양과 품질)
* 데이터셋의 크기는 모델이 학습 중에 본 예제의 수를 타나내기 때문에 중요
* 데이터셋의 품질은 주석이 잘못 지정되거나 레이블이 잘못 저장된 경우 모델의 성능에 많은 부정적 영향을 줄 수 있다.
* 다양한 개체 변형의 존재, 조명조건, 배경 등을 포함한 데이터셋의 다양성도 모델의 견고성을 보장하는 데 중요
1. 어노테이션(주석)
|
- 주석은 데이터 집합의 데이터의 정보 또는 레이블을 추가하는 프로세스
- 예) 이미지에서 특정 개체의 존재, 이미지 내 개체의 위치 또는 속성(색상, 크기, 모양 등)을 나타내는 레이블이 포함
- 어노테이션은 데이터셋에 수동으로 추가하거나 컴퓨터 알고리즘을 사용하여 자동으로 생성할 수 있음
|
2. 어노테이션 종류
|
- Bounding Box: 이미지 내에서 개체의 위치 및 크기를 정의하는 작업, 개체 주위에 box를 그리고 클래스로 label을 지정
- Keypoint : 개채 내의 특정 관심 지점을 표시하는 작업. 예) 이미지 내 사람의 관절의 위치를 예측이 목표인 작업
- Segmentation : 이미지 내에서 개체의 경계를 정의
|
3. 어노테이션 의 방법
|
- 수동 주석: 마우스 또는 스타일러스와 같은 도구를 사용하여 이미지 내의 각 개체 수동으로 레이블을 지정하는 작업, 가장 시간이 많이 걸리지만 최고 수준의 제어와 정확성을 제공
- 반자동 주석: 컴퓨터 지원 도구를 사용하여 주석 프로세스의 속도를 높이는 작업
- 자동 주석: 컴퓨터 알고리즘을 사용하여 이미지 내의 개채에 자동으로 레이블을 지정하는 작업. 가장 빠르지만 정확도가 가장 낮음
|
4. 유명 데이터셋
|
- PASCAL VOC(Visual Object Classed)
- COCO(Common Object in Context)
- COCO: https://cocodataset.org/#home
- 컴퓨터 비전을 위한 대규모 이미지 인식 데이터셋
- Microsoft Research에서 만듦
- 이미지 및 비디오의 개체를 인식하기 위한 알고리즘을 개발하고 평가할 수 있도록 설계
- 디지털 카메라, 웹페이지 및 스캔 이미지를 포함한 다양한 소스에서 수집된 330,000개 이상의 이미지
- 사람, 동물, 차량 및 일상적인 개체를 비롯한 80개의 다양한 개체 포함
- ImageNet
- ImageNet: https://www.image-net.org/
- 스탠포드 비전 랩과 프린스턴 대학에서 만듦
- 디지털 카메라, 웹 페이지 및 스캔 이미지를 포함한 다양한 소스에서 수집 된 1,400만개 이상의 이미지
- 사람, 동물, 차량 및 일상적인 개체를 비롯한 1000개의 다양한 개체 포함
- 1000개의 개체 범주 집합에서 하나 이상의 클래스 레이블이 주석으로 지정
- KITTI(Karlsruhe Institute of Technonlogy and Toyota Technological Institute at Chicago)
- KITTI : https://www.cvlibs.net/datasets/kitti/
- 컴퓨터 비전 및 로봇 공학을 위한 데이터셋
- 움직이는 차량에서 캡쳐한 이미지 및 비디오에서 객체 인식 및 감치를 위한 알고리즘의 개발 및 평가를 위하 실제 데이터를 제공
- 움직이는 차량에서 캡쳐한 7000개 이상의 이미지와 비디오로 구성
- 도시 및 농촌 환경, 도로, 건물, 차량 및 보행자를 포함한 다양한 개체와 장면
- 주석에는 3D 공간에서 개체의 위치와 방향에 대한 정보를 포함
|
3. 영상(Image)
- 픽셀이 바둑판 모양의 격자에 나열되어 있는 형태
(픽셀(Pixel): 이미지를 구성하는 가장 작은 단위)
- 2차원 행렬
1. 영상종류
|
- 그레이스케일 영상
- 흑백 사진처럼 색상 정보가 없는 영상
- 밝기 정보만으로 구성된 영상
- 밝기 정보는 256단계로 표현(0 ~ 255)
- 8bit에 저장 = 1byte
- 가로크기 * 세로크기 = 이미지 용량
예) 28 * 28 = 784 bytes
- 트로컬러 영상
- 컬러 사진처럼 색상 정보를 가지고 있기 때문에 다양한 색상을 표형할 수 있는 영상
- red, green, blue 색 성분을 사용하고 각 256단계로 표현
- 픽셀의 표현 -> (255, 255, 255) | 튜플 형태
- 3byte
- 가로크기 * 세로크기 * 3 = 이미지 용량
예) 28 * 28 * 3 = 2352 bytes
|
2. 영상파일 형식
|
- BMP
- 픽셀 데이터를 압축하지 않고 그대로 저장
- 용량이 매우 큼(픽셀이 일반적인 크기)
- 파일 구조가 단순해서 별도의 라이브러리 없이 프로그래밍이 가능
- JPG(JPGE)
- 압축률이 좋아서 파일 용량이 크게 감소
- 사진과 같은 컬러영상을 저장
- 손실 압축
- GIF
- 움직이는 영상 지원
- 256색 이하의 영상을 저장
- 무손실 압축
- PNG
- 웹 이미지용으로 권장
- 손실, 손실 압축
- 알파 태널(투명도)을 지원
(255, 255, 255, 1)
|