딥러닝
딥러닝 키워드
foxlee
2022. 3. 16. 21:05
어노테이션
- 데이터 어노테이션이란 데이터 셋에 메타데이터를 추가하는 작업
- '태그'형식으로 이미지, 텍스트, 비디오를 비롯한 모든 유형의 데이터에 추가 가능
- 인공지능이 데이터의 내용을 이해할 수 있도록 원천데이터에 주석을 달아주는 작업
- 메타데이터 : 데이터에 대한 데이터, 어떤 목적을 가지고 만들어진 데이터, 다른 데이터를 설명해주는 데이터, 콘텐츠에 부여되는 데이터
- 원천데이터: 라벨링 공정에 투입하기 위해 필요한 전처리 등 정제 작업을 수행한 데이터로 라벨링데이터가 부여되지 않은 상태의 데이터
어노테이션 기법
- 바운딩 박스 (Bounding Box) - 객체의 가장자리에 딱 맞춘 사각형 틀을 그려 캡쳐
- 폴리곤(polygon) - 훨씬 정확하게 객체에 속한 픽셀을 어노테이션 할 수 있는 기법이지만 느림, 객체 테두리의 모든 지점을 표시해 해당 객체를 인식하고, 더 정확하게 인식 시킬수 있음
라벨링
- 라벨링(Labeling)이란 다수의 어노테이션을 통칭하는 개념
- 라벨은 데이터가 아님
- 데이터는 이미지, 영상, 비디오, 텍스트, 오디오 등 추가 콘텐츠나 설명이 첨부되지 않은 자료인 반면,
- 라벨은 원본 데이터에 대한 추가적인 정보가 포함된 마커
학습(Training)
- 축적된 많은 데이터를 바탕으로 각 신경망들의 Weight를 업데이트 해가며 딥러닝 모델을 만들어 가는 과정
- 학습을 위해서는 많은 데이터가 필요하고, 그리고 그 데이터들은 우선 순방향 전파를 통해 각 신경망을 거쳐가고 Loss function을 통해 에러율이 얼마나 되는지 판단하고, 그 에러율을 줄이기 위해 역방향 전파로 다시 신경망을 반대로 지나가면서 각 신경망의 Weight들을 바꿈
- 데이터를 바탕으로 훨씬 긴 시간에 걸쳐 진행되며 여유로운 데드라인을 가지고 진행
추론(Inference)
- 학습을 통해 만들어진 모델을 실제로 새로운 입력 데이터에 적용하여 결과를 내놓는 단계
- 목적은 현재 데이터에 대해서 해당 모델이 원하는 작업을 수행
- 순방향 전파
- 사용자가 해당 모델에 원하는 사항을 요구하고 그것을 실시간으로 수행
데이터셋
- 데이터 파일, 또는 데이터베이스라고도 부르며 컴퓨터가 처리, 분석할 수 있는 정보의 세트
레이블링
- 주어진 데이터에 정답지를 만들어주는 작업, 정답지를 레이블이라고 함
- 딥러닝(Deep Learning)에서 지도학습(Supervised Learning)을 하는 경우, 주어지는 데이터에 대해 레이블이 있어야 하고, 또한 부정확한 레이블로 학습을 하게 되면 모델의 성능이 떨어지기 때문에, 정확한 레이블링이 매우 중요함
- 레이블링이 필요한 딥러닝 기술은 이미지 처리, 자연어 처리 등 매우 많음
컴퓨터 비전(Computer Vision; CV)
- 이미지 분류(Image Classification)
- 여러 클래스가 주어졌을 때, 각 이미지가 어떤 클래스에 속하는지 분류하는 것
- 예를 들어, 수십만 장의 개, 고양이 이미지가 주어지고 이 이미지들을 개와 고양이로 분류하는 작업이 있다고 했을 때, 개와 고양이가 주어진 클래스이고, 개 이미지를 “개”라는 클래스로 분류하고, 고양이 이미지를 “고양이”라는 클래스로 분류하는 작업이 이미지 분류
- 객체 검출(Object Detection)
- 여러 클래스가 주어졌을 때, 각 이미지 내에 주어진 클래스에 속하는 객체를 모두 찾는 것
- 예를 들면, 강아지, 고양이 이미지에서 강아지와 고양이를 검출하는 작업이 있다고 했을 때, 강아지와 고양이가 주어진 클래스이고, 이미지 내의 모든 강아지와 고양이를 찾아 표시하는 작업이 객체 검출
- 객체 검출에서 필요한 레이블링은 각 이미지 내에 주어진 클래스에 속하는 모든 객체의 위치와 알맞은 클래스를 할당하는 것
- 이미지 분할(Image Segmentation)
- 이미지 분할을 크게 의미론적 분할(Semantic Segmentation)과 인스턴스 분할(Instance Segmentation)로 나눌 수 있음
- 의미론적 분할은 이미지 내의 각 픽셀(Pixel)이 주어진 클래스 중 어떤 클래스에 속하는지 분류하는 것
- 인스턴스 분할은 이미지 내에서 주어진 클래스에 속하는 객체를 찾고, 해당 객체에 해당하는 픽셀을 표시하는 것
- 예를 들면, 들판 위에 세 마리의 강아지가 나란히 겹쳐져 있는 사진이 주어졌다고 했을 때, 세 마리의 강아지를 구분하지 않고 각 픽셀에 모두 “강아지”라고 표시하는 것이 의미론적 분할이고, 세 마리의 강아지를 모두 구분하면서 각 픽셀에 “강아지-1”, “강아지-2”, “강아지-3”이라고 표시하는 것이 인스턴스 분할입니다.
- 의미론적 분할에서 필요한 레이블링은 이미지 내 각 픽셀을 알맞은 클래스로 분류하는 것이고,
- 인스턴스 분할에서 필요한 레이블링은 이미지 내 주어진 클래스에 속하는 모든 객체의 픽셀과 알맞은 클래스를 할당하는 것
지도학습
- 문제와 답을 같이 학습하여 올바른 답을 예측하고자하는 방법
- 데이터는 문제와 답을 다 알고 있음
- 데이터와 함께 입력하는 정답 - 레이블
- 분류모델과 예측 모델(회귀)
데이터 분석
- 회귀분석
- 레이블이 실수,그래프에서 특징량을 바탕으로 구분선을 찾아내는 방법 중 하나
- 독립변수와 종속변수의 선형 관계성 기반으로 만들어짐-로지스틱 회귀
- 분류분석
- 레이블이 달린 학습 데이터로 학습한 후 새로 입력된 데이터가 학습했던 어느 그룹에 속하는 지 찾아내는 방법
- 결과값은 학습했던 데이터 레이블 중 하나가 됨
- 예) 주차게이트 번호판 인식, 포토 얼굴 인식
- 군집분석
- 입력된 데이터들의 값에 따라 어떤 데이터들이 좀 더 비슷한 성질을 가지고 있는지 파악하여 비슷한 것들끼리 군집으로 묶어주는 분석방법
- 계층적 군집 분석 - 한 군집이 다른 군집을 포함할 수 있는 구조 - 예) 음악 -> 댄스,발라스,힙합,락 -> 펑크락, 하드락 등 세분화
- 비계층적 군집 준석 - 포함관계를 이루지 않고 서로 독립적인 한 군집을 만듬
- 입력된 데이터들의 값에 따라 어떤 데이터들이 좀 더 비슷한 성질을 가지고 있는지 파악하여 비슷한 것들끼리 군집으로 묶어주는 분석방법
- 시계열 분석
- 이상 검출
참고 링크
1. https://www.samsungsds.com/kr/insights/TechToolkit_2021_Auto_Labeling.html