“데이터 과학자 없는 머신러닝” AutoML의 이해

머신러닝(전통적인 머신러닝과 딥러닝 모두) 사용을 가로막는 두 가지 가장 큰 장애물은 기술력과 컴퓨팅 자원이다. 여기서 컴퓨팅 자원 문제는 가속

www.itworld.co.kr

 

 

- 자동화된 머신러닝, AutoML은 머신러닝과 딥러닝 모델을 구축하는 데 있어 기술력을 갖춘 데이터 과학자란 필요조건을 제거하는데 목적

- 레이블링된 학습 데이터를 입력으로 제공하고 최적화된 모델을 출력으로 받을 수 있음

 

- 1) 소프트웨어에서 단순히 데이터에 대해 모든 종류의 모델을 학습시킨 다음 가장 결과가 좋은 모델을 선택하는 방법

- 개량하는 방법 중 하나 : 다른 모델을 결합하는 하나 이상의 앙상블 모델을 만드는 것

- 앙상블 학습 목적 : 모델 예측의 편향 및 분산을 줄이는 것

- 앙상블 학습 종류 : 보팅 (Voting), 배깅 (Bagging), 부스팅 (Boosting), 스태킹 (Stacking)

- 소프트 보팅 (Soft Voting) : 각 분류기의 레이블 값 결정 확률을 평균내고, 그 중에서 가장 확률이 높은 레이블 값을 최종 레이블로 선정

- 하드 보팅 (Hard Voting) : 각 분류기의 결정 확률이 아닌 최종 보팅 결정값으로 가장 많이 선정된 레이블을 최종 레이블로 예측

 

- 2) 최적 모델의 초매개변수 (hyperparameter)를 최적화해서 더 나은 모델을 학습

- 특성 엔지니어링 (Feature Engineering) : 모든 모델 학습에서 유용

- 딥러닝의 탈숙련화 방법 중 하나 : 전이 학습 (Transfer Learning)을 사용해서 기본적으로 잘 학습된 범용 모델을 특정 데이터에 대해 맞춤 구성하는 것

 

 

+ Recent posts