본문 바로가기
인공지능(AI)/파이썬 딥러닝 머신러닝 입문

[머신러닝 입문]-2. 머신러닝에 대하여

by LIZ0904 2021. 3. 27.
반응형

머신러닝(Machine Learning)은 레이블(Lable)이 있는 입력 데이터를 모델에 투입하면, 머신러닝 모델이 입력데이터와 정답 사이의 관계를 찾는다. 따라서 새로운 데이터를 입력했을 때 모델이 파악한 관계식을 적용하여 결과를 예측할 수 있다. 정답이 주어지지 않는 경우 데이터 속에 숨어 있는 패턴이나 규칙을 알아내는 것도 가능하다. 이처럼 사람이 어떤 규칙을 정하는 것이 아니라, 컴퓨터가 스스로 데이터를 학습하여 문제를 해결하는 과정을 말한다.

 

 

 

머신러닝은 정답을 알고 있는지에 대한 유무에 따라 지도학습(supervised learning)과 비지도학습(unsupervised learning)으로 나뉜다.

 

지도학습

지도학습은 입력데이터 X와 출력데이터 Y를 모두 알고 있는 상태에서, X와 Y의 관계식을 알아내는 머신러닝 알고리즘을 말한다. 이때, 예측 목표가 되는 Y변수를 목표변수 또는 타깃(target)이라고 하고, 목표 변수를 예측하는데 사용되는 X변수를 설명 변수 또는 피처(feature)라고 부른다. 예측할 새로운 X데이터가 주어졌을 때 모델학습을 통해 찾아낸 관계식에 X를 대입하면 목표 변수인 Y를 예측할 수 있다.

 

지도학습의 유형 중 회귀(regression)와 분류(classification)에 대해서 알아보자!

 

회귀 문제는 설명변수(x)와 목표변수(y) 사이의 회귀 관계식을 찾는다. 이때, 목표변수는 연속적인 값을 갖는 숫자형 데이터다.

ex) 과거의 주가 데이터로 미래의 주가 예측하기

 

분류 문제는 설명변수(x)와 목표변수(y) 사이의 관계식을 찾지만, 예측하려는 목표가 연속적이지 않고, 10, 20과 같이 이산적인 값을 갖는 경우를 말한다. 이진 분류와 다중분류가 이에 속한다.

ex) 개 사진과 고양이 사진 중 개/고양이를 분류 하는 것, 0~9 숫자 카드 중 어떤 숫자인지 분류하는 것

 

비지도학습

비지도학습은 입력데이터 X만 제공되고, 정답 Y가 주어지지 않는 머신러닝 유형이다. 따라서 정답 Y를 예측하는 것이 목표가 되는게 아니라, X 데이터 사이에 존재하는 패턴 또는 규칙을 찾는 것이 목표가 된다. 대표적으로 서로 비슷한 데이터끼리 묶어서 그룹을 나누는 군집(clustering) 분석이 있다.

 

머신러닝 프로세스

머신러닝 프로세스는 데이터를 불러오는 것부터 시작해서 가공 및 모델 학습을 거쳐 결과물을 제출하는 과정을 단계적으로 구축한 것을 말한다.

 

1. 문제파악(Problem)

해당 분야의 지식을 습득한다. 데이터 분석의 목표를 설정하고, 분석방법과 일정을 수립한다. 

2. 데이터 탐색(EDA)

내/외부 데이터를 활용하고, 데이터의 이상 유무를 확인한다. 데이터가 누락된 결측값(missing value)이나 정상 범위를 벗어난 이상치(outlier)가 있는지 확인한다. 마지막으로 데이터 구조 및 특성을 파악하고 데이터의 분포와 상관관계를 탐색한다.

3. 데이터 전처리(Preprocessing)

모델학습이 가능한 형태로 데이터를 정리한다. 내/외부 데이터를 병합하고, 데이터 탐색 단계에서 확인한 결측값과 이상치를 처리한다. 새로운 속성을 추가하거나 불필요한 속성을 제거하기도 한다.

4. 모델 학습(Modeling)

모델 학습에 필요한 훈련 데이터(train data)와 모델 성능을 평가하기 위한 검증 데이터(validation data)를 구분한다. 예측 알고리즘을 선택하고 모델을 설계한다. 훈련 데이터를 입력하여 모델을 학습 시키고 검증 데이터를 입력하여 학습을 마친 모델의 성능을 평가한다. 모델 성능을 높일 수 있도록 하이퍼파라미터(hyperparameter)를 튜닝하고 최종 모델을 선택한다.

5. 예측(Solution)

테스트 데이터를 모델에 입력하고, 모델이 예측한 값을 형식에 맞게 정리한다. 

 

 

 

 

 

 

 

 

참고 문헌:

도서

파이썬 딥러닝 머신러닝 입문 (오승환: 정보문화사)

 

 

이 책 짱좋다 교보문고에서 사장

www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&barcode=9788956749006

 

파이썬 딥러닝 머신러닝 입문 - 교보문고

이 책은 코드를 직접 입력하고 실행하는 데 필요한 기본적인 환경을 ‘구글 코랩’을 활용하여 파이썬의 가장 기본적인 문법 중 핵심적인 내용만 간단하게 설명한다. 머신러닝과 딥러닝을 직접

www.kyobobook.co.kr

 

반응형

댓글