정리 필요

인공지능(AI)/머신러닝(ML)/딥러닝(DL)

statschan2 2023. 1. 12. 21:16
728x90

1. 인공지능, 머신러닝, 딥러닝

기본적으로 인공지능은 머신러닝을 포함하고, 머신러닝은 딥러닝을 포함한다.

간단하게 표현하면 인공지능⊃머신러닝⊃딥러닝 으로 생각해 볼 수 있다.

그림으로 그려보면 다음과 같다.

2. 인공지능

인공지능(AI)는 Artificial Intelligence로 인간의 지적 능력인 학습 능력, 추론 능력, 지각 능력등이 필요한 작업을 컴퓨터 시스템으로 구현한 것을 말한다.

여기서 인간을 포함한 동물이 가진 지적능력인 Natural Intelligence와는 다른 개념이니 주의가 필요하다.

 이런 인공지능을 가능하게 만들어준 개념이 바로 머신러닝이다.

3. 머신러닝

머신러닝(ML)은 Machine Learning으로 말 그대로 기계 학습을 뜻한다.

즉, 인공지능을 만들기 위해 기계를 학습시키는 것으로 쉽게 이해할 수 있다.

과거 대용량 데이터를 저장하고, 처리하는 컴퓨터 시스템이 존재하지 않았지만 부족했던 부분의 개발로 인해 머신러닝이 대두되었다.

기계를 인간처럼 학습시켜 스스로 규칙을 만드는 기술로 주로 통계적인 접근 방법을 활용한다.

1). 머신러닝을 위해 필요한 과목 및 학습

머신러닝을 위해서는 수학과 통계학이 반드시 필요하다.

- 선형대수학 : 고차원 데이터를 다루기 위해 행렬의 연산을 필요로 한다.

- 수치해석학 : 비선형 모델을 컴퓨터로 처리하기 위해 필요로 한다.

- 미분적분학 : 머신러닝에서 가장 많이 활용되는 개념인 Gradient Descent(경사 하강법)을 위해 필요한 과목이다.

- 수리통계학 : 회귀분석, 확률분포, 조건부확률 등의 개념을 수리적으로 다루는 역량이 필요하다.

- 프로그래밍언어 : R, Python 등의 언어를 활용하기 때문에 필수적인 부분이다.

2). 학습 종류에 따른 분류

크게 지도학습, 비지도학습, 강화학습으로 분류할 수 있다.

① 지도학습

지도학습은 쉽게 표현하면 정답을 알고 있는 데이터를 활용한 기술이다.

지도학습의 대표적인 분류는 Train Data를 이용하여 학습을 진행한 후 모델을 생성하고, 이렇게 생성된 모델에 새로운 값이 주어졌을 때 예측하는 것이다.

이처럼 기존 데이터를 머신러닝 알고리즘(분류)을 활용하여 새롭게 관측된 데이터를 판별하는 것이다.

지도학습은 크게 분류와 회귀로 구분한다.

이 둘의 차이는 바로 목표변수의 차이다.

분류(Classification)의 경우 목표변수로 이산형 변수값을 가진다.

예를 들면 생존, 양성/음성, 가입/미가입 등을 생각할 수 있다.

다음으로 회귀(Regression)는 목표변수로 연속형 변수값을 가진다.

예를 들어 온도, 길이 등을 생각할 수 있다.

지도학습은 사람의 개입이 있어 정확도는 높지만 시간이 오래 걸리고, 대용량 데이터가 필요하다는 단점이 있다.

더 구체적인 지도학습의 종류는 다음과 같다.

분류
(Classification)
설명 회귀
(Regression)
설명
나이브 베이즈
(Naive Bayes)
베이즈 통계 기반 선형 회귀
(Linear Regression)
분류와 동일
로지스틱 회귀
(Logistic Regression)
독립변수와 종속변수의
선형 관계를 기반
의사결정나무
(Decision Tree)
분류와 동일
의사결정나무
(Decision Tree)
데이터의 균일도에 따른
규칙을 기반
앙상블
(Ensemble)
분류와 동일
앙상블
(Ensemble)
서로 다른 머신러닝
알고리즘을 결합
   
앙상블에는 랜덤 포레스트, 그래디언트 부스팅,
XGBoost 등의 알고리즘이 있다.
   
서포트 벡터 머신
(Support Vector Machine)
개별 클래스 간의
최대 분류 마진을 기반
   
최소 근접 알고리즘
(Nearest Neighbor)
근접 거리를 기반    
인공 신경망
(Neural Network)
심층 연결을 기반    

② 비지도학습

쉽게 표현하면 정답이 없는 상태에서 Train Data를 이용하여 학습을 진행하는 방법이다.

정답이 없기 때문에 주로 예측의 문제보다 현상 설명, 패턴 도출 등의 문제에 많이 활용된다.

대표적인 비지도학습은 Clustering(군집)과 PCA(주성분 분석) 등이 있다.

③ 강화학습

강화학습은 선택 가능한 행동 중 보상을 최대화하는 행동이나 순서를 선택하는 방법이다.

컴퓨터의 선택에 따라 보상이 주어지고, 선택의 결과로 나타나는 보상을 토대로 학습을 진행한다.

강화학습은 보상을 최대한 많이 얻도록 하는 행동을 유도하도록 학습을 진행한다.

4. 딥러닝

딥러닝은 여러 비선형 변환 기법의 조합으로 높은 수준의 추상화를 시도하는 머신러닝 알고리즘의 집합이다.

신경망을 여러 층을 쌓아서 만들기 때문에 은닉층 사용으로 결과에 대한 해석이 어렵다는 단점이 있다.

딥러닝의 종류는 다음과 같다.

1). DNN(Deep Neural Network)

은닉층을 심층 구성하여 학습하는 알고리즘이다.

입력층, 다수의 은닉층, 출력층으로 구성되어 있고, 가중치가 곱해져 다음 층으로 이동한다.

2). CNN(Convolution Neural Network)

시각적 이미지를 분석하는 데 사용되는 기법으로 합성곱 신경망이라고도 한다.

기존 영상처리 필터 기능과 신경망 기능을 결합한 구조로 필터 기능을 이용하여 입력 이미지로부터 특징을 추출한 뒤 신경망에서 분류작업을 수행한다.

3). RNN(Recurrent Neural Network)

입력층, 은닉층, 출력층으로 구성되며 은닉층에서 재귀 신경망을 가지는 알고리즘이다.

음성신호, 연속적 시계열 데이터 분석에 적합하지만 장기 의존성 문제와 기울기 소실 문제가 발생하여 학습에 어려움이 있다.

 

 

반응형