AI - 기계학습의 개요, 종류, 대상문제
업데이트:
기계학습
기계학습은 경험을 통해서 나중에 유사하거나 같은 일을 더 효율적으로 처리할 수 있도록 시스템의 구조나 파라미터를 바꾸는 것을 의미한다.
즉, 알고 있는 것으로부터 모르는 것을 추론하기 위한 알고리즘을 설계하는 것이다.
- 연역적 학습: 연역적 추론을 통한 학습
- 귀납적 학습: 사례들을 일반화하여 패턴 또는 모델을 추출하는 것.
- 오컴의 면도날: 가능한 결과를 간단한 형태로 표현하는 것이 좋음.
기계학습의 종류와 문제
- 지도학습: 입력-출력의 데이터로 출력을 결정할 수 있는 패턴 추출
- 비지도학습: 출력에 대한 정보가 없는 데이터로부터 필요한 패턴 추출
- 반지도학습: 일부 학습 데이터만 출력값이 있을 때, 패턴 추출
- 강화학습: 평가정보를 이용하여 각 상태에서의 행동 결정
1. 지도학습
새로운 입력이 있을 때, 결과를 결정할 수 있도록 하는 방법을 찾아내는 것
1. 분류: 출력이 정해진 부류 중의 하나로 결정
-
분류 문제의 학습: 학습 데이터를 잘 분류할 수 있는 함수를 찾는 것
- 분류기: 학습된 함수를 이용하여 데이터를 분류하는 프로그램
- 이상적인 분류기: 일반화 능력이 좋은 것
- 데이터의 구분
- 학습 데이터: 분류기를 학습하는데 사용되는 데이터 집합
- 테스트 데이터: 학습된 모델의 성능을 평가하는데 사용되는 데이터
- 검증 데이터: 학습을 중단할 시점을 결정하기위해 사용되는 데이터
-
과적합: 지나치게 잘 학습된 학습 데이터
- 부적합: 충분히 학습되지 않은 학습 데이터
- 회피 방법: 별도의 검증 데이터에 대한 성능 평가(오류가 증가하는 시점에 학습 중단)
2. 회귀: 출력이 연속이 영역의 값 결정
-
성능: 오차의 정도(예측값과 실제값의 차이)
-
과적합: 지나치게 복잡한 모델 사용
-
부적합: 지나치게 단순한 모델 사용
- 목적함수 = 오차의 합 + (가중치)*(모델 복잡도)
- 로지스틱 회귀: 파라미터를 찾기 위해 경사 하강법 사용
2. 비지도학습
비지도학습은 결과정보가 없는 데이터들에 대해 특정 패턴을 찾는 것
-
군집화: 일반 군집화, 밀도 군집화(성능 – 군집내의 분산과 거리)
- 밀도 추정: 확률분포를 찾는 것(모수적, 비모수적)
- 차원축소: 고차원의 데이터를 저차원으로 변환(차원의 저주, 주성분 분석)
- 이상치 탐지: 다른 데이터와 크게 달라서 의심스러운 데이터
- 이상치: 점 이상치, 상황적 이상치, 집단적 이상치
- 잡음: 무작위적인 오차, 관심이 없는 제거할 대상
3. 강화 학습
환경과 상호작용을 통해 보상이 최대가 되도록 적합한 행동을 찾는 것
4. 반지도 학습
결과값이 없는 미분류 데이터를 지도학습에 사용하는 방법
- 평활성 가정: 가까이 있는 점들은 같은 부류에 속할 가능성이 높음
- 군집 가정: 같은 군집의 데이터는 동일한 부류에 속할 가능성이 높음
- 매니폴드 가정: 낮은 차원의 매니폴드에 데이터에 분포할 가능성이 높음
댓글남기기