AI - 기계학습의 개요, 종류, 대상문제

업데이트:

기계학습

기계학습은 경험을 통해서 나중에 유사하거나 같은 일을 더 효율적으로 처리할 수 있도록 시스템의 구조나 파라미터를 바꾸는 것을 의미한다.
즉, 알고 있는 것으로부터 모르는 것을 추론하기 위한 알고리즘을 설계하는 것이다.

  • 연역적 학습: 연역적 추론을 통한 학습
  • 귀납적 학습: 사례들을 일반화하여 패턴 또는 모델을 추출하는 것.
    • 오컴의 면도날: 가능한 결과를 간단한 형태로 표현하는 것이 좋음.


기계학습의 종류와 문제

  • 지도학습: 입력-출력의 데이터로 출력을 결정할 수 있는 패턴 추출
  • 비지도학습: 출력에 대한 정보가 없는 데이터로부터 필요한 패턴 추출
  • 반지도학습: 일부 학습 데이터만 출력값이 있을 때, 패턴 추출
  • 강화학습: 평가정보를 이용하여 각 상태에서의 행동 결정

1. 지도학습

새로운 입력이 있을 때, 결과를 결정할 수 있도록 하는 방법을 찾아내는 것

1. 분류: 출력이 정해진 부류 중의 하나로 결정

  • 분류 문제의 학습: 학습 데이터를 잘 분류할 수 있는 함수를 찾는 것

  • 분류기: 학습된 함수를 이용하여 데이터를 분류하는 프로그램
    • 이상적인 분류기: 일반화 능력이 좋은 것
  • 데이터의 구분
    • 학습 데이터: 분류기를 학습하는데 사용되는 데이터 집합
    • 테스트 데이터: 학습된 모델의 성능을 평가하는데 사용되는 데이터
    • 검증 데이터: 학습을 중단할 시점을 결정하기위해 사용되는 데이터
  • 과적합: 지나치게 잘 학습된 학습 데이터

  • 부적합: 충분히 학습되지 않은 학습 데이터
    • 회피 방법: 별도의 검증 데이터에 대한 성능 평가(오류가 증가하는 시점에 학습 중단)


2. 회귀: 출력이 연속이 영역의 값 결정

  • 성능: 오차의 정도(예측값과 실제값의 차이)

  • 과적합: 지나치게 복잡한 모델 사용

  • 부적합: 지나치게 단순한 모델 사용

    • 목적함수 = 오차의 합 + (가중치)*(모델 복잡도)
    • 로지스틱 회귀: 파라미터를 찾기 위해 경사 하강법 사용


2. 비지도학습

비지도학습은 결과정보가 없는 데이터들에 대해 특정 패턴을 찾는 것

  • 군집화: 일반 군집화, 밀도 군집화(성능 – 군집내의 분산과 거리)

  • 밀도 추정: 확률분포를 찾는 것(모수적, 비모수적)
  • 차원축소: 고차원의 데이터를 저차원으로 변환(차원의 저주, 주성분 분석)
  • 이상치 탐지: 다른 데이터와 크게 달라서 의심스러운 데이터
    • 이상치: 점 이상치, 상황적 이상치, 집단적 이상치
    • 잡음: 무작위적인 오차, 관심이 없는 제거할 대상


3. 강화 학습

환경과 상호작용을 통해 보상이 최대가 되도록 적합한 행동을 찾는 것


4. 반지도 학습

결과값이 없는 미분류 데이터를 지도학습에 사용하는 방법

  • 평활성 가정: 가까이 있는 점들은 같은 부류에 속할 가능성이 높음
  • 군집 가정: 같은 군집의 데이터는 동일한 부류에 속할 가능성이 높음
  • 매니폴드 가정: 낮은 차원의 매니폴드에 데이터에 분포할 가능성이 높음

댓글남기기