AI - 기계학습의 지식표현

업데이트:

기계학습

결정 트리

결정 트리는 트리 형태로 의사결정 지식을 표현한 것이다. 내부 노드는 비교 속성, 간선은 속성 값, 단말 노드는 부류 또는 대표 값을 의미한다.

  • 결정 트리 알고리즘: 모든 데이터를 포함한 하나의 노드로 구성된 트리에서 시작하여 반복적인 노드 분할 과정을 거침
    • ID3 알고리즘, C4.5 알고리즘, C5.0 알고리즘, CART 알고리즘
      • (1) 분할 속성 선택
      • (2) 속성값에 따라 서브 트리 생성
      • (3) 데이터를 속성값에 따라 분배
  • 분할 속성 결정: 분할 결과가 가능하면 동질적인 것으로 만드는 속성 선택
    • 엔트로피: 동질적인 정도 측정 가능 척도(섞인 정도가 클수록 큰 값)
  • 정보 이득: 엔트로피에서 특정 속성으로 분할한 후의 각 부분집합의 정보량 가중 평균을 뺀 값
    • 정보이득이 클수록 우수한 분할 속성
    • 단점: 속성값이 많으면 많은 부분집합으로 분할 -> 작은 부분집합은 동질적인 경향이 존재
    • 개선척도: 정보이득비, 지니 지수
  • 정보이득비: 속성값이 많은 속성에 대해 불이익 부여

  • 지니 지수: 데이터 집합에 대한 지니 값
    • 지니 지수 이득: 지니 지수 – 속성A에 대한 지니 지수 값 가중 평균
  • 회귀 분석을 위한 결정 트리: 단말 노드가 부류가 아닌 수치 값
    • 분할 속성 선택: 표준편차 축소를 최대로 하는 속성 선택


앙상블 분류기

주어진 학습 데이터 집합에 대해서 여러 개의 서로 다른 분류기를 만들고 투표 방식이나 가중치 투표 방식으로 결합

  • 붓스트랩: 주어진 학습 데이터 집합에서 복원 추출하여 다수의 학습 데이터 집합을 만들어 내는 기법
    • 배깅: 붓스트랩을 통해 만들어진 분류기들로 투표나 가중치 투표를 하여 최정 판정을 하는 기법(랜덤 포레스트: 분류기로 결정 트리를 사용)
    • 부스팅: k개의 분류기를 분류 정확도에 따라 학습 데이터에 가중치를 변경해가며 순차적으로 만들어 가는 생성 방법(에이더부스트)


k-근접이웃 알고리즘(KNN)

새로운 데이터에 대해 최 근접한 k개의 데이터 결과정보를 이용하는 방법

데이터 간 거리 계산 -> 근접이웃 탐색 -> 근접 이웃 k개 사이 결과 추정

  • 계층적 군집화: 병합형 계층적 군집화, 분류형 계층적 군집화

  • 분할 군집화: ex) k-means 알고리즘


군집화 알고리즘

데이터를 유사한 것들끼리 모으는 것, 군집 내 유사도는 크게, 군집 간 유사도는 작게 표현

  • K-means 알고리즘: 군집화 알고리즘
    • (1) 군집의 중심 위치 선정
    • (2) 군집 중심을 기준으로 군집 재구성
    • (3) 군집 별 평균 위치 결정
    • (4) 군집 평균 위치로 군집 중심 조정
    • (5) 수렵할 때까지 2-4 과정 반복
    • 특성: 군집의 개수 k는 미리 지정, 초기 군집 위치에 민감


단순 베이즈 분류기

부류 결정지식을 조건부 확률로 베이즈 정리를 이용하여 결정

댓글남기기