AI 25

[ML] 앙상블 학습 - 랜덤 포레스트

랜덤 포레스트란?랜덤 포레스트(Random Forest)랜덤 포레스트(Random Forest)는 배깅(Bagging) 기법을 기반으로 한 앙상블 학습 모델입니다.여러 개의 결정 트리(Decision Tree)를 학습시키고, 그 예측 결과를 결합하여 최종 예측을 수행합니다.각 트리가 독립적으로 학습되기 때문에, 과적합을 방지하고 예측 성능을 향상시킬 수 있습니다.랜덤 포레스트의 주요 특징:결정 트리 기반:랜덤 포레스트는 여러 개의 결정 트리를 결합합니다. 각 결정 트리는 데이터의 특성에 따라 예측을 수행합니다.배깅 기법 적용:각 트리는 데이터 샘플의 부트스트랩 샘플(bootstrap sample)을 사용하여 훈련됩니다. 이는 원본 데이터에서 무작위로 샘플을 뽑고 중복을 허용하는 방식입니다.각 트리는 독립..

AI/ML 2024.12.29

[ML] 앙상블 학습 - 배깅, 부스팅, 스태킹

앙상블 학습이란?앙상블 학습(Ensemble Learnning)여러 개의 학습 모델을 결합하여 하나의 강력한 모델을 만드는 기법앙상블 학습은 개별 모델의 예측을 결합함으로써, 단일 모델보다 더 높은 예측 성능과 일반화 능력을 얻을수 있음주요 기법으로는 배깅(Bagging) 과 부스팅(Boosting) 이 있음배깅이란?배깅(Bagging, Bootstrap Aggregating)여러 개의 학습 모델을 병렬로 학습시키고그 예측 결과를 평균 또는 다수결로 결합하는 앙상블 기법배깅은 데이터의 샘플링 과정에서 부트스트래핑(Bootstrap) 기법을 사용하여,원본 데이터셋에서 중복을 허용한 무작위 샘플을 생성각 모델은 서로 다른 데이터 샘플을 학습하게 되어,모델 간의 상관성을 줄이고 예측 성능을 향상시킴 배깅의 장..

AI/ML 2024.12.29

[ML] 비지도학습 - 차원축소 (LDA)

LDA 란? LDA (Linear Discriminant Analysis, 선형 판별 분석)차원축소와 분류 에 모두 사용될 수 있는 비지도 학습 기법클래스 간의 분산을 최대화하고, 클래스 내 분산을 최소화 하는 방향으로 데이터를 변환데이터의 분류 성능을 향상시키고, 저차원 공간에서 데이터의 구조를 시각화할 수 있음LDA의 주요 목표차원 축소: 고차원 데이터를 저차원 공간으로 변환하여 시각화하거나, 계산 효율성을 높입니다.분류 성능 향상: 차원 축소 후에, 더 구분하기 쉬운 클래스를 만드는 방향으로 데이터를 변환하여, 분류 모델의 성능을 향상시킵니다.클래스 간 분리: 각 클래스가 서로 최대한 분리되도록 데이터를 변환합니다.LDA 작동 원리LDA는 다음과 같은 과정으로 작동합니다:클래스 간 분산 (Betwe..

AI/ML 2024.12.29

[ML] 비지도학습 - 차원축소 (t-SNE)

t-SNE 란? t-SNE (t-Distributed Stochastic Neighbor Embedding)고차원 데이터를 저차원으로 변환하여 시각화하는 차원 축소 기법데이터 포인트 간의 유사성을 보존하면서, 고차원 데이터를 2차원  또는 3차원 공간으로 변환데이터의 구조와 패턴을 시각적으로 이해할 수 있다주요 개념1. 고차원 공간에서의 데이터 관계 유지:데이터 포인트 간의 유사도를 고차원 공간과 저차원 공간 모두에서 확률로 정의하고,이를 최대한 일치시키도록 저차원 임베딩을 생성2. 확률적 유사도 정의:고차원 공간 : 각 데이터 포인트 i 와 j 사이의 유사도를 조건부 확률 p 로 정의 저차원 공간 :여기서 t-분포를 사용하여 거리 계산의 민감도를 줄입니다.3. 목적 함수 : 두 확률 분포 P 와 Q 간..

AI/ML 2024.12.29

[ML] 비지도학습 - 차원축소 (PCA)

PCA 란? PCA (Principal Component Analysis, 주성분 분석) 고차원 데이터를 저차원으로 변환하는 차원 축소 기법PCA 는 데이터의 분산을 최대한 보존하면서, 데이터의 주요 특징을 추출해 저차원 공간으로 변환데이터의 시각화, 노이즈 제거, 계산 효율성 향상 등의 이점이 있음주요 목표데이터 압축: 데이터의 구조를 최대한 유지하면서 차원을 줄여 메모리 사용량 및 계산 복잡도를 감소시킴.특징 추출: 중요한 특징(주성분)을 식별해 분석 및 시각화에 활용.노이즈 제거: 데이터의 주요 정보를 보존하며 불필요한 노이즈를 제거.PCA 작동 원리1. 평균 중심화 (Mean Centering):각 데이터 특징(feature)의 평균값을 0, 분산을 1로 맞춤2. 공분산 행렬 계산 (Covaria..

AI/ML 2024.12.29

[ML] 비지도학습 - 군집화모델 (DBSCAN)

DBSCAN 이란?DBSCAN (Density-Based Spatial Clustering of Applications with Noise)DBSCAN은 밀도 기반 군집화 알고리즘으로,데이터의 밀도(density)에 따라 클러스터를 형성하며, 이상치(outlier)를 효과적으로 처리할 수 있는 비지도 학습 알고리즘입니다.밀도가 높은 영역을 군집으로 간주하고, 밀도가 낮은 영역은 노이즈로 처리핵심 개념DBSCAN은 다음의 두 가지 주요 개념을 기반으로 작동합니다:ε-이웃 (Epsilon Neighborhood, ε):특정 데이터 포인트를 중심으로 반경 ε 내에 포함된 다른 데이터 포인트들을 말합니다.밀도 기준 (Density Criterion):포인트는 밀도를 기준으로 세 가지로 분류됩니다:코어 포인트(C..

AI/ML 2024.12.29

[ML] 비지도학습 - 군집화모델 (계층적 군집화)

계층적 군집화 란? (Hierarchical Clustering)계층적 군집화는 데이터 포인트를 계층 구조(hierarchy)로 그룹화하는 비지도 학습 기법입니다.클러스터의 수를 사전에 정의할 필요 없이, 데이터 간의 유사도를 기반으로 그룹화 과정을 시각적으로 표현할 수 있습니다.이 방법은 병합형(Agglomerative)과 분할형(Divisive) 두 가지 주요 방식으로 나뉩니다.1. 병합형 군집화 (Agglomerative Clustering)Bottom-up 접근법을 사용하여 모든 데이터 포인트를 각각 하나의 클러스터로 시작합니다.각 반복 단계에서 가장 가까운 두 클러스터를 합치며, 최종적으로 하나의 클러스터가 될 때까지 진행합니다.2. 분할형 군집화 (Divisive Clustering)Top-d..

AI/ML 2024.12.29

[ML] 비지도학습 - 군집화모델 (K-means Clustering)

K-means clustering 이란?K-means clustering은 데이터 포인트를 비슷한 특성을 가진 그룹(클러스터)으로 나누는 비지도 학습(Unsupervised Learning) 알고리즘입니다. 이 방법은 주어진 데이터셋을 사용자가 지정한 k개의 클러스터로 분할하는 것을 목표로 합니다.작동 원리초기화 (Initialization):k개의 클러스터 중심(centroid)을 무작위로 선택합니다.할당 단계 (Assignment Step):각 데이터 포인트를 가장 가까운 중심에 할당하여 클러스터를 형성합니다."가장 가까운"은 일반적으로 유클리드 거리(Euclidean Distance)를 기준으로 합니다.갱신 단계 (Update Step):각 클러스터의 중심을 해당 클러스터에 속한 데이터 포인트의 평..

AI/ML 2024.12.29

[ML] 지도학습 - 분류모델 (의사결정나무)

의사결정나무 란?의사결정나무(Decision Tree) 는 머신러닝에서 널리 사용되는 지도학습 알고리즘으로,데이터를 계층적으로 나누어 예측하거나 분류하는 데 사용된다.직관적이고 시작적으로 이해하기 쉬운구조를 가지며, 분류와 회귀 문제 모두에 활용될 수 있다. 트리구조를 가지며, 각 내부 노드는 데이터의 특정 feature 에 대한 테스트를 나타내고, 각 가지(branch)는 테스트 결과를 나타내며, 각 리프노드(leaf) 는 클래스레이블을 나타낸다의사결정나무의 기본 개념트리 구조:루트 노드(Root Node): 트리의 최상단 노드로, 전체 데이터셋을 나타냅니다.분기(Branch): 데이터를 특정 기준에 따라 나누는 과정.내부 노드(Internal Node): 데이터를 나누는 기준(결정 규칙)이 포함된 노..

AI/ML 2024.12.29

[ML] 지도학습 - 분류모델 (나이브 베이즈)

나이브 베이즈 (Naive Bayes) 란?확률에 기반한 머신러닝 알고리즘베이즈 정리를 기반으로 하는 통계적 분류 기법나이브 라는 이름이 붙은 이유는 각 특징(feature) 이 독립적이라고 가정하기 때문주로 텍스트 분류 문제에서 널리 사용데이터가 특정 클래스에 속할 확률을 계산하는 분류 모델임나이브 베이즈의 주요 개념1. 베이즈 정리:나이브 베이즈는 베이즈 정리를 기반으로 동작합니다. 베이즈 정리는 다음과 같은 수식으로 표현됩니다: P(C|X) : 데이터 X 가 주어졌을 때, 클래스 C 에 속할 확률 (사후 확률, Posterior Probability)P(X|C) : 클래스 C 가 주어졌을 때, 데이터 X 가 나타날 확률 (우도, Likelihood)P(C) : 클래스 C 가 나타날 확률 (사전 확률..

AI/ML 2024.12.29