일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 내적
- 조합
- 확률
- 엔트로피
- 퍼셉트론
- 머신러닝
- 확률과 통계
- 역행렬
- 분류
- 연속확률변수
- 경사하강법
- 다층 퍼셉트론
- 선형대수
- 선형회귀
- 벡터
- 결합확률
- 이산확률분포
- 조건부확률
- 행렬의 곱셈
- 연속확률분포
- 정규분포
- 서포트 벡터 머신
- 최소제곱법
- 행렬
- 확률과통계
- 노름
- 베이즈정리
- 이산확률변수
- 신경망
- 의사결정나무
- Today
- Total
목록분류 전체보기 (12)
데이터사이언티스트 성장기

퍼셉트론 퍼셉트론은 딥러닝과 신경망의 기초가 되는 알고리즘입니다. 퍼셉트론은 인공신경망의 한 종류로서 다수의 입력을 받아 하나의 신호를 출력하는 구조로 이루어져 있습니다. 위 그림에서 x1과 x2가 각각 입력, y는 출력, w1과 w2는 입력에 적용되는 가중치를 의미합니다. 즉 퍼셉트론은 각각의 입력 신호에 가중치를 적용한 후 그 값의 총합이 임계값을 넘어서면 활성화되어 1이 출력되고, 그렇지 못하면 0이 출력되는 구조입니다. 식으로 나타낸다면 다음과 같습니다. $$ y = \begin{cases} 0, & \mbox{w1 x1 + w2 x2 ≤ θ} \\ 1, & \mbox{w1 x1 + w2 x2 > θ} \end{cases}$$ 퍼셉트론의 활용 위 같은 퍼셉트론을 활용하여 간단한 논리 회로 문제를 ..

의사결정나무 의사결정나무(Decision Tree)란 나무 구조를 사용하여 의사결정 구조를 나타냅니다. 스무고개 놀이를 떠올린다면 의사결정나무의 구조를 쉽게 이해할 수 있습니다. 이런식으로 의사결정나무는 몇가지 질문을 통해 결과를 나누는 구조로 이루어져 있습니다. 엔트로피 의사결정나무는 여러 질문을 통해 결과를 나누기 때문에 어떤 질문을 어떤 순서로, 어느정도로 물을 것인지 정하는 것이 중요합니다. 가장 이상적인 질문은 예측하려는 값에 대하여 가장 많은 정보를 담고 있는 질문입니다. 예를 들어 Input으로 들어온 어떤 동물을 곰,고양이,뱀으로 분류하려고 할 때, '다리가 있나요?' 라는 질문의 결과를 통해 뱀을 한번에 분류할 수 있습니다. 이런 식으로 그 대상에 대해 가장 확정적인 정보로 가장 먼저 질..

서포트 벡터 머신 (SVM) 은 두 범주의 데이터를 분류하기 위한 기준선을 잡는 모델입니다. 그래서 새 데이터가 들어왔을 때 이 기준선을 바탕으로 어떤 범주에 속하는 데이터인지 분류할 수 있습니다. 이렇게 빨간 점들과 파란 점들을 구분하는 적절한 선을 찾는 모델입니다. 2차원이 아니라 3차원 상의 데이터들은 평면이 경계가 되어 분류되게 됩니다. 그렇다면 이 최적의 경계를 어떻게 정해야 할까요? 확실한 분류를 하기 위해선 이 경계선이 양쪽 범주에 속한 데이터들로부터 최대한 멀리 떨어져야합니다. 한쪽에 치우쳐저 있다면 좋은 경계선이 아니겠죠 여기서 서포트 벡터와 마진의 개념을 사용하게 됩니다. 서포트 벡터란 경계선에서 가장 가까운 각 범주의 데이터를 의미합니다. 그리고 이 서포트 벡터와 경계선까지의 거리를 ..

선형회귀(Linear Regression)란 종속변수 y와 한 개 이상의 독립변수들 x간의 상관관계를 모델링하는 분석을 말합니다. 선형회귀에서는 x라는 변수의 값이 변함에 따라 y의 값이 영향을 받아 변화하게 되는 상황에서 이 변수들 간의 관계를 가장 잘 나타낸 함수를 찾는 과정을 가지게 됩니다. 예를 들어 여러 사람들의 키와 몸무게 데이터를 나타낸 그래프가 있습니다. 위 그래프는 눈대중으로 보아도 일반적으로 키가 큰 사람일수록 몸무게가 많이 나가는 경우가 많다는 것을 알 수 있습니다. 즉, 키와 몸무게 사이에 어느 정도 상관관계가 있어 보입니다. 이때, 저 점들의 관계성을 나타내는 직선을 그어보겠습니다. 정확하진 않겠지만 대충 이런 직선으로 두 변수간의 관계를 나타낼 수 있을 것 같습니다. 이때, 가..
베이즈 정리란 사건 A, B가 존재할 때 사건 B가 발생함으로서 기존의 사건 A의 확률이 어떻게 변하는가를 나타낸 정리입니다. 기존의 존재하던 사건 H가 일어날 확률을 P(H)라고 할 때, 이후 발생한 사건 E에 의해 사건 H가 발생할 확률이 P(H|E) 로 변하게 되는 현상을 구하게 됩니다. 베이즈 정리는 공식으로 나타내면 다음과 같습니다. $$P(H|E) = {{P(H,E)}\over{P(E)}}= {{P(E|H)P(H)}\over{P(E)}}$$ 여기서 기존의 존재하던 사건 H가 발생할 확률, 즉 사전확률을 P(H), 사건 E가 발생함으로서 변화된 H의 발생확률, 즉 사후확률을 P(H|E)라고 합니다. 예시를 통해 베이즈 정리 활용법을 알아보겠습니다. 10000명 중 1명이 걸리는 질병이 있다고 가..
결합확률이란 어떤 사건 A와 B가 동시에 일어날 확률입니다. 공식으로 표현하면 다음과 같습니다. $$P(A \cap B) = P(A,B) = P(A)P(B)$$ 두 주사위를 동시에 던진다고 가정해보겠습니다. 첫번째 주사위를 던졌을 때 2가 나오는 사건을 사건 A, 두번째 주사위를 던져 3 이상의 수가 나오는 사건을 사건 B라고 하겠습니다. 이때 결합확률은 $$P(A \cap B) = {1 \over 6} \times {4 \over 6} = {1 \over 9}$$ 가 됩니다. 조건부확률이란 어떤 한 사건 B가 일어났을 때 사건 A가 일어날 확률입니다. 공식으로 표현하면 다음과 같습니다. $$P(A | B) = {P(A \cap B) \over P(B)}$$ 이번에도 위 예시와 같은 상황을 가정해보겠습니..

확률변수란 어떤 한 실험에서 일정한 확률을 가지고 나올수 있는 변수 X에 수치를 부여한 것입니다. 이번에도 주사위 예시로 확률변수를 재정의 해보겠습니다. 확률변수란 어떤 한 실험 (주사위를 굴리는 실험)에서 일정한 확률 ( 각 면당 나올 확률은 1/6 )을 가지고 나올 수 있는 변수 X에 수치를 부여한 것 (나올 수 있는 면의 수는 1부터 6까지의 수로 표현) 입니다. 즉 주사위를 던졌을 때 나올 수 있는 숫자를 확률변수 X라고 하면 이 확률변수 X는 다음과 같이 표현할 수 있습니다. 위 예시처럼 확률변수가 셀 수 있으며 특정 값들로 이루어진 경우를 이산확률변수라고 하며, 반대로 키,몸무게 등과 같이 확률변수가 될 수 있는 값이 셀 수 없는 범위의 형태로 이루어져있다면 연속확률변수라고 합니다. 확률변수는..

확률 확률이란 어떤 한 사건이 발생할 가능성을 수치로 나타낸 것입니다. 확률은 1과 0사이의 실숫값으로 나타내어 집니다. 다음과 같은 방법으로 구할 수 있습니다. 확률 = 어떤 사건이 발생할 수 있는 경우의 가짓수 / 모든 경우의 가짓수 확률에 대해 자세히 설명하기 위해 주사위를 굴리는 경우를 예시로 들겠습니다. 주사위는 6개의 면에 각각 1부터 6까지의 수가 적혀있는 형태를 가지고 있습니다. 따라서 이 주사위를 굴렸을 때 나올 수 있는 경우의 가짓수는 1부터 6까지의 수, 즉 총 6가지의 경우가 있습니다. 이 중 특정 수, 예를 들어 3이라는 수가 나오는 가짓수는 주사위를 굴렸을때 눈금이 3인 면이 위로 올라오는 한가지 경우만 존재합니다. 그러므로 주사위를 굴려 특정 수가 나올 수 있는 확률은 주사위를..

역행렬이란 어떤 행렬에 곱하였을 때 단위행렬이 되는 행렬입니다. 여기서 단위행렬은 아래 식처럼 어떤 행렬이나 벡터에 곱하였을 때 값이 변하지 않고 원래의 값이 그대로 도출되는 행렬입니다. 단위행렬은 위 1과 0으로 이루어진 행렬처럼 차원이 달라지더라도 왼쪽 위부터 오른쪽 아래 방향의 대각선상에 위치한 성분들이 1로 이루어져 있고 나머지 성분들은 0으로 이루어져 있습니다. 다시 역행렬의 개념으로 돌아와서, 역행렬은 역수의 개념과 단위행렬을 이용하여 앞서 정의했듯이 행렬 A에 곱하였을 때 단위행렬 E가 나오는 행렬을 의미합니다. 일반적인 자연수 a의 역수를 구하기 위해서는 a에 어떤 수를 곱하면 1이 나오는지를 구하면 됩니다. 1/a, 즉 a^-1 이 되겠죠. 행렬식에서도 마찬가지입니다. 행렬 A의 역행렬..

행렬 행렬은 여러 데이터를 행 X 열 형태로 이루어진 직사각형 안에 배열한 형태입니다. 행은 데이터가 가로로 배열되어있는 형태이고 열은 데이터가 세로로 배열되어있는 형태입니다. 행렬의 연산 행렬의 덧셈과 뺄셈을 연산할 땐 벡터의 덧셈과 뺄셈처럼 서로 대응하는 성분끼리 연산을 진행합니다. 행렬과 스칼라값을 곱할 땐 벡터와 스칼라의 곱인 스칼라배를 적용할 때와 같은 원리로 각 성분에 스칼라 값을 곱하여 연산합니다. 반면 행렬끼리의 곱셈 연산에서는 앞서 알아보았던 내적의 개념을 사용하게 됩니다. 위 그림처럼 두 행렬를 각각 행벡터와 열벡터를 쌓은 형태로 생각하고 각각의 행벡터와 열벡터의 내적을 맞는 위치에 재배열하여 새로운 행렬을 구성하게 됩니다. 예를 들어 다음과 같은 식을 가정해보겠습니다. 위 행렬 곱..