티스토리 뷰

Machine Learning/Basics

머신러닝 용어 정리

JG Ahn 2020. 7. 18. 03:37

NLP(Natural Language Processing, 자연어 처리)

MODEL

RNN

순서가 있는 데이터를 처리하는데 강점을 가진 신경망이다.
앞이나 뒤의 정보에 따라 전체의 의미가 달라지거나, 앞의 정보로 다음에 나올 정보를 추측하려는 경우 사용한다
번역, 단어 자동완성 등에 사용된다.

LSTM

GRU

Seq2Seq

Attention

Transformer

Foundation

Norm

Norm은 벡터의 길이 혹은 크기를 측정하는 방법(함수)이다
Norm이 측정한 벡터의 크기는 원점에서 벡터 좌표까지의 거리, 혹은 Magnitude라고 한다.
$L_{p} = (\sum_{i}^{n} {| x_{i} |}^{p})^{\frac{1}{p}}$
p는 Norm의 차수를 의미한다. p가 1이면 L1 Norm, p가 2이면 L2 Norm이다.
n은 대상 벡터의 element 개수이다.

L1 Norm

$L_{1} = (\sum_{i}^{n} | x_{i} |) = | x_{1} | + | x_{2} | + | x_{3} | + . . . + | x_{n} |$

$x = [1, 2, 3, 4, 5] {‖ x ‖}_{1} = (| 1 | + | 2 | + | 3 | + | 4 | + | 5 |) = 15$

L1 Norm은 각 요소 절댓값 크기의 합이다. 요소의 값 변화를 정확하게 파악할 수 있다
Taxicab Norm혹은 맨허튼 노름(Manhattan norm)이라고도 한다.
L1 Norm은 L1 Regularization, Computer Vision과 같은 영역에서 사용된다.

L2 Norm

$L_{2} = \sqrt{\sum_{i}^{n} x_{i}^{2}} = \sqrt{x_{1}^{2} + x_{2}^{2} + . . . + x_{n}^{2}}$

$L_{2} = \sqrt{\sum_{i}^{n} x_{i}^{2}} = \sqrt{x \cdot x} = \sqrt{x^{T} x} = \sqrt{x_{1} * x_{1} + x_{2} * x_{2} + . . . + x_{n} * x_{n}}$

$x = [1, 2, 3, 4, 5] {‖ x ‖}_{2} = \sqrt{({| 1 |}^{2} + {| 2 |}^{2} + {| 3 |}^{2} + {| 4 |}^{2} + {| 5 |}^{2})} = \sqrt{1 + 4 + 9 + 16 + 25} = \sqrt{55} = 7.4161$

L2 Norm은 해당 차원의 좌표평면에서 원점부터 벡터 좌표까지의 최단거리이다.
n치원 좌표평면(유클리드 공간)에서의 벡터의 크기를 계산하기 때문에 유클리드 노름(Euclidean Norm)이라고도 한다.
피타고라스 정리는 2차원 좌표 평면상의 최단 거리를 계산하는 L2 Norm 이다.
L2 Norm은 L2 Regularization, KNN, Kmean 알고리즘 등에서 사용된다.

Maximum Norm

$L_{\infty} = m a x (| x_{1} |, | x_{2} |, . . ., | x_{n} |)$

벡터 성분의 최댓값을 구한다.

Train

Batch Size

한번에 계산(학습)되는 데이터의 개수이다.

Mini Batch

전체 데이터 셋을 batch size 크기로 쪼개어 학습한다. (전체 데이터 셋을 한번에 다 계산하면 너무 크기때문, 메모리 부족..)

Epoch

전체 데이터 셋을 한번 학습하는 것이다

Data

데이터 불균형(Data Imbalanced)

클래스간 데이터가 불균형 할 때 UnderSampling 또는 OverSampling을 통해 문제를 해결한다.

https://hwiyong.tistory.com/266

Over Fitting

모델이 너무 학습 데이터에 맞게 학습되어 처음 보는 데이터는 제대로 예측하지 못하는 현상이다
train_loss는 줄어들지만 val_loss는 증가한다.

Term

Ground Truth

정답, 실제 관측 정보

Ref

저작자표시

'Machine Learning > Basics' 카테고리의 다른 글

RMSLE (Root Mean Squared Log Error) (0)	2020.07.11
sparse_categorical_crossentropy와 categorical_crossentropy 비교 (0)	2020.07.11

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

글 보관함

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

No regret Just Lesson