티스토리 뷰

NLP(Natural Language Processing, 자연어 처리)

MODEL

RNN

  • 순서가 있는 데이터를 처리하는데 강점을 가진 신경망이다.
  • 앞이나 뒤의 정보에 따라 전체의 의미가 달라지거나, 앞의 정보로 다음에 나올 정보를 추측하려는 경우 사용한다
  • 번역, 단어 자동완성 등에 사용된다.

LSTM

GRU

Seq2Seq

Attention

Transformer

 

Foundation

Norm

  • Norm은 벡터의 길이 혹은 크기를 측정하는 방법(함수)이다
  • Norm이 측정한 벡터의 크기는 원점에서 벡터 좌표까지의 거리, 혹은 Magnitude라고 한다.
  • $$L_p = (\sum_{i}^{n}\left | x_i \right |^p)^\frac{1}{p}$$
  • p는 Norm의 차수를 의미한다. p가 1이면 L1 Norm, p가 2이면 L2 Norm이다.
  • n은 대상 벡터의 element 개수이다.

L1 Norm

$$L_1 = (\sum_{i}^{n}\left | x_i \right |) = \left | x_1 \right | + \left | x_2 \right | + \left | x_3 \right | + ... + \left | x_n \right |$$

$$x = [1, 2, 3, 4, 5] \\ \left \| x \right \|_1 = (\left | 1 \right | + \left | 2 \right | + \left | 3 \right | + \left | 4 \right | + \left | 5 \right |) = 15$$

 

  • L1 Norm은 각 요소 절댓값 크기의 합이다. 요소의 값 변화를 정확하게 파악할 수 있다
  • Taxicab Norm혹은 맨허튼 노름(Manhattan norm)이라고도 한다.
  • L1 Norm은 L1 Regularization, Computer Vision과 같은 영역에서 사용된다.

L2 Norm

$$L_2 = \sqrt{\sum_{i}^{n}x_i^2} = \sqrt{x_1^2 + x_2^2 + ... + x_n^2}$$

$$L_2 = \sqrt{\sum_{i}^{n}x_i^2} = \sqrt{x\cdot x}=\sqrt{x^T x} = \sqrt{x_1*x_1 + x_2*x_2 + ... + x_n*x_n}$$

$$x=[1,2,3,4,5]\\ \left \| x \right \|_2 = \sqrt{(\left | 1 \right |^2 + \left | 2 \right |^2 + \left | 3 \right |^2 + \left | 4 \right |^2 + \left | 5 \right |^2)} = \sqrt{1+4+9+16+25} = \sqrt{55} = 7.4161$$

 

  • L2 Norm은 해당 차원의 좌표평면에서 원점부터 벡터 좌표까지의 최단거리이다.
  • n치원 좌표평면(유클리드 공간)에서의 벡터의 크기를 계산하기 때문에 유클리드 노름(Euclidean Norm)이라고도 한다.
  • 피타고라스 정리는 2차원 좌표 평면상의 최단 거리를 계산하는 L2 Norm 이다.
  • L2 Norm은 L2 Regularization, KNN, Kmean 알고리즘 등에서 사용된다.

Maximum Norm

$$L_\infty = max(\left | x_1 \right |, \left | x_2 \right |, ..., \left | x_n \right |)$$

  • 벡터 성분의 최댓값을 구한다.

 

Train

Batch Size

  • 한번에 계산(학습)되는 데이터의 개수이다.

 

Mini Batch

  • 전체 데이터 셋을 batch size 크기로 쪼개어 학습한다. (전체 데이터 셋을 한번에 다 계산하면 너무 크기때문, 메모리 부족..)

 

Epoch

  • 전체 데이터 셋을 한번 학습하는 것이다

 

Data

데이터 불균형(Data Imbalanced)

클래스간 데이터가 불균형 할 때 UnderSampling 또는 OverSampling을 통해 문제를 해결한다.

https://hwiyong.tistory.com/266

 

 

Over Fitting

  • 모델이 너무 학습 데이터에 맞게 학습되어 처음 보는 데이터는 제대로 예측하지 못하는 현상이다
  • train_loss는 줄어들지만 val_loss는 증가한다.

 

 

 

Term

Ground Truth

  • 정답, 실제 관측 정보

 

 

Ref

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함