NLP(Natural Language Processing, 자연어 처리) MODEL RNN 순서가 있는 데이터를 처리하는데 강점을 가진 신경망이다. 앞이나 뒤의 정보에 따라 전체의 의미가 달라지거나, 앞의 정보로 다음에 나올 정보를 추측하려는 경우 사용한다 번역, 단어 자동완성 등에 사용된다. LSTM GRU Seq2Seq Attention Transformer Foundation Norm Norm은 벡터의 길이 혹은 크기를 측정하는 방법(함수)이다 Norm이 측정한 벡터의 크기는 원점에서 벡터 좌표까지의 거리, 혹은 Magnitude라고 한다. $$L_p = (\sum_{i}^{n}\left | x_i \right |^p)^\frac{1}{p}$$ p는 Norm의 차수를 의미한다. p가 1이면 L1 N..
본 게시글은 Hyungcheol Noh님의 [Attention] Bahdanau Attention 개념 정리 글을 바탕으로 작성되었습니다. Neural Machine Translation 기계 번역은 이전부터 확률적인 접근 방법을 통해서 수행이 되어왔다. 간단히 설명하면 소스 문장 \(x\)를 Conditioning하여 조건부 확률 \(P(y\mid x)\)를 최대화하는 타겟 문장 \(y\)를 찾는 것이다. 수식으로 정리하면 아래와 같다. $$\hat{y} = \underset{y}{argmax} \: p(y\mid x)$$ 최근 딥러닝을 이용한 연구가 활발히 진행되면서 뉴럴 네트워크를 통한 언어 번역을 시도해 보려는 NMT(Neural Machine Translation)에 관한 연구가 각광을 받게 되..
본 게시글은 Hyungcheol Noh님의 [Speech Synthesis] Tacotron 논문 정리를 바탕으로 작성된 글입니다. Tacotron? 2018년 구글에서 새로운 TTS 모델인 Tacotron 2를 발표하였다. 사람이 직접 내는 음성과 비슷한 퀄리티의 음성을 생성할 수 있는 모델이라고 홍보하고 있는데 실제로 Tacotron 2가 생성한 음성 샘플을 들어보면 사람의 목소리인지 구분하기 힘들 정도다. Tacotron 2의 음성 샘플은 링크를 통해서 들어볼 수 있다. Tacotron 2에 앞서서 먼저 발표된 모델이 2017년에 발표된 Tacotron이다. 저자들은 Tacotron은 이전 TTS 모델들과 비교해서 다음과 같은 장점이 있다고 주장한다. 텍스트를 입력으로 받아서 Raw Spectrog..
본 게시글은 choyi0521님의 WAVENET: A GENERATIVE MODEL FOR RAW AUDIO를 정리한 글입니다. 소개 2016년 구글 딥마인드에서 오디오 생성 모델인 wavenet에 관한 논문을 공개했습니다. 당시 대부분의 TTS 모델은 녹음된 음성 데이터를 쪼개고 조합해서 음성을 생성하는 방식인 Concatenative TTS를 기반으로 구현되었습니다. 이 방식은 기본적으로 많은 양의 데이터를 필요로 했고, 화자나 톤을 바꾸는 등의 변형을 할 때마다 새로운 데이터가 필요했습니다. 이에 따른 대안으로 통계적인 방법으로 음성을 생성하는 prarametric TTS 방식이 주목받았지만 Concatenative TTS에 비해 생성된 음성이 덜 자연스러웠습니다. Wavenet은 기존의 방식과 다..
본 게시글은 Dacon에서 JunhoSun님이 공유해주신 음성 신호 기본 정보를 바탕으로 작성되었습니다. 모든 코드와 음성 파일은 Github에서 확인하실 수 있습니다. 목차 Intro Import Data Load Spectrogram, Melspectrogram 변환 주요 개념 푸리에 변환 STFT Melspectrogram Function and Option win_length n_fft hop_length n_mels Spectrogram, Melspectrogram 구하기 해상력 Intro 음성 신호에 대한 기본적인 내용을 설명하고 torchaudio를 사용하여 spectrogram과 melspectrogram feature를 만드는 과정에 대해 알아보겠습니다. Import Data Load 음..
본 게시글은 [하버드] 확률론 기초: Statistics 110, 3강 - Birthday Problem과 확률의 특성을 보고 정리한 글입니다. 학습 목표 확률의 non-naive한 정의의 공리(규칙)을 이용하여 확률의 특성을 증명할 수 있으며, 포함배제의 원리를 이해한다. 핵심 키워드 Birthday Problem 확률의 non-naive한 정의의 공리 확률의 특성 포함배제의 원리 학습 내용 생일 문제 (Birthday Problem) 생일 문제는 k명 중에 2명 이상이 같은 생일을 가질 확률을 뜻한다. 일별 출생 확률은 동일하고 각각의 사건은 독립적으로 발생한다고 가정한다. K가 몇 명 이상이어야 같은 생일을 가진 사람들이 있을 확률이 50% 일까? k > 365 일 때 확률은 1이다 k
본 게시글은 [하버드] 확률론 기초: Statistics 110, 2강 - 해석을 통한 문제풀이 및 확률의 공리를 보고 정리한 글입니다. 학습 목표 확률의 naive한 정의로 접근하기 어려운 경우를 알아내고, story proof를 통한 접근을 할 수 있다. 또한 확률의 non-naive한 정의를 위한 공리 2가지를 이해하고 적용할 수 있다. 핵심 키워드 확률의 naive한 정의 Story proof 확률의 non-naive한 정의의 공리 과제에 대한 조언 상식적인 부분을 고려하라 답안이 말이 되도록 쓰는 것뿐 아니라 합리적인 이유가 있어야 한다. 답을 항상 다시 확인해라 일반적인, 극단적인, 계산하기 간단하지만 유의미한 값을 시도해본다 n=0, n=1, n=2 추가 설명을 표시하는 것은 매우 유용하다..
회귀의 평가를 위한 지표는 실제 값과 회귀 예측값의 차이를 기반으로 합니다. 회귀 평가지표 중에 RMSLE가 있는데 값이 작을수록 회귀 성능이 좋은 것입니다. 예측값과 실제값의 차이가 없다는 뜻이기 때문입니다. $$RMSLE = \sqrt{\frac{1}{N}\sum_{i=1}^{N}{(\log(p_i+1)-\log(a_i+1))^2}}$$ $$p=Predicted, \: a=Actual$$ RMSLE는 위와 같은 식을 가지는데 RMSE와 비교해 3가지의 차이점을 보입니다. RMSE와 비교해 RMSLE의 3가지 장점 1. 아웃라이어에 강건해진다 RMSLE는 아웃라이어에 강건(Robust)합니다. 실제값 = [60, 80, 90], 예측값 = [67, 78, 91] 일 때, RMSE = 4.242, RMS..
- Total
- Today
- Yesterday
- TF2.0
- nlp 트렌드
- AWS
- 6.006
- keras
- LSTM
- 알고리즘
- Introduction to Algorithm
- nlp
- boto3
- 오디오 전처리
- 핵심어 검출
- 시계열
- lambda
- nlg
- 알고리즘 강의
- MFCC
- librosa
- MIT
- 모델 시각화
- RNN
- wavenet
- netron
- BOJ
- stft
- Tensorflow2.0
- 인공지능 스피커 호출
- S3
- aws cli
- tensorflow
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |