
본 게시글은 choyi0521님의 WAVENET: A GENERATIVE MODEL FOR RAW AUDIO를 정리한 글입니다. 소개 2016년 구글 딥마인드에서 오디오 생성 모델인 wavenet에 관한 논문을 공개했습니다. 당시 대부분의 TTS 모델은 녹음된 음성 데이터를 쪼개고 조합해서 음성을 생성하는 방식인 Concatenative TTS를 기반으로 구현되었습니다. 이 방식은 기본적으로 많은 양의 데이터를 필요로 했고, 화자나 톤을 바꾸는 등의 변형을 할 때마다 새로운 데이터가 필요했습니다. 이에 따른 대안으로 통계적인 방법으로 음성을 생성하는 prarametric TTS 방식이 주목받았지만 Concatenative TTS에 비해 생성된 음성이 덜 자연스러웠습니다. Wavenet은 기존의 방식과 다..
Audio Signal Processing/Basics
2020. 7. 16. 00:32
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
TAG
- MIT
- 시계열
- 알고리즘
- LSTM
- S3
- BOJ
- nlg
- nlp 트렌드
- 알고리즘 강의
- lambda
- tensorflow
- wavenet
- 인공지능 스피커 호출
- 핵심어 검출
- RNN
- 오디오 전처리
- 6.006
- AWS
- stft
- MFCC
- Tensorflow2.0
- TF2.0
- Introduction to Algorithm
- librosa
- boto3
- netron
- 모델 시각화
- keras
- aws cli
- nlp
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
글 보관함