본 게시글은 Hyungcheol Noh님의 [Speech Synthesis] Tacotron 논문 정리를 바탕으로 작성된 글입니다. Tacotron? 2018년 구글에서 새로운 TTS 모델인 Tacotron 2를 발표하였다. 사람이 직접 내는 음성과 비슷한 퀄리티의 음성을 생성할 수 있는 모델이라고 홍보하고 있는데 실제로 Tacotron 2가 생성한 음성 샘플을 들어보면 사람의 목소리인지 구분하기 힘들 정도다. Tacotron 2의 음성 샘플은 링크를 통해서 들어볼 수 있다. Tacotron 2에 앞서서 먼저 발표된 모델이 2017년에 발표된 Tacotron이다. 저자들은 Tacotron은 이전 TTS 모델들과 비교해서 다음과 같은 장점이 있다고 주장한다. 텍스트를 입력으로 받아서 Raw Spectrog..
본 게시글은 choyi0521님의 WAVENET: A GENERATIVE MODEL FOR RAW AUDIO를 정리한 글입니다. 소개 2016년 구글 딥마인드에서 오디오 생성 모델인 wavenet에 관한 논문을 공개했습니다. 당시 대부분의 TTS 모델은 녹음된 음성 데이터를 쪼개고 조합해서 음성을 생성하는 방식인 Concatenative TTS를 기반으로 구현되었습니다. 이 방식은 기본적으로 많은 양의 데이터를 필요로 했고, 화자나 톤을 바꾸는 등의 변형을 할 때마다 새로운 데이터가 필요했습니다. 이에 따른 대안으로 통계적인 방법으로 음성을 생성하는 prarametric TTS 방식이 주목받았지만 Concatenative TTS에 비해 생성된 음성이 덜 자연스러웠습니다. Wavenet은 기존의 방식과 다..
개요 wav파일을 읽을 때 사용하는 대표적인 라이브러리로는 librosa와 scipy가 있습니다. 본 글에서는 두 방법 간에 어떤 차이가 있는지 알아보겠습니다. 요약 librosa로 데이터를 읽으면 데이터의 범위가 -1 ~ 1의 범위로 정규화된다 librosa의 입력에서 sr=None으로 지정하지 않고 임의의 sample_rate를 설정하면 load 할 때 resampling을 수행합니다. librosa와 scipy 차이점 각 방법으로 wav 파일을 읽고 데이터를 살펴보겠습니다. wav 파일은 Sample_rate 22050, 30초의 길이를 가지고 있습니다. librosa에서 파일을 load 할 때 sr=None으로 지정하면 wav파일의 sr이 자동으로 지정됩니다. from scipy.io import..
이 글은 brightwon님의 MFCC(Mel-Frequency Cepstral Coefficient) 이해하기를 재가공 한 글입니다. 요약 - Audio Signal에 FFT를 수행하면 Spectrum이 된다. - Spectrum에 Mel-Filter bank를 거치면 Mel-Spectrum이 된다. - log X [k] = log(Mel-Spectrum)이라고 할 때 log X [k]에 Cepstral Analysis를 하면 log X [k] = log H [k] + log E [k]로 표현되고, 이것에 IFFT를 수행하면 x [k] = h [k] + e [k] 이 된다 - h [k]를 Mel-Spectrum에 대해 얻은 Cepstral Coefficients(Cepstral 계수)라고 하며 MFCC..
1. 개요 음성 데이터를 처리면서 많이 보게 되는 그래프가 있습니다. 스펙트로그램이란 것으로 소리의 스펙트럼을 시각화하여 그래프로 표현하는 기법입니다. 스펙트로그램을 알기 위해 기본적으로 파형과 스펙트럼을 알아볼 필요가 있습니다. 2. 파형 (Waveform) 파형에서 x축은 시간(Time), y축은 진폭(Amplitude)을 나타냅니다 주기적인 파형은 [그림 1]과 같은 파형들이 있으며 비주기적인 파형으로는 [그림 2]와 같은 것이 있습니다. [그림 1]의 첫 번째 그래프와 같은 것을 Sine wave, 정현파라고 부르는데 사인 곡선의 모양을 유지하면서 일정한 속도로 진행하는 파형이기 때문입니다. 3. 스펙트럼 (Spectrum) 스펙트럼에서 x축은 주파수(Frequency) y축은 진폭(Amplitu..
스피커 채널 소리가 나오는 스피커가 몇 개인지를 말하는 것인데요. 채널이 많으면 소리가 여러 스피커를 통해 분산해 나온다고 아시면 됩니다. 1 채널 : 모노 한 방향으로 나오는 경우 2 채널 : 스피커가 2개(좌, 우)에서 나오는 것으로 주로 스테레오 용으로 사용합니다. 2.1 채널 : 2개 스피커에 우퍼(저음 강조)가 추가된 것을 말합니다. 4 채널 : 프론트 2개, 리어 2개로 나누어진 것입니다. 4.1 채널 : 4 채널에 우퍼가 추가된 것입니다. 5.1 채널 : 총스피커가 6개(프론트 2개, 리어 2개, 센터 1개, 우퍼 1개)로 이루어져 있습니다. 스피커가 6개지만 우퍼는 방향성을 가지고 있지 않아 0.1 채널로 구분됩니다. 우리가 흔히 접하는 DVD 등이 이런 5.1 채널로 레코딩되어 있지요. ..
Summary Mono는 하나의 마이크로 녹음하거나 하나의 스피커를 통해 소리를 듣는 것. Stereo는 두 개의 마이크로 녹음하거나 두 개의 스피커를 통해 소리를 듣는 것. Mono는 하나의 채널로 구성되어있으며 스피커의 왼쪽(L)과 오른쪽(R)은 복사본이다. Stereo는 두 개의 채널을 가진다. 1. Mono와 Stereo Mono Monaural 혹은 monophonic sound라고 하는 것을 줄여 mono라고 말합니다. 1개의 채널이고, 하나의 마이크를 통한 녹음, 하나의 스피커를 통해서 듣는 소리도 mono에 해당됩니다. 또한, 여러 개의 스피커라 할지라도 1개의 채널로만 연결되어있다면 mono로 듣는다고 말할 수 있습니다. "어, 나는 스피커가 두 개가 있는데 그럼 스테레오 아닌가?"라고 ..
- Total
- Today
- Yesterday
- stft
- 오디오 전처리
- MFCC
- netron
- Introduction to Algorithm
- 알고리즘 강의
- RNN
- LSTM
- nlg
- MIT
- 6.006
- 알고리즘
- 핵심어 검출
- lambda
- tensorflow
- nlp 트렌드
- BOJ
- boto3
- Tensorflow2.0
- nlp
- TF2.0
- S3
- AWS
- 시계열
- keras
- 모델 시각화
- aws cli
- wavenet
- 인공지능 스피커 호출
- librosa
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |