본 게시글은 Hyungcheol Noh님의 [Speech Synthesis] Tacotron 논문 정리를 바탕으로 작성된 글입니다. Tacotron? 2018년 구글에서 새로운 TTS 모델인 Tacotron 2를 발표하였다. 사람이 직접 내는 음성과 비슷한 퀄리티의 음성을 생성할 수 있는 모델이라고 홍보하고 있는데 실제로 Tacotron 2가 생성한 음성 샘플을 들어보면 사람의 목소리인지 구분하기 힘들 정도다. Tacotron 2의 음성 샘플은 링크를 통해서 들어볼 수 있다. Tacotron 2에 앞서서 먼저 발표된 모델이 2017년에 발표된 Tacotron이다. 저자들은 Tacotron은 이전 TTS 모델들과 비교해서 다음과 같은 장점이 있다고 주장한다. 텍스트를 입력으로 받아서 Raw Spectrog..
본 게시글은 choyi0521님의 WAVENET: A GENERATIVE MODEL FOR RAW AUDIO를 정리한 글입니다. 소개 2016년 구글 딥마인드에서 오디오 생성 모델인 wavenet에 관한 논문을 공개했습니다. 당시 대부분의 TTS 모델은 녹음된 음성 데이터를 쪼개고 조합해서 음성을 생성하는 방식인 Concatenative TTS를 기반으로 구현되었습니다. 이 방식은 기본적으로 많은 양의 데이터를 필요로 했고, 화자나 톤을 바꾸는 등의 변형을 할 때마다 새로운 데이터가 필요했습니다. 이에 따른 대안으로 통계적인 방법으로 음성을 생성하는 prarametric TTS 방식이 주목받았지만 Concatenative TTS에 비해 생성된 음성이 덜 자연스러웠습니다. Wavenet은 기존의 방식과 다..
본 게시글은 Dacon에서 JunhoSun님이 공유해주신 음성 신호 기본 정보를 바탕으로 작성되었습니다. 모든 코드와 음성 파일은 Github에서 확인하실 수 있습니다. 목차 Intro Import Data Load Spectrogram, Melspectrogram 변환 주요 개념 푸리에 변환 STFT Melspectrogram Function and Option win_length n_fft hop_length n_mels Spectrogram, Melspectrogram 구하기 해상력 Intro 음성 신호에 대한 기본적인 내용을 설명하고 torchaudio를 사용하여 spectrogram과 melspectrogram feature를 만드는 과정에 대해 알아보겠습니다. Import Data Load 음..
개요 wav파일을 읽을 때 사용하는 대표적인 라이브러리로는 librosa와 scipy가 있습니다. 본 글에서는 두 방법 간에 어떤 차이가 있는지 알아보겠습니다. 요약 librosa로 데이터를 읽으면 데이터의 범위가 -1 ~ 1의 범위로 정규화된다 librosa의 입력에서 sr=None으로 지정하지 않고 임의의 sample_rate를 설정하면 load 할 때 resampling을 수행합니다. librosa와 scipy 차이점 각 방법으로 wav 파일을 읽고 데이터를 살펴보겠습니다. wav 파일은 Sample_rate 22050, 30초의 길이를 가지고 있습니다. librosa에서 파일을 load 할 때 sr=None으로 지정하면 wav파일의 sr이 자동으로 지정됩니다. from scipy.io import..
모든 실습 코드는 Ref [1]을 확인해주세요 목차 Import Display Waveform FFT -> Power Spectrum SFTF -> Spectrogram Cast Amplitude to Decibels MFCCs Import import numpy as np import librosa, librosa.display import matplotlib.pyplot as plt Display Waveform FIG_SIZE = (15, 10) file = "blues.00000.wav" # load audio file with Librosa signal, sample_rate = librosa.load(file, sr=22050) print('signal shape : ', signal.shap..
LibROSA LibROSA is a python package for music and audio analysis. It provides the building blocks necessary to create music information retrieval systems. Installation instructions Tutorial python_speech_features This library provides common speech features for ASR including MFCCs and filterbank energies. Docs
목차 핵심어 검출 (KWS, Keyword Spotting) 개요 발화자의 음성에서 핵심어를 검출하는 방법 발화자의 음성에서 특징 추출 음향 모델을 활용한 키워드 판별 카카오 미니의 핵심어 검출 엔진 1. 핵심어 검출 (KWS, Keyword Spotting) 개요 핵심어 검출(Keyword spotting)은 연속적으로 입력되는 음성신호로부터 미리 정해진 핵심어(중심어, keyword)만을 찾아내는 것이다 예를 들어 인공지능 스피커인 카카오 미니는 호출 명령어를 알아듣기 위해 핵심어 검출(keyword spotting) 기반의 음성 인식 기술을 사용한다. 사람의 음성을 계속 듣고 있다가 특정 키워드가 발성되었는지를 검출하는 방법이다. "헤이, 카카오!, 신나는 노래 틀어"라고 말하면 [그림 1]과 같이..
이 글은 brightwon님의 MFCC(Mel-Frequency Cepstral Coefficient) 이해하기를 재가공 한 글입니다. 요약 - Audio Signal에 FFT를 수행하면 Spectrum이 된다. - Spectrum에 Mel-Filter bank를 거치면 Mel-Spectrum이 된다. - log X [k] = log(Mel-Spectrum)이라고 할 때 log X [k]에 Cepstral Analysis를 하면 log X [k] = log H [k] + log E [k]로 표현되고, 이것에 IFFT를 수행하면 x [k] = h [k] + e [k] 이 된다 - h [k]를 Mel-Spectrum에 대해 얻은 Cepstral Coefficients(Cepstral 계수)라고 하며 MFCC..
- Total
- Today
- Yesterday
- LSTM
- Tensorflow2.0
- nlp
- 6.006
- 인공지능 스피커 호출
- 알고리즘
- S3
- stft
- nlg
- lambda
- 시계열
- Introduction to Algorithm
- 알고리즘 강의
- wavenet
- 핵심어 검출
- 오디오 전처리
- nlp 트렌드
- boto3
- keras
- AWS
- MIT
- aws cli
- BOJ
- RNN
- MFCC
- tensorflow
- TF2.0
- 모델 시각화
- netron
- librosa
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |