'딥러닝/음성합성' 카테고리의 글 목록

딥러닝/음성합성 3

Hierarchical TiCa Speaker Encoder 정리

논문 제목: Hierarchical Timbre-Cadence Speaker Encoder for Zero-shot Speech Synthesis (2023) 링크논문 저자: JounYeop Lee, Jae-Sung Bae, Seongkyu Mun, Jihwan Lee, Ji-Hyun Lee, Hoon-Young Cho, Chanwoo Kim 개요이전 글에 이어서 personalized TTS를 가능하게 만들어주는 zero-shot TTS 모델에 대한 논문이다. 논문의 주요 아이디어는 화자 임베딩 (Speaker embedding)의 정보를 다시 2개의 정보로 나누는 것이며, 각각 timbre와 cadence라는 정보이다. 연구팀은 음성에서 timbre 임베딩과 cadence 임베딩을 추출/사용하여 ..

딥러닝/음성합성 2024.06.14

Latent Filling 정리

논문 제목: Latent Filling: Latent space data augmentation for zero-shot speech synthesis (2024) 링크논문 저자: Jae-Sung Bae, Joun Yeop Lee, Ji-Hyun Lee, Seongkyu Mun, Taehwa Kang, Hoon-Young Cho, Chanwoo Kim 개요논문의 본문으로 들어가기 앞서 zero-shot learning에 대한 이해가 필요하다. Zero-shot learning은 처음 보는 데이터 라벨 또는 입력 분포에 대해 정확한 분류가 가능하도록 학습하는 기법을 말한다. 다시 말해, 새로운 입력 값과 정답 라벨에 대해서 잘 예측해야 하는 문제이다. 그러한 모델을 학습시키기 위해서는 보통 상당히 많은..

딥러닝/음성합성 2024.06.13

Mels-TTS 정리

논문 제목: MELS-TTS: Multi-emotion Multi-lingual Multi-speaker Text-To-Speech system via disentangled style tokens (2024) 링크논문 저자: Heegin Choi, Jae-Sung Bae, Joun Yeop Lee, Seongkyu Mun, Jihwan Lee, Hoon-Young Cho, Chanwoo Kim 개요개인적으로 느껴지기에 음성합성 (speech synthesis, TTS)은 실제 상용 소프트웨어나 서비스에 많이 접목되어 있을 만큼 그 수준이 어느 정도 사람과 같아졌다고 느껴진다. 그러나 아직 공부를 진행하는 학부생이지만, 감정을 전달하는 능력이나 비언어적 요소들을 정말로 사람처럼 표현할 수 있는지에 대..

딥러닝/음성합성 2024.06.13

moonai

딥러닝 특히 음성 분야에 관심을 갖고 공부하는 학부생

emotional tts, skip connection, personalized tts, residual connection, audio augmentation, f1score, latent filling, expressive tts, speaker encoder, Accuracy, 평가지표, zero-shot learning, ILSVRC, speech synthesis, kaiming he, tacotron, zs-tts, ResNet, tts, timbre,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

딥러닝/음성합성 3

티스토리툴바