moonai

  • 홈
  • 태그
  • 방명록

speech synthesis 2

Latent Filling 정리

논문 제목: Latent Filling: Latent space data augmentation for zero-shot speech synthesis (2024) 링크논문 저자: Jae-Sung Bae, Joun Yeop Lee, Ji-Hyun Lee, Seongkyu Mun, Taehwa Kang, Hoon-Young Cho, Chanwoo Kim   개요논문의 본문으로 들어가기 앞서 zero-shot learning에 대한 이해가 필요하다. Zero-shot learning은 처음 보는 데이터 라벨 또는 입력 분포에 대해 정확한 분류가 가능하도록 학습하는 기법을 말한다. 다시 말해, 새로운 입력 값과 정답 라벨에 대해서 잘 예측해야 하는 문제이다. 그러한 모델을 학습시키기 위해서는 보통 상당히 많은..

딥러닝/음성합성 2024.06.13

Mels-TTS 정리

논문 제목: MELS-TTS: Multi-emotion Multi-lingual Multi-speaker Text-To-Speech system via disentangled style tokens (2024) 링크논문 저자: Heegin Choi, Jae-Sung Bae, Joun Yeop Lee, Seongkyu Mun, Jihwan Lee, Hoon-Young Cho, Chanwoo Kim   개요개인적으로 느껴지기에 음성합성 (speech synthesis, TTS)은 실제 상용 소프트웨어나 서비스에 많이 접목되어 있을 만큼 그 수준이 어느 정도 사람과 같아졌다고 느껴진다. 그러나 아직 공부를 진행하는 학부생이지만, 감정을 전달하는 능력이나 비언어적 요소들을 정말로 사람처럼 표현할 수 있는지에 대..

딥러닝/음성합성 2024.06.13
이전
1
다음
더보기
프로필사진

moonai

딥러닝 특히 음성 분야에 관심을 갖고 공부하는 학부생

  • 분류 전체보기
    • 머신러닝
    • 딥러닝
      • 기초
      • 음성합성

Tag

tts, speaker encoder, kaiming he, zero-shot learning, residual connection, speech synthesis, emotional tts, ResNet, 평가지표, tacotron, expressive tts, Accuracy, f1score, personalized tts, audio augmentation, skip connection, latent filling, timbre, ILSVRC, zs-tts,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/07   »
일 월 화 수 목 금 토
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바