Apple사의 중요 Key 서비스 중의 하나인 Siri


다양한 패러디도 있지만 Siri의 음성도 매년(정확히는 매 iOS 버전) 진화를 하고 있다고.

그리고 최근에는 Deep Learning을 활용하여 보다 자연스러운 Siri 음성을 합성할수 있었고

이를 Paper로 자신있게 공개한 사과사


수백명의 성우들을 10-20시간 녹음하면서 평가하고 최종적으로 가장 적합하다고 판단된 성우분의

음성을 스튜디오에서 20시간 이상 녹음하여 이를 Deep Learning 기법을 활용한 TTS(Text To Speech) 

시스템에 적용하여 지금의 음성이 나왔고 그 예제를 아래 페이지에서 확인가능하다는.

숫자등도 정확해졌고 미세한 뉘앙스나 톤도 갈수록 자연스러워 졌음을 느낄수 있다는..

아래는 그 하나의 예제 링크에 가면 아래와 같은 예제를 iOS 9 / iOS 10/ iOS 11순으로 직접 들을 수 있다는...



Deep Learning 적용한것도 한것이지만 이를 위하여 수많은 성우를 확인하고 수십시간씩 녹음해서

완성도를 개선하고 이를 다시 공개까지 하니. 사과사의 Pride와 자신감을 느낄 수 있는 부분인듯.


이런 세세한 부분을 A.I. 서비스를 준비하는 곳에서 더 잘알겠지만 실제 이렇게 투자하기는 쉽지 않다는


From: https://machinelearning.apple.com/2017/08/06/siri-voices.html

Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks 

for Hybrid Unit Selection Synthesis


Figure 1. Illustration of unit selection speech synthesis using half-phones. The synthesized utterance "Unit selection synthesis” and its phonetic transcription using half-phones are shown at the top of the figure. The corresponding synthetic waveform and its spectrogram are shown below. The speech segments delimited by the lines are continuous speech segments from the database that may contain one or more half-phones.




일반적인 TTS 합성 프로세스를 보여주고 있음

일반적으로 Front End쪽이 언어 종속성이 높다고 함.








Posted by 아브리얼
: