# 질문(1차)
- 한글용 STT 오픈소스가 많이 없는 것 같습니다. 현재는 Kospeech 를 통해 STT 작업을 진행하고있는데 Kospeech를 사용하면서, 혹은 다른 STT 오픈소스를 사용할 때 유의할 점이 있을까요? 사용하는 데에도 익숙하지 않아 어떠한 방법으로 진행하는 것이 좋을지 전문가님의 의견이 궁금합니다.
- TTS 의 경우 제 목소리를 직접 녹음해서 제 목소리를 활용한 TTS를 사용해볼 예정입니다. 현재 사용하고있는 Mimic Recording Studio에서는 3922개나 되는 문장을 제공하는데 얼마나 녹음해야 괜찮은 결과를 도출해낼 수 있을지 궁금합니다.
(132개의 문장을 읽어 10분 가량의 데이터를 확보할 수 있었습니다)
- 또한 STT의 경우 AI Hub에 있는 한국어 음성 1000시간 자연어 데이터를 사용하려고 합니다. 앞서 말씀드린 Kospeech를 사용한다고 했을 때 이것의 머신 러닝 시간이 얼마나 걸릴 지 가늠이 잘 안 가 전문가님께 여쭤보고 싶습니다.
- 가지고 있는 훈련용 데이터가 부족한 경우 다른 곳에서 훈련용 데이터를 더 받을 때 호환성 같은 문제는 어떻게 해결해야 하는지 궁금합니다.
저희가 제공할 레시피를 읽어주는 서비스의 과정을 살펴보면 레시피를 읽어주는 TTS 서비스가 진행되는 동안 백그라운드에 사람의 목소리를 스트리밍 형식으로 인식하는 STT 서비스가 실행되고 있어야 합니다. 그렇다면 사람의 목소리 말고도 TTS 서비스에서 나오는 목소리도 스트리밍에 들어가게 됩니다. 사람의 목소리와 TTS 서비스의 목소리를 구분하기 위하여 어떠한 작업을 거쳐야 할지 전문가님의 의견이 궁금합니다.
현재 STT 서비스의 경우 직접 머신러닝을 돌려 한국말 인식을 하게끔 진행하고 있습니다. 하지만 머신러닝을 진행하면서 계속 오류가 발생하는 상황입니다. 다행히 진행하던 모델링을 끊기더라도 계속 진행할 수 있는 기능이 있어 머신러닝을 진행하는 데에 무리는 없지만 매우 불편한 상황입니다. 발생하는 오류는 크게 두 가지인데
RuntimeError: CUDA out of memory
ValueError
2번 오류는 어떤 이유인지 잘은 모르겠지만 1번 오류는 머신 러닝 설정만 잘 만진다면 해결할 수 있을 것 같습니다.
현재 머신 러닝 설정은 다음과 같습니다.
(num_workers 가 사용하고 있는 GPU 갯수입니다)
또한 현재 사용하고 있는 GPU의 모델명은 다음과 같습니다.
NVIDIA Tesla V100S-PCIE-32GB
이 GPU를 총 8개 사용하고 있습니다.
이러한 상황일 때 위의 설정을 어떻게 만지면 최적의 머신러닝을 진행할 수 있을지 전문가님의 의견이 궁금합니다.
TTS
Google Cloud Text-to-Speech API 사용 중
명령어가 들어오면 그에 따른 반응을 내보내는 로직 구성 완료
명령어는 STT 를 통해 들어오는 response로 구성할 예정
STT
머신 러닝을 위한 코드를 다 짜지는 못하지만 (실력의 부족) 학습은 직접 시켜보려고 함
Kospeech
한국어 음성인식 모델을 제공하는 오픈소스 툴킷
--> End-to-End 음성 인식 모델을 개발하기 위해 PyTorch를 기반으로 구축된 Apache 2.0 ASR 연구 라이브러리
DeepSpeech2 모델
Kospeech 내에서 제공하는 모델 중 선택한 End-to-End 음성 인식 모델
이것을 사용하여 머신 러닝 진행 중
전반적인 진행 상황
현재
TTS
input() 을 활용하여 음성이 하닌 타자로 일단 명령어 입력해 볼 것
이후 input() 부분에 STT 를 활용하여 나오는 response 값 넣어줄 예정
STT
머신 러닝
사람-AI 간 소통 로직
머신 러닝 진행하면서 나왔던 오류들
RuntimeError: CUDA error: unknown error CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.
RuntimeError: CUDA error: invalid device ordinal
cuDNN error: CUDNN_STATUS_EXECUTION_ERROR