청력이 약하신 분들의 경우 전화 통화에 있어 청해력이 떨어지는 경우가 있으며, 이에 도움을 드리기 위해 통화 내용을 실시간으로 텍스트 변환하여 출력해 통화 내용의 이해를 보조하는 것을 목표로 한 실시간 스트리밍 Speech-To-Text 서비스 개발
김보성 | 김지후 | 김혜수 | 박이삭 | 이다곤 | 전미원 | 정두해 |
---|---|---|---|---|---|---|
Github | Github | Github | Github | Github | Github | Github |
김보성
Model Optimization • gRPC Communication
김지후
ASR Model Performance Comparison • Frontend
김혜수
Dataset Processing • Reference Paper Searching
박이삭
Auto Speech Recognition Modeling (Data I/O) • Socket Communication
전미원
Socket Communication • Audio Model Structure Search
정두해
Auto Punctuation Language Modeling • Dataset Processing
Modeling Reference : https://github.com/hchung12/espnet-asr
- Pretrained : https://zenodo.org/record/4103351/files/asr_train_asr_transformer2_ddp_raw_bpe_valid.acc.ave.zip?download=1
- Datasets : https://aihub.or.kr/aidata/105
정확도가 높지만 streaming에 특화되지 않은 모델을 streaming 처리가 가능한 형태로 바꾸기 위해 오디오 파일 변환 과정 생략과 함께 아래와 같은 방식으로 Data I/O 방식 개선
Modeling Reference : https://github.com/xashru/punctuation-restoration
- Modeling : Pretrained "klue/roberta-small" + Bi-LSTM
- Datasets : AI Hub 감성대화말뭉치 https://aihub.or.kr/aidata/7978, AI Hub Ksponspeech https://aihub.or.kr/aidata/105
오디오 모델을 통해 출력된 텍스트 출력에는 온점(.), 반점(,), 물음표(?)와 같은 punctuation mark가 별도로 출력되지 않는 문제점을 발견하고 이러한 raw text가 입력으로 주어졌을 때 punctuation mark를 자동으로 삽입하는 언어 모델 개발
시연 영상
Mac & Linux:
brew install portaudio
pip install -r requirements.txt
Windows:
sudo apt-get install portaudio
pip install -r requirements.txt
Client 구동
python client.py
서버 구동
python server.py