Final Project : I Can Read Your Voice

청력이 약하신 분들의 경우 전화 통화에 있어 청해력이 떨어지는 경우가 있으며, 이에 도움을 드리기 위해 통화 내용을 실시간으로 텍스트 변환하여 출력해 통화 내용의 이해를 보조하는 것을 목표로 한 실시간 스트리밍 Speech-To-Text 서비스 개발

TEAM : 조지KLUE니

Members

김보성	김지후	김혜수	박이삭	이다곤	전미원	정두해

Github	Github	Github	Github	Github	Github	Github

Contribution

김보성 Model Optimization • gRPC Communication

김지후 ASR Model Performance Comparison • Frontend

김혜수 Dataset Processing • Reference Paper Searching

박이삭 Auto Speech Recognition Modeling (Data I/O) • Socket Communication

전미원 Socket Communication • Audio Model Structure Search

정두해 Auto Punctuation Language Modeling • Dataset Processing

Project Flow

Main Tasks - Audio Modeling Part

Modeling Reference : https://github.com/hchung12/espnet-asr

Pretrained : https://zenodo.org/record/4103351/files/asr_train_asr_transformer2_ddp_raw_bpe_valid.acc.ave.zip?download=1
Datasets : https://aihub.or.kr/aidata/105

정확도가 높지만 streaming에 특화되지 않은 모델을 streaming 처리가 가능한 형태로 바꾸기 위해 오디오 파일 변환 과정 생략과 함께 아래와 같은 방식으로 Data I/O 방식 개선

Definition of "Frame" in conversation

Implementation 1: Silence Threshold

Implementation 2: Silence Length

Implementation 3: Long Silence Ignore

Implementation 4: Frame-Cut with Overlap

Main Tasks - Language Modeling Part

Modeling Reference : https://github.com/xashru/punctuation-restoration

Modeling : Pretrained "klue/roberta-small" + Bi-LSTM
Datasets : AI Hub 감성대화말뭉치 https://aihub.or.kr/aidata/7978, AI Hub Ksponspeech https://aihub.or.kr/aidata/105

오디오 모델을 통해 출력된 텍스트 출력에는 온점(.), 반점(,), 물음표(?)와 같은 punctuation mark가 별도로 출력되지 않는 문제점을 발견하고 이러한 raw text가 입력으로 주어졌을 때 punctuation mark를 자동으로 삽입하는 언어 모델 개발

LM Architecture

Demonstration

시연 영상

설치 방법

Mac & Linux:

brew install portaudio
pip install -r requirements.txt

Windows:

sudo apt-get install portaudio
pip install -r requirements.txt

실행 방법

Client 구동

python client.py

서버 구동

python server.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Final Project : I Can Read Your Voice

TEAM : 조지KLUE니

Members

Contribution

Project Flow

Main Tasks - Audio Modeling Part

Definition of "Frame" in conversation

Implementation 1: Silence Threshold

Implementation 2: Silence Length

Implementation 3: Long Silence Ignore

Implementation 4: Frame-Cut with Overlap

Main Tasks - Language Modeling Part

LM Architecture

Demonstration

설치 방법

실행 방법

Files

README.md

Latest commit

History

README.md

File metadata and controls

Final Project : I Can Read Your Voice

TEAM : 조지KLUE니

Members

Contribution

Project Flow

Main Tasks - Audio Modeling Part

Definition of "Frame" in conversation

Implementation 1: Silence Threshold

Implementation 2: Silence Length

Implementation 3: Long Silence Ignore

Implementation 4: Frame-Cut with Overlap

Main Tasks - Language Modeling Part

LM Architecture

Demonstration

설치 방법

실행 방법