홍차넷 - Google Cloud Speech-to-Text 활용한 전사 기능 개선

질문

- 질문 게시판입니다.

전체 기타 게임 진로 연애 가정/육아 체육/스포츠 교육 의료/건강 철학/종교IT/컴퓨터여행 과학 문화/예술 법률 홍차넷 경제

Date	21/02/15 11:34:03
Name	소요
Subject	Google Cloud Speech-to-Text 활용한 전사 기능 개선
https://kongcha.net/qna/11038 안녕하세요. 어떻게든 인터뷰 전사의 고통에서 벗어나고자 머리를 굴리다가 구글 신의 도움을 받으려 하고 있습니다. documentation 보고 하루종일 만지작 거려서 파이썬으로 기능은 구현했는데 영 인식율이 좋지 않네요. 초벌 번역이라도 기계신의 도움을 받으면 좀 괜찮아지려나 싶었는데... 어떻게 개선할 수 있을지 의견을 얻을 수 있으면 감사하겠습니다. OS - Ubuntu 18.04.5 LTS (Bionic Beaver) 개발툴 - python 3.73 * ipytho으로 터미널 실행 virtualenv로 가상화 된 형태로 프로젝트 관리 음성 파일 정보 - 저장 형태: FLAC (Free Lossless Audio Codec) - 채널: 모노 - 샘플레이트: 44100 Hz - 비트레이트: 705 kb/s 기본 논리 1. 오디오 파일을 컴퓨터 환경에서 최적화 한 후 2. 오디오 파일을 구글 클라우드 스토리지에 올려서 3. 구글 클라우드 STT 플랫폼을 통해 텍스트로 변환한 후 4. 로컬에서 텍스트를 받아 저장하여 작업한다. 유의사항** - 인터뷰가 기본 1시간 30분이기 때문에 비동기식 방식을 활용 코드 * 기본으로 주어지는 코드를 바탕으로 일부 수정 혹시나 비슷한 작업을 해본 분들 중에서 인식율을 향상할 수 있는 방법을 아는 분이 계실까요? 지금까지 알아본 걸로는 음성적응 기능(https://cloud.google.com/speech-to-text/docs/speech-adaptation?hl=ko)을 이용해서 인식할 단어 세트를 강제 지정하는 방식이 있는 듯한데, 그 외로 적용할 수 있는 방법이 있는지 궁금합니다. 0 이 게시판에 등록된 소요님의 최근 게시물 24-10-21 국정감사 영상 추적? [7] 24-05-10 아내가... [38] 23-10-24 아내가 아픕니다 [24] 22-12-07 R 코드 효율화 [13] 22-10-28 구멍 잘 안 나는 고무장갑 없을까요? [12] 22-07-11 학생회 운영 방향? [2] 22-05-19 햄으로 하는 요리 [41] 22-02-16 influence function 계산 문제 [1] 22-02-02 수학 관련 질문 물을만한 커뮤니티 없을까요? [9]

토비

21/02/15 11:41

주소복사

저는 코딩은 하지 않고 그냥 툴을 이용합니다.
영상 작업할 때는 Vrew를 사용하고요. (구글 STT API 사용)
2년전에 테스트 했을 때는 Vrew보다 다글로(https://daglo.ai/)라는 서비스가 더 인식률이 좋았습니다.

소요

21/02/15 11:54

주소복사

흑흑 다글로는 너무 비싸군요. Vrew 한 번 훓어보겠습니당

토비

21/02/15 11:58

주소복사

Vrew는 영상편집 툴이라 영상으로 만들어야 돌릴 수 있는 문제가 있습니다 ㅎㅎ
Vrew도 구글 엔진 사용 비용문제가 있어서 유료화를 준비중인 것으로 알고 있고요. (아직은 무료)

영상으로 만든다면 유튜브에 업로드하고 만들어진 자동자막을 다운로드 하는 방법도 있겠습니다.
2년전에 테스트한바로는 유튜브가 구글 API 보다 인식 성능이 약간 더 좋았어요.
유튜브 쪽에 API 제공엔진보다 좀 더 개선된 엔진이 선반영 되는게 아닐까 싶었습니다.

잘살자

21/02/15 11:52

주소복사

일반적으로 영어의 경우는 인식률이 괜찮을텐데
한국어 인식률이 얼마나 되는지는 저도 궁금하네요.

소요

21/02/15 12:17

주소복사

제가 짠 코드는 체감상 40%만 잡아내는 것 같아요. 자체적으로 제공하는 confidence는 90%까지도 올라가던데 그런 것치고는 영 실망스럽네요. 근데 이게 API의 문제인지, 제가 코드를 더 잘 짜면 개선할 수 있는 문제인지는 알아봐야겠어요.

달씨

21/02/15 16:16

주소복사

네이버 클로바노트 서비스를 이용해보시면 어떨까요? 한국어를 first language로 개발했으니 구글보다 좀 더 나은 결과가 나오지 않을까요? https://clovanote.naver.com/

소요

21/02/15 16:50

주소복사

감사합니다. 구간 일부 잘라서 테스트 해봤는데, 지금까지 해본 것 중에서는 가장 좋네요. 보안 정책 알아보고 클로바 API를 엮거나, 200mb씩 잘러서 클로바노트 바로 쓰는 방식을 테스트 해봐야겠어요. 감사합니다!

번호	제목	이름	날짜	조회	추천
11119	IT/컴퓨터노션 템플릿 찾습니다. 2	[익명]	21/03/01	5433	0
11102	IT/컴퓨터엑셀 VBA 매크로 관련해서 질문 있습니다 2	새친구를찾아보자	21/02/26	4526	0
11098	IT/컴퓨터아이패드에서 ocr을 이용하고 싶읍니다 14	아침	21/02/24	6383	0
11092	IT/컴퓨터네이버 블로그에 게시한 글이 검색되지 않습니다. 9	化神	21/02/23	5161	0
11091	IT/컴퓨터태블릿 추천해주세요! 15	지와타네호	21/02/23	4812	0
11089	IT/컴퓨터블루투스를 꺼 놔도 인식되는 이어폰 원리 1	아침커피	21/02/22	4190	0
11088	IT/컴퓨터노트북 랩탑 15인치(이상) 가성비 추천 부탁드립니다. 4	[익명]	21/02/22	4024	0
11081	IT/컴퓨터모니터를 새로 샀는데 넷플릭스 4k가 안되는 것 같아요 7	영원한초보	21/02/21	5712	0
11079	IT/컴퓨터공유기 연결 문제... 2	고기찐빵	21/02/21	4451	0
11071	IT/컴퓨터구글 앱스 스크립트(GAS) 질문입니다. 4	소원의항구	21/02/20	4718	0
11059	IT/컴퓨터사무자동화 관련 비전공자가 배워볼 만한 프로그래밍 언어 33	토끼모자를쓴펭귄	21/02/18	7590	0
11057	IT/컴퓨터[엑셀] 필터 걸어놨을때 필터 검색한거 표기하는 방법 3	HeatWade	21/02/17	5699	0
11056	IT/컴퓨터한글 입력시 화면 좌상단에 입력칸(?) 생기는 현상 7	주식하는 제로스	21/02/17	10205	2
11055	IT/컴퓨터혹시 삼성 제트 쓰시는 분 계신가요? 2	행운	21/02/17	5458	0
11049	IT/컴퓨터갤럭시 S21 울트라, 세티즌 중고 신품(?)은 왜 싼 건가요? 2	녹풍	21/02/17	5085	0
11041	IT/컴퓨터전문가들이 씽크패드를 쓰는 이유? 14	쿠팡	21/02/15	5992	0
11038	IT/컴퓨터Google Cloud Speech-to-Text 활용한 전사 기능 개선 7	소요	21/02/15	5381	0
11035	IT/컴퓨터집에 스마트홈 시스템을 깔아보려고 합니다 2	쿠도	21/02/15	4904	0
11031	IT/컴퓨터경주 황리단길에 가려면 숙소를 어디쪽에 잡는게 좋을까요?? 5	[익명]	21/02/14	5293	0
11010	IT/컴퓨터아이폰 메세지 순서 버그 고치는 법 아시는 분...? 4	Caprice	21/02/11	20161	0
11007	IT/컴퓨터갤럭시 버즈 시리즈 사용하는 분 있으신가요 ? 14	[익명]	21/02/11	4517	0
11000	IT/컴퓨터JAVA Open JDK는 완전무료인가요? 3	[익명]	21/02/10	4175	0
10998	IT/컴퓨터알고리즘 질문드립니다.	호타루	21/02/09	4421	0
10994	IT/컴퓨터갤럭시 알파 vs 서피스 프로 7 10	Dr.Pepper	21/02/09	5422	0
10987	IT/컴퓨터진지하게 게임/서적 등이 온라인 다운로드가 더 싸지 않은 이유 9	불타는밀밭	21/02/08	4318	0

+ : 최근 2시간내에 달린 댓글
+ : 최근 4시간내에 달린 댓글