푸르미르

[유사 프로젝트 코드 리뷰] 딥러닝 기반 영상 속 유해 언어 실시간 차단 시스템 -1 본문

AI

[유사 프로젝트 코드 리뷰] 딥러닝 기반 영상 속 유해 언어 실시간 차단 시스템 -1

((•_•)) 2021. 9. 20. 14:36

졸업 프로젝트로 딥러닝 기반 영상 속 유해 언어 실시간 차단 시스템을 개발하는데, 유사한 프로젝트를 발견하여

코드리뷰를 블로그에 남긴다.

 

https://github.com/LEEMINJOO/Beeeep--

 

GitHub - LEEMINJOO/Beeeep--: 유튜브 비속어 음성 자동 필터링 - 제 9회 투빅스 컨퍼런스

유튜브 비속어 음성 자동 필터링 - 제 9회 투빅스 컨퍼런스. Contribute to LEEMINJOO/Beeeep-- development by creating an account on GitHub.

github.com

 

이 프로젝트는 유튜브에 존재하는 영상을 갖고 했는데, get_data.py에는 그러한 영상을 갖고 오는 코드가 들어있다.

여러 함수가 임포트 되어있는데 이것은 이 파일 코드를 찬찬히 살펴보며 알아가 보도록 하자.

 

여기 코드에서는 영상의 구성요소(비디오, 텍스트, 길이)의 path를 마련해준다. 이러한 디테일을 save_~s의 함수를 통해 처리한다. save_~s함수들은 save_playlist_links, save_videos, save_audios가 있는데 이것은 임포트되어있는 함수들 중 하나다. text를 가져올 땐 crawling함수를 쓴다. 그리고 make_dir을 통해 경로를 지정해준다. 이 함수들이 무엇을 하는지 대강 알아보자.

 

save_playlist_links pytube의 youtube객체를 통해 해당 재생목록 url을 통해 영상 링크을 가져오는 함수
save_videos pytube의 youtube객체를 통해 해당 재생목록 url을 통해 영상을 mp4형태로 가져오는 함수
save_audios 비속어가 존재하는 음성을 다른 함수에서 editor을 통해 삐처리 후(재가공) 음성 저장 
crawling chrome_dir을 통해 크롤링을 하여 .txt형태로 텍스트 저장
make_dir 경로 지정시 필요한 함수

 

 

utils와 get_data.py를 살짝 살펴보았다. 우리 프로젝트에서 영상을 유튜브에서 가져올 때 도움이 될만한 코드였다.