Deep Learnig-based Blind Source Separation
현재 지능공학 연구실에서 수행중인 Deep Learnig-based Blind Source Separation 분야에 대한 소개글입니다.
연구소개
-
본 연구에서는 ‘Deep Attention Network 기반의 음원 분리기법’을 연구/개발함
-
다수의 독립적인 신호 (e.g. vocal, drum, guitar, noise 등)가 섞여 있는 혼합음원 (mixed acoustic source)을 입력받아, 각 채널의 신호를 분리하여 출력하는 semi-supervised 기법을 개발함
Example: Singing Voice Separation (By W Choi et al.)
연구의 필요성
- Acoustic Source Separation은 그림과 같이 다양한 분야에서 활용될 수 있음. 이를테면 잡음을 없애는 Denoising task[4]에 응용될 수 있으며, Reverberation 효과를 없애주는 task[2]에 응용될 수 있음
연구 가설
- [모노럴 음원에서의 상호간섭 문제 해결: Attention Network 활용] 원본 혼합음원을 독립적인 신호로 분리하는 과정에서 Attention Network[11]을 활용하면 신호 간의 상호 간섭을 충분히 고려함으로써 Source Separation 성능을 높일 수 있다.
- [학습 데이터 부족 문제 해결: GAN 기반의 Pre-training] GAN[12] 기반의 Pre-training 기법을 이용하면 unlabeled data를 활용한 unsupervised learning이 가능하다. 이를 Source Separation 네트워크에 대해 End-to-End Fine-tuning할 경우, 성능을 향상시킬 수 있다.
연구가설 도출근거 ①: 모노럴 음원에서의 상호간섭 문제 해결을 위한 Attention Network 활용
- NMT(Neural Machine Translation) 분야에서 Attention Netowrk 기반의 시스템[10,14]은 기존 RNN(Recurrent Neural Network)/LSTM(Long Short-Term Memory) 기반의 NMT[13] 기법의 성능보다 매우 향상된 번역 품질을 제공하였음 (BLEU score 41.8 on WMT14 English to German)
- 다른 두 언어로 작성된 문장의 각 단어들이 서로 어떠한 연관성을 갖는지 파악하는 Attention 매커니즘을 적극 활용함으로써 NMT 분야에서의 성능 향상이 가능했음. 이러한 Attention 매커니즘의 활용성은 imange classification[15] 등 서로 다른 객체의 상호간섭이 발생하는 문제 해결에 적합한 것으로 밝혀짐
- 그러나 데이터 및 task의 특성 차이로 인해, 도메인이 다른 기존 Attention Network 매커니즘을 본 연구에서 그대로 활용할 수 없기에 본 연구에 적합한 구조의 Attention Network를 연구함. 이를테면 신호간의 상호 영향성 분석을 위해 attention network를 pair-wise하게 구축하는 연구를 수행함 ([그림 1] 참조)
연구가설 도출근거 ②: 학습 데이터 부족 문제 해결을 위한 GAN 기반의 Pre-training 기법 활용
-
[6.7]에서는 DBN(Deep Belief Network)[16]를 활용하여 speech separation을 위해 unlabeled data를 이용한 pretraining 기법을 제안하였음. 이러한 기법들은 pre-training을 이용하면 labeled 데이터 부족 현상을 극복함으로써 시스템의 성능을 제고시킬 수 있음을 알 수 있는 사례임
-
그러나 DBN 기반의 pre-training 기법의 경우 Deep Learning 연구 초기 (2006~2014)에는 활발하게 사용되었으나, 최근에는 다소 outdated되었다는 평가를 받고 있음. 본 연구에서는 최근 pre-training 기법에 자주 활용되는 Deep Autoencoder 또는 GAN을 이용하여 pre-training 기법을 개발할 예정임
연구 수행 결과 (On-going Research)
- MUSDB18 -
- DMX Challenge - link
Reference
-
Wang, DeLiang, and Jitong Chen. “Supervised speech separation based on deep learning: An overview.” IEEE/ACM Transactions on Audio, Speech, and Language Processing 26.10 (2018): 1702-1726.
-
Han, Kun, Yuxuan Wang, and DeLiang Wang. “Learning spectral mapping for speech dereverberation.” 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2014.
-
Xu, Yong, et al. “An experimental study on speech enhancement based on deep neural networks.” IEEE Signal processing letters 21.1 (2013): 65-68.
-
Lu, Xugang, et al. “Speech enhancement based on deep denoising autoencoder.” Interspeech. 2013.
-
Chandna, Pritish, et al. “Monoaural audio source separation using deep convolutional neural networks.” International conference on latent variable analysis and signal separation. Springer, Cham, 2017.
-
Wang, Yuxuan, and DeLiang Wang. “Boosting classification based speech separation using temporal dynamics.” Thirteenth Annual Conference of the International Speech Communication Association. 2012.
-
Wang, Yuxuan, and DeLiang Wang. “Cocktail party processing via structured prediction.” Advances in Neural Information Processing Systems. 2012.
-
Sun, Chen, et al. “Revisiting unreasonable effectiveness of data in deep learning era.” Proceedings of the IEEE international conference on computer vision. 2017.
-
Najarian, Kayvan, and Robert Splinter. Biomedical signal and image processing. CRC press, 2005.
-
Vaswani, Ashish, et al. “Attention is all you need.” Advances in neural information processing systems. 2017.
-
Bahdanau, Dzmitry, Kyunghyun Cho, and Yoshua Bengio. “Neural machine translation by jointly learning to align and translate.” arXiv preprint arXiv:1409.0473 (2014).
-
Goodfellow, Ian, et al. “Generative adversarial nets.” Advances in neural information processing systems. 2014.
-
Sutskever, Ilya, Oriol Vinyals, and Quoc V. Le. “Sequence to sequence learning with neural networks.” Advances in neural information processing systems. 2014.
-
Devlin, Jacob, et al. “Bert: Pre-training of deep bidirectional transformers for language understanding.” arXiv preprint arXiv:1810.04805 (2018).
-
Wang, Fei, et al. “Residual attention network for image classification.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.
-
[Hinton, Geoffrey E., Simon Osindero, and Yee-Whye Teh. “A fast learning algorithm for deep belief nets.” Neural computation 18.7 (2006): 1527-1554.
-
Choi, W. et al., 2017. “Deep Representation of Raw Traffic Data: An Embed-and-Aggregate Framework for High-Level Traffic Analysis.” In Advances in Computer Science and Ubiquitous Computing. Springer, pp. 1383–1390.
-
Lee, T. et al., 2018. “Spatial clustering based meteorological fields construction for regional vulnerability assessment.” International Journal on Advanced Science, Engineering and Information Technology, 8(4-2), pp.1686–1691.
-
Heo, Seong Bong, et al. “Chemical Accident Hazard Assessment Using Environmental Spatial Data and GIS.” 한국위기관리논집 14.6 (2018): 129-138.
-
Choi, Woosung, et al. “An Efficient Angular Space Partitioning Based Skyline Query Processing Using Sampling-Based Pruning.” 정보처리학회논문지/소프트웨어 및 데이터 공학 제 6.1 (2017): 1.
-
Salakhutdinov, Ruslan, and Geoff Hinton. “Learning a nonlinear embedding by preserving class neighbourhood structure.” Artificial Intelligence and Statistics. 2007.
-
Gao, Jinyang, et al. “DSH: data sensitive hashing for high-dimensional k-nnsearch.” Proceedings of the 2014 ACM SIGMOD international conference on Management of data. ACM, 2014.
-
최우성, 이태민, and 정순영. “DBSCAN 학습 시뮬레이터 설계 및 구현.” 한국컴퓨터교육학회 학술발표대회논문집 19.1 (2015): 107-111.