Deep Learnig-based Blind Source Separation

2019.12.24


현재 지능공학 연구실에서 수행중인 Deep Learnig-based Blind Source Separation 분야에 대한 소개글입니다.

연구소개

  • 본 연구에서는 ‘Deep Attention Network 기반의 음원 분리기법’을 연구/개발함

  • 다수의 독립적인 신호 (e.g. vocal, drum, guitar, noise 등)가 섞여 있는 혼합음원 (mixed acoustic source)을 입력받아, 각 채널의 신호를 분리하여 출력하는 semi-supervised 기법을 개발함

Imgur

Example: Singing Voice Separation (By W Choi et al.)

more info

연구의 필요성

  • Acoustic Source Separation은 그림과 같이 다양한 분야에서 활용될 수 있음. 이를테면 잡음을 없애는 Denoising task[4]에 응용될 수 있으며, Reverberation 효과를 없애주는 task[2]에 응용될 수 있음

연구 가설

  1. [모노럴 음원에서의 상호간섭 문제 해결: Attention Network 활용] 원본 혼합음원을 독립적인 신호로 분리하는 과정에서 Attention Network[11]을 활용하면 신호 간의 상호 간섭을 충분히 고려함으로써 Source Separation 성능을 높일 수 있다.
  2. [학습 데이터 부족 문제 해결: GAN 기반의 Pre-training] GAN[12] 기반의 Pre-training 기법을 이용하면 unlabeled data를 활용한 unsupervised learning이 가능하다. 이를 Source Separation 네트워크에 대해 End-to-End Fine-tuning할 경우, 성능을 향상시킬 수 있다.

연구가설 도출근거 ①: 모노럴 음원에서의 상호간섭 문제 해결을 위한 Attention Network 활용

  • NMT(Neural Machine Translation) 분야에서 Attention Netowrk 기반의 시스템[10,14]은 기존 RNN(Recurrent Neural Network)/LSTM(Long Short-Term Memory) 기반의 NMT[13] 기법의 성능보다 매우 향상된 번역 품질을 제공하였음 (BLEU score 41.8 on WMT14 English to German)
  • 다른 두 언어로 작성된 문장의 각 단어들이 서로 어떠한 연관성을 갖는지 파악하는 Attention 매커니즘을 적극 활용함으로써 NMT 분야에서의 성능 향상이 가능했음. 이러한 Attention 매커니즘의 활용성은 imange classification[15] 등 서로 다른 객체의 상호간섭이 발생하는 문제 해결에 적합한 것으로 밝혀짐
  • 그러나 데이터 및 task의 특성 차이로 인해, 도메인이 다른 기존 Attention Network 매커니즘을 본 연구에서 그대로 활용할 수 없기에 본 연구에 적합한 구조의 Attention Network를 연구함. 이를테면 신호간의 상호 영향성 분석을 위해 attention network를 pair-wise하게 구축하는 연구를 수행함 ([그림 1] 참조)

연구가설 도출근거 ②: 학습 데이터 부족 문제 해결을 위한 GAN 기반의 Pre-training 기법 활용

  • [6.7]에서는 DBN(Deep Belief Network)[16]를 활용하여 speech separation을 위해 unlabeled data를 이용한 pretraining 기법을 제안하였음. 이러한 기법들은 pre-training을 이용하면 labeled 데이터 부족 현상을 극복함으로써 시스템의 성능을 제고시킬 수 있음을 알 수 있는 사례임

  • 그러나 DBN 기반의 pre-training 기법의 경우 Deep Learning 연구 초기 (2006~2014)에는 활발하게 사용되었으나, 최근에는 다소 outdated되었다는 평가를 받고 있음. 본 연구에서는 최근 pre-training 기법에 자주 활용되는 Deep Autoencoder 또는 GAN을 이용하여 pre-training 기법을 개발할 예정임

연구 수행 결과 (On-going Research)

  • MUSDB18 - PWC
  • DMX Challenge - link

Reference

  1. Wang, DeLiang, and Jitong Chen. “Supervised speech separation based on deep learning: An overview.” IEEE/ACM Transactions on Audio, Speech, and Language Processing 26.10 (2018): 1702-1726.

  2. Han, Kun, Yuxuan Wang, and DeLiang Wang. “Learning spectral mapping for speech dereverberation.” 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2014.

  3. Xu, Yong, et al. “An experimental study on speech enhancement based on deep neural networks.” IEEE Signal processing letters 21.1 (2013): 65-68.

  4. Lu, Xugang, et al. “Speech enhancement based on deep denoising autoencoder.” Interspeech. 2013.

  5. Chandna, Pritish, et al. “Monoaural audio source separation using deep convolutional neural networks.” International conference on latent variable analysis and signal separation. Springer, Cham, 2017.

  6. Wang, Yuxuan, and DeLiang Wang. “Boosting classification based speech separation using temporal dynamics.” Thirteenth Annual Conference of the International Speech Communication Association. 2012.

  7. Wang, Yuxuan, and DeLiang Wang. “Cocktail party processing via structured prediction.” Advances in Neural Information Processing Systems. 2012.

  8. Sun, Chen, et al. “Revisiting unreasonable effectiveness of data in deep learning era.” Proceedings of the IEEE international conference on computer vision. 2017.

  9. Najarian, Kayvan, and Robert Splinter. Biomedical signal and image processing. CRC press, 2005.

  10. Vaswani, Ashish, et al. “Attention is all you need.” Advances in neural information processing systems. 2017.

  11. Bahdanau, Dzmitry, Kyunghyun Cho, and Yoshua Bengio. “Neural machine translation by jointly learning to align and translate.” arXiv preprint arXiv:1409.0473 (2014).

  12. Goodfellow, Ian, et al. “Generative adversarial nets.” Advances in neural information processing systems. 2014.

  13. Sutskever, Ilya, Oriol Vinyals, and Quoc V. Le. “Sequence to sequence learning with neural networks.” Advances in neural information processing systems. 2014.

  14. Devlin, Jacob, et al. “Bert: Pre-training of deep bidirectional transformers for language understanding.” arXiv preprint arXiv:1810.04805 (2018).

  15. Wang, Fei, et al. “Residual attention network for image classification.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.

  16. [Hinton, Geoffrey E., Simon Osindero, and Yee-Whye Teh. “A fast learning algorithm for deep belief nets.” Neural computation 18.7 (2006): 1527-1554.

  17. Choi, W. et al., 2017. “Deep Representation of Raw Traffic Data: An Embed-and-Aggregate Framework for High-Level Traffic Analysis.” In Advances in Computer Science and Ubiquitous Computing. Springer, pp. 1383–1390.

  18. Lee, T. et al., 2018. “Spatial clustering based meteorological fields construction for regional vulnerability assessment.” International Journal on Advanced Science, Engineering and Information Technology, 8(4-2), pp.1686–1691.

  19. Heo, Seong Bong, et al. “Chemical Accident Hazard Assessment Using Environmental Spatial Data and GIS.” 한국위기관리논집 14.6 (2018): 129-138.

  20. Choi, Woosung, et al. “An Efficient Angular Space Partitioning Based Skyline Query Processing Using Sampling-Based Pruning.” 정보처리학회논문지/소프트웨어 및 데이터 공학 제 6.1 (2017): 1.

  21. Salakhutdinov, Ruslan, and Geoff Hinton. “Learning a nonlinear embedding by preserving class neighbourhood structure.” Artificial Intelligence and Statistics. 2007.

  22. Gao, Jinyang, et al. “DSH: data sensitive hashing for high-dimensional k-nnsearch.” Proceedings of the 2014 ACM SIGMOD international conference on Management of data. ACM, 2014.

  23. 최우성, 이태민, and 정순영. “DBSCAN 학습 시뮬레이터 설계 및 구현.” 한국컴퓨터교육학회 학술발표대회논문집 19.1 (2015): 107-111.