데이터 증강은 정말 좋은 것일까?
이미지 데이터의 경우 데이터 증강하는 것은 텍스트에 비해 전략이 다양하다.
사이즈 조절하고, 돌리고, 색 바꾸고.. 찾아보니 하나의 이미지에서 수많은 이미지를 만들어 낼 수 있다.
그런데 딥러닝 모델링에 있어 정말 효과가 좋은 것인가?라는 의문이 생겼다. 의문을 해결하고자 관련 연구를 찾아보았는데 필요했던 내용들이 잘 정리되어 있어서 이해하기 편했다. 논문의 전반적인 내용은 https://foreverhappiness.tistory.com/112
[논문 분석] A survey on Image Data Augmentation for Deep Learning
"A survey on Image Data Augmentation for Deep Learning" 2019년에 Journal of Big Data에 발행된 논문으로 트렌드를 알기 위한 최신 이슈를 정리하는 Survey Paper이기 때문에 가볍게 읽어볼 수 있는 내용이다..
foreverhappiness.tistory.com
이 분이 쓰신 내용을 참고하였습니다.
이미지 증강 Basic 기법
Task별 성능
Semantic segmentation Task
Image classification
Object detection
잘 모르겠다...
텍스트 데이터 증강은 어떨까?
텍스트 데이터는 EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks 논문을 참고하였다. 한글로 잘 정리된 블로그 글도 많다.
EDA 기법
동의어로 교체, 랜덤 하게 삭제, 위치 교체, 삽입 등이 이루어진다.
과연 이 기법.. 실제로 적용했을 때는 어떨까..?
classification (5 class)
데이터 수가 적을 때(500개) 그나마 효과가 있다.
classification (Benchmark)
데이터 수가 적은 class의 개별 성능 변화 같은 지표가 없어서 아쉽다.
일단 결과적으로 전부 EDA로 데이터 증강했을 때 성능이 좋다. 하지만 데이터가 적을 경우에나 그나마 효율적인 것 같다.
느낀점
이미지나 텍스트 데이터 모두 데이터를 증강시킴으로써 성능의 증가는 존재한다. 그러나 생각보다 상승 폭은 적은 것 같고 효과적으로 사용하기도 쉽지 않아 보인다.
+
이번에 찾아보며 알게 된 텍스트, 이미지 증강 파이썬 패키지도 첨부합니다.
https://github.com/jucho2725/ktextaug
GitHub - jucho2725/ktextaug: Data Augmentation Toolkit for Korean text.
Data Augmentation Toolkit for Korean text. Contribute to jucho2725/ktextaug development by creating an account on GitHub.
github.com
https://github.com/aleju/imgaug
GitHub - aleju/imgaug: Image augmentation for machine learning experiments.
Image augmentation for machine learning experiments. - GitHub - aleju/imgaug: Image augmentation for machine learning experiments.
github.com