본문 바로가기

카테고리 없음

데이터 증강 효과 살펴보기

데이터 증강은 정말 좋은 것일까?

이미지 데이터의 경우 데이터 증강하는 것은 텍스트에 비해 전략이 다양하다.

사이즈 조절하고, 돌리고, 색 바꾸고.. 찾아보니 하나의 이미지에서 수많은 이미지를 만들어 낼 수 있다.

source : https://github.com/aleju/imgaug

그런데 딥러닝 모델링에 있어 정말 효과가 좋은 것인가?라는 의문이 생겼다. 의문을 해결하고자 관련 연구를 찾아보았는데 필요했던 내용들이 잘 정리되어 있어서 이해하기 편했다. 논문의 전반적인 내용은 https://foreverhappiness.tistory.com/112

 

[논문 분석] A survey on Image Data Augmentation for Deep Learning

"A survey on Image Data Augmentation for Deep Learning" 2019년에 Journal of Big Data에 발행된 논문으로 트렌드를 알기 위한 최신 이슈를 정리하는 Survey Paper이기 때문에 가볍게 읽어볼 수 있는 내용이다..

foreverhappiness.tistory.com

이 분이 쓰신 내용을 참고하였습니다.

 

이미지 증강 Basic 기법

Image Data Augmentation for Deep Learning: A Survey

 

Task별 성능 

Semantic segmentation Task

Image Data Augmentation for Deep Learning: A Survey - Semantic segmentation improvement from data augmentation based on IoU and accuracy.

 

Image classification

Image Data Augmentation for Deep Learning: A Survey -  Image classification accuracy improvement from data augmentation on CIFAR-10, CIFAR-100, and SVHN

Object detection

Image Data Augmentation for Deep Learning: A Survey -  Results of object detection on COCO2017 dataset with and without data augmentation methods applied.

잘 모르겠다...

 

텍스트 데이터 증강은 어떨까?

텍스트 데이터는 EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks 논문을 참고하였다. 한글로 잘 정리된 블로그 글도 많다.

 

EDA 기법 

EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

동의어로 교체, 랜덤 하게 삭제, 위치 교체, 삽입 등이 이루어진다.

 

과연 이 기법.. 실제로 적용했을 때는 어떨까..?

 

classification (5 class)

EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks : Average performances (%) across five text classification tasks for models with and without EDA on different training set sizes.

데이터 수가 적을 때(500개) 그나마 효과가 있다. 

 

classification (Benchmark)

EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks : SST-2 , CR ,SUBJ .. 등은 데이터셋 이름

데이터 수가 적은 class의 개별 성능 변화 같은 지표가 없어서 아쉽다.

 

일단 결과적으로 전부 EDA로 데이터 증강했을 때 성능이 좋다. 하지만 데이터가 적을 경우에나 그나마 효율적인 것 같다. 

 

느낀점

이미지나 텍스트 데이터 모두 데이터를 증강시킴으로써 성능의 증가는 존재한다. 그러나 생각보다 상승 폭은 적은 것 같고 효과적으로 사용하기도 쉽지 않아 보인다.

 

 

+

이번에 찾아보며 알게 된 텍스트, 이미지 증강 파이썬 패키지도 첨부합니다.

https://github.com/jucho2725/ktextaug

 

GitHub - jucho2725/ktextaug: Data Augmentation Toolkit for Korean text.

Data Augmentation Toolkit for Korean text. Contribute to jucho2725/ktextaug development by creating an account on GitHub.

github.com

https://github.com/aleju/imgaug

 

GitHub - aleju/imgaug: Image augmentation for machine learning experiments.

Image augmentation for machine learning experiments. - GitHub - aleju/imgaug: Image augmentation for machine learning experiments.

github.com