[딥러닝][Text Adversarial Attack] NLP에서 Adversarial Attack의 분류
NLP에서 Adversarial Attack은 Similarity에 기준해 두갈래로 분류된다. [1] Visual Similarity (시각적 유사성) : 원래 입력과 아주 유사한 형태(word or sentence, 눈으로 보기에) 적대적 공격 중 일부는 모델의 예측을 변경 시키기 위해 가능한 적은 수의 문자를 변형하려고 시도한다. 보통 현실적인 범주의 오타를 말한다. rull-based의 맞춤법 검사기 또는 적대적인 오타를 수정하도록 훈련된 seq2seq 모델을 사용하여 이러한 공격을 상당히 효과적으로 방어할 수 있을 것으로 사료된다. visual Text attack recipe: deepwordbug, hotflip, pruthi, textbugger*, morpheus (ex) - i don't..