Adversarial 2

[NLP] TOXIGEN: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection Review | 논문 리뷰

안녕하세요. 쏘오금입니다. 오늘 리뷰할 논문은 TOXIGEN: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection로 적대적이고 은유에 비유된 혐오표현을 감지하고 생성한 데이터 세트에 관한 논문입니다. 독성언어 탐지 시스템은 종종 소수자 표현이 함유된 문장을 독성 언어가 포함되었다고 잘못 표기하곤 합니다. 이런 시스템의 허점들을 방지하고자 독성 언어 표현 생성에 대한 연구가 깊어지고 있는데요. TOXIGEN은 이런 상황에서 빛처럼 등장한 현재까지 가장 큰 혐오 텍스트 탐지 데이터 셋입니다. 리뷰는 제가 이해하기 편한 방식으로 구성되었으니 자세한 이해를 원하시는 분들은 링크 속 논문과 글 하단에 있..

논문/리뷰 2023.03.28

[딥러닝][Text Adversarial Attack] NLP에서 Adversarial Attack의 분류

NLP에서 Adversarial Attack은 Similarity에 기준해 두갈래로 분류된다. [1] Visual Similarity (시각적 유사성) : 원래 입력과 아주 유사한 형태(word or sentence, 눈으로 보기에) 적대적 공격 중 일부는 모델의 예측을 변경 시키기 위해 가능한 적은 수의 문자를 변형하려고 시도한다. 보통 현실적인 범주의 오타를 말한다. rull-based의 맞춤법 검사기 또는 적대적인 오타를 수정하도록 훈련된 seq2seq 모델을 사용하여 이러한 공격을 상당히 효과적으로 방어할 수 있을 것으로 사료된다. visual Text attack recipe: deepwordbug, hotflip, pruthi, textbugger*, morpheus (ex) - i don't..

이론/NLP 2023.01.03