안녕하세요. 쏘오금입니다. 오늘 리뷰할 논문은 TOXIGEN: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection로 적대적이고 은유에 비유된 혐오표현을 감지하고 생성한 데이터 세트에 관한 논문입니다. 독성언어 탐지 시스템은 종종 소수자 표현이 함유된 문장을 독성 언어가 포함되었다고 잘못 표기하곤 합니다. 이런 시스템의 허점들을 방지하고자 독성 언어 표현 생성에 대한 연구가 깊어지고 있는데요. TOXIGEN은 이런 상황에서 빛처럼 등장한 현재까지 가장 큰 혐오 텍스트 탐지 데이터 셋입니다. 리뷰는 제가 이해하기 편한 방식으로 구성되었으니 자세한 이해를 원하시는 분들은 링크 속 논문과 글 하단에 있..