전체 글 11

[ NLP ] The Impact of Debiasing on the Performance of Language Models inDownstream Tasks is Underestimated | Review

어제 올린게 편향을 직접적으로 마주하고 Downstream tesk에서 어떻게 발현되는지 였는데.오늘은 편향을 삭제하고 아니고에 따라서 Downstream tesk에서 어떻게 성능 차이가 알아보는 논문입니다.ACL 2023 shorts paper 부분에 개제된 논문으로 내가 하고 있는 연구에 희망을 봤달까...이것도 급하게 정리한거라 정리가 영 맘에 안들어서 일단 개제하고 다음으로 미룰예정  논문 "The Impact of Debiasing on the Performance of Language Models in Downstream Tasks is Underestimated"는 편향 제거가 언어 모델의 성능에 미치는 영향을 다룸. 같은 해에 같은 학회에서 편향에 대한 이야기가 두번이나 다뤄졌음. 서치하다..

논문/리뷰 2024.07.17

[ NLP] From Pretraining Data to Language Models to Downstream Tasks:Tracking the Trails of Political Biases Leading to Unfair NLP Models | Review

이러다 마지막 리뷰로부터 1년이 지나게 생겨서 내일 세미나에서 리뷰할 논문에 대한 간단한 리뷰를...ACL 2023 longpaper에서 BEST Paper로 뽑힌 논문입니다.NLP 모델들의 정치 성향 습득을 corpus에 대한 분석으로 잘 알려주는 논문엄청난 실험량을 리뷰에 담아내기 한계가 있었음으로 직접 보는것을 매우 강추합니다. 올해 ACL 2024도 어떤 좋은 논문이 나올지 기대가 되네용.내용 정리Abstract LM은 뉴스, 토론 포럼, 책, wikipedia 등 다양한 데이터 소스에 대해서 pretrained. 오픈 소스의 특성상 데이터 전반에 상당한 사회적 편향이 담김(민주주의 아이디어를 찬양하면서도 편향된 의견이 같이 담김) 저자들은이런 corpus로 훈련한 LM의 정치적 편견을 측정정치적..

논문/리뷰 2024.07.16

[NLP] Reddit Comment Toxicity Score Prediction throughBERT via Transformer Based Architecture Review | NLP 논문 리뷰

오늘 리뷰할 논문은 "Reddit Comment Toxicity Score Prediction throughBERT via Transformer Based Architecture" 입니다. 이 연구는 트랜스포머 구조에 기반해 Reddit 데이터가 가진 comment 내의 독성 수치를 예측하는 모델을 제안합니다. 여느 때 처럼 사진을 누르면 논문 페이지로 이동합니다. 독성 예측을 위한 연구이니 만큼 문장의 단어 흐름이나 앞뒤 관계보다도 특정 단어의 반복에 집중을 한것 같습니다. 반복되는 단어에 집중하면서 단어의 가중치 편향이나 과적합 문제를 비교적 자주 마주했을텐데 적재적소에 맞는 방법을 잘 사용해 난관을 극복한 연구였습니다. 시작하시죵 - - - I. INTRODUCTION 저자들은 소셜 미디어의 세상이..

논문/리뷰 2023.08.07

[딥러닝][BERT] BertTokenizer 정리 | BERT 공부하기

Bert-Tokenizer tokenizer 정의 : 주어진 corpus에서 토큰이라 불리는 단위로 나누는 작업임. berttokenizer의 특별한 점. wordpiece tokenizer(BPE의 변형 알고리즘) 적용 BPE(Byte Pair Encoding): OOV(OUT-OF-VOCA) 문제를 완화하기위한 대표적인 서브워드 분리 알고리즘 서브워드 분리(subword segmenation); 하나의 단어는 더 작은 단위의 의미있는 여러 서브워드들(workplace = work + place)조합으로 구성된 경우가 많음. 이같은 하나의 단어를 서브워드로 분리해 인코딩 & 임베딩하기 위한 전처리 작업. Tokenizer의 input과 output input 텍스트 (List[str]), 리스트 형태로..

이론/NLP 2023.07.20

[딥러닝][BERT] BERT - config | BERT 공부하기

class BertConfig(PretrainedConfig): def __init__( self, # bert에 포함된 voca 크키 / 고유 토큰 갯수 / 기본값: 30522 vocab_size=30522, #encoder와 pooler층 차원 수 / 기본값: 768 hidden_size=768, # encoder hidden layer 수 / 기본값: 12 num_hidden_layers=12, #encoder가 가지는 attention head 수 / 기본값: 12 num_attention_heads=12, #encoder의 intermediate 차원수 (feed-forward) / 기본값: 3072 intermediate_size=3072, # encoder와 pooler의 활성화 함수 기본값..

이론/NLP 2023.07.20

[NLP] Analysis of sentiment in tweets addressed to a single domain-specific Twitter account: Comparison of model performance and explainability of predictions Review | 논문 리뷰

안녕하세요. 오늘 리뷰해볼 논문은 "Analysis of sentiment in tweets addressed to a single domain-specific Twitter account: Comparison of model performance and explainability of predictions" 제가 이해한 바로는 Feature Extraction에 관한 다양한 방법을 직접 실험해보고 가장 좋은 성능을 얻어 내는 방법을 탐구해나가는 논문 같았습니다. 서로 다른 기계학습 모델의 성능을 평가방법을 제안하고 비교하면서 마지막장에서는 시각화 하는 방법도 제안합니다. 왜 같았습니다....냐면... 뭔가 이해가 잘 안되었거든요. 글의 짜임새나 내용의 흐름은 좋은데 그래서...뭘 한건가 싶은 느낌. 하..

논문/리뷰 2023.04.25

[NLP] TOXIGEN: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection Review | 논문 리뷰

안녕하세요. 쏘오금입니다. 오늘 리뷰할 논문은 TOXIGEN: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection로 적대적이고 은유에 비유된 혐오표현을 감지하고 생성한 데이터 세트에 관한 논문입니다. 독성언어 탐지 시스템은 종종 소수자 표현이 함유된 문장을 독성 언어가 포함되었다고 잘못 표기하곤 합니다. 이런 시스템의 허점들을 방지하고자 독성 언어 표현 생성에 대한 연구가 깊어지고 있는데요. TOXIGEN은 이런 상황에서 빛처럼 등장한 현재까지 가장 큰 혐오 텍스트 탐지 데이터 셋입니다. 리뷰는 제가 이해하기 편한 방식으로 구성되었으니 자세한 이해를 원하시는 분들은 링크 속 논문과 글 하단에 있..

논문/리뷰 2023.03.28

[Chatbot] Attachment Theory as a Framework to Understand Relationships with Social Chatbots: A Case Study of Replika Review | 논문 리뷰

안녕하세요. 쏘오금입니다. 오늘 읽어본 논문은 Attachment Theory as a Framework to Understand Relationships with Social Chatbots: A Case Study of Replika : 사회와의 관계를 이해하기 위한 틀로서의 애착이론 | 소셜 앱 Replika의 사례연구 입니다. 사람과 AI의 올바른 애착관계 형성 과정에 대한 연구자들의 관점을 Replika라는 챗봇 앱의 사례로 잘 담아낸 논문입니다. https://scholarspace.manoa.hawaii.edu/items/5b6ed7af-78c8-49a3-bed2-bf8be1c9e465 Attachment Theory as a Framework to Understand Relationship..

논문/리뷰 2023.02.20

[딥러닝][Text Adversarial Attack] NLP에서 Adversarial Attack의 분류

NLP에서 Adversarial Attack은 Similarity에 기준해 두갈래로 분류된다. [1] Visual Similarity (시각적 유사성) : 원래 입력과 아주 유사한 형태(word or sentence, 눈으로 보기에) 적대적 공격 중 일부는 모델의 예측을 변경 시키기 위해 가능한 적은 수의 문자를 변형하려고 시도한다. 보통 현실적인 범주의 오타를 말한다. rull-based의 맞춤법 검사기 또는 적대적인 오타를 수정하도록 훈련된 seq2seq 모델을 사용하여 이러한 공격을 상당히 효과적으로 방어할 수 있을 것으로 사료된다. visual Text attack recipe: deepwordbug, hotflip, pruthi, textbugger*, morpheus (ex) - i don't..

이론/NLP 2023.01.03