논문/리뷰

[정리안한 논문] NLP 10+

쏘오금 2024. 11. 9. 14:51

[제목과 간단한 리뷰 첨부 & Abstract 정리]
- 최신에서 역순으로 나열

  • Comparing Pre-trained Human Language Models: Is it Better with Human Context as Groups, Individual Traits, or Both?

    acl 2024에서 있었던 Sentiment, & Social Media Analysis 워크샵 파트에서 발표된 논문
    인간 중심의 맥락을 사전 훈련된 언어모델에 통합하는 방법.(?)

    사전 훈련된 언어 모델에 인간의 맥락을 통합하는 방법을 평가해봄.
    그룹 속성, 개인 특성, 그리고 이 두 가지를 섞은 방식이 각각 어떤 영향을 미치는지 다섯 가지 사용자 및 문서 기반 작업에서 비교함. 결과적으로는 모델링 방식에 따라서 작업 마다의 최적 방식이 달라짐.

  • Analyzing the Evaluation of Cross-Lingual Knowledge Transfer in Multilingual Language Models

    다국어 언어 모델이 다양한 언어에서 어떻게 교차 언어 지식 전이를 수행하는지 평가하는 방법
    지식 전이 과정을 평가하는데 도움을 받을 수 있을 것 같음

  • Explaining data patterns in natural language with language models

    이 논문은 Interpretable Autoprompting (iPrompt)라는 방법을 통해 대규모 언어 모델(LLM)을 활용하여 데이터 세트에서 패턴을 찾고 이를 자연어로 설명하는 접근 방식을 제안함.
    iPrompt는 LLM을 사용하여 데이터의 주요 특징을 설명하는 자연어 프롬프트를 생성하고, 이를 반복적으로 평가 및 개선하여 인간이 이해할 수 있는 설명을 도출
    논문에서는 다양한 데이터 세트에 대해 iPrompt의 성능을 실험하고, 그 결과가 해석 가능하고 효율적이라는 것을 보여줌.

  • The Impact of Debiasing on the Performance of Language Models in Downstream Tasks is Underestimated

    편향 제거가 언어 모델의 성능에 미치는 영향을 다룸. 
    같은 해에 같은 학회에서 편향에 대한 이야기가 두번이나 다뤄졌음.

    이 논문은 사회적 편향을 학습한 pretrained LM의 편향을 제거하는 다양한 방법을 제안하고, 
    이를 평가하기 위한 벤치마크 데이터셋이 실제로 사회적 편향과 관련된 데이터를 포함하는지에 대해 논의함.

  • From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Leading to Unfair NLP Models

    KCC에서 모델이 가지는 편향에 대한 질문을 받았었음.
    이에 관해 사전학습 모델의 훈련용 corpus에 포함된 본질적인 사회적 편향을 지적하고 이로 학습한 LLM 모델의 정치적 편향을 측정해본 논문이 있어서 가져옴.

  • Aligning Large and Small Language Models via Chain-of-Thought Reasoning
  • Focus Your Attention (with Adaptive IIR Filters)
  • Conceptual structure coheres in human cognition but not in large language models
  • Do Neural Topic Models Really Need Dropout? Analysis of the Effect of Dropout in Topic Modeling
  • Abstractive Text Summarization Model Combining a Hierarchical Attention Mechanism and Multiobjective  Reinforcement Learning
  • VisCTG
  • IRL
  • Reddit_toxic
  • Dense Passage Retrieval for Open-Domain Question Answering
  • Twitter Sentiment Analysis with Deep Learning using BERT and Hugging Face
  • ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection