nlp 4

[딥러닝][BERT] BertTokenizer 정리 | BERT 공부하기

Bert-Tokenizer tokenizer 정의 : 주어진 corpus에서 토큰이라 불리는 단위로 나누는 작업임. berttokenizer의 특별한 점. wordpiece tokenizer(BPE의 변형 알고리즘) 적용 BPE(Byte Pair Encoding): OOV(OUT-OF-VOCA) 문제를 완화하기위한 대표적인 서브워드 분리 알고리즘 서브워드 분리(subword segmenation); 하나의 단어는 더 작은 단위의 의미있는 여러 서브워드들(workplace = work + place)조합으로 구성된 경우가 많음. 이같은 하나의 단어를 서브워드로 분리해 인코딩 & 임베딩하기 위한 전처리 작업. Tokenizer의 input과 output input 텍스트 (List[str]), 리스트 형태로..

이론/NLP 2023.07.20

[NLP] Analysis of sentiment in tweets addressed to a single domain-specific Twitter account: Comparison of model performance and explainability of predictions Review | 논문 리뷰

안녕하세요. 오늘 리뷰해볼 논문은 "Analysis of sentiment in tweets addressed to a single domain-specific Twitter account: Comparison of model performance and explainability of predictions" 제가 이해한 바로는 Feature Extraction에 관한 다양한 방법을 직접 실험해보고 가장 좋은 성능을 얻어 내는 방법을 탐구해나가는 논문 같았습니다. 서로 다른 기계학습 모델의 성능을 평가방법을 제안하고 비교하면서 마지막장에서는 시각화 하는 방법도 제안합니다. 왜 같았습니다....냐면... 뭔가 이해가 잘 안되었거든요. 글의 짜임새나 내용의 흐름은 좋은데 그래서...뭘 한건가 싶은 느낌. 하..

논문/리뷰 2023.04.25

[NLP] TOXIGEN: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection Review | 논문 리뷰

안녕하세요. 쏘오금입니다. 오늘 리뷰할 논문은 TOXIGEN: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection로 적대적이고 은유에 비유된 혐오표현을 감지하고 생성한 데이터 세트에 관한 논문입니다. 독성언어 탐지 시스템은 종종 소수자 표현이 함유된 문장을 독성 언어가 포함되었다고 잘못 표기하곤 합니다. 이런 시스템의 허점들을 방지하고자 독성 언어 표현 생성에 대한 연구가 깊어지고 있는데요. TOXIGEN은 이런 상황에서 빛처럼 등장한 현재까지 가장 큰 혐오 텍스트 탐지 데이터 셋입니다. 리뷰는 제가 이해하기 편한 방식으로 구성되었으니 자세한 이해를 원하시는 분들은 링크 속 논문과 글 하단에 있..

논문/리뷰 2023.03.28