이론/NLP 3

[딥러닝][BERT] BertTokenizer 정리 | BERT 공부하기

Bert-Tokenizer tokenizer 정의 : 주어진 corpus에서 토큰이라 불리는 단위로 나누는 작업임. berttokenizer의 특별한 점. wordpiece tokenizer(BPE의 변형 알고리즘) 적용 BPE(Byte Pair Encoding): OOV(OUT-OF-VOCA) 문제를 완화하기위한 대표적인 서브워드 분리 알고리즘 서브워드 분리(subword segmenation); 하나의 단어는 더 작은 단위의 의미있는 여러 서브워드들(workplace = work + place)조합으로 구성된 경우가 많음. 이같은 하나의 단어를 서브워드로 분리해 인코딩 & 임베딩하기 위한 전처리 작업. Tokenizer의 input과 output input 텍스트 (List[str]), 리스트 형태로..

이론/NLP 2023.07.20

[딥러닝][BERT] BERT - config | BERT 공부하기

class BertConfig(PretrainedConfig): def __init__( self, # bert에 포함된 voca 크키 / 고유 토큰 갯수 / 기본값: 30522 vocab_size=30522, #encoder와 pooler층 차원 수 / 기본값: 768 hidden_size=768, # encoder hidden layer 수 / 기본값: 12 num_hidden_layers=12, #encoder가 가지는 attention head 수 / 기본값: 12 num_attention_heads=12, #encoder의 intermediate 차원수 (feed-forward) / 기본값: 3072 intermediate_size=3072, # encoder와 pooler의 활성화 함수 기본값..

이론/NLP 2023.07.20

[딥러닝][Text Adversarial Attack] NLP에서 Adversarial Attack의 분류

NLP에서 Adversarial Attack은 Similarity에 기준해 두갈래로 분류된다. [1] Visual Similarity (시각적 유사성) : 원래 입력과 아주 유사한 형태(word or sentence, 눈으로 보기에) 적대적 공격 중 일부는 모델의 예측을 변경 시키기 위해 가능한 적은 수의 문자를 변형하려고 시도한다. 보통 현실적인 범주의 오타를 말한다. rull-based의 맞춤법 검사기 또는 적대적인 오타를 수정하도록 훈련된 seq2seq 모델을 사용하여 이러한 공격을 상당히 효과적으로 방어할 수 있을 것으로 사료된다. visual Text attack recipe: deepwordbug, hotflip, pruthi, textbugger*, morpheus (ex) - i don't..

이론/NLP 2023.01.03