'이론/NLP' 카테고리의 글 목록

이론/NLP 3

[딥러닝][BERT] BertTokenizer 정리 | BERT 공부하기

Bert-Tokenizer tokenizer 정의 : 주어진 corpus에서 토큰이라 불리는 단위로 나누는 작업임. berttokenizer의 특별한 점. wordpiece tokenizer(BPE의 변형 알고리즘) 적용 BPE(Byte Pair Encoding): OOV(OUT-OF-VOCA) 문제를 완화하기위한 대표적인 서브워드 분리 알고리즘 서브워드 분리(subword segmenation); 하나의 단어는 더 작은 단위의 의미있는 여러 서브워드들(workplace = work + place)조합으로 구성된 경우가 많음. 이같은 하나의 단어를 서브워드로 분리해 인코딩 & 임베딩하기 위한 전처리 작업. Tokenizer의 input과 output input 텍스트 (List[str]), 리스트 형태로..

이론/NLP 2023.07.20

[딥러닝][BERT] BERT - config | BERT 공부하기

class BertConfig(PretrainedConfig): def __init__( self, # bert에 포함된 voca 크키 / 고유 토큰 갯수 / 기본값: 30522 vocab_size=30522, #encoder와 pooler층 차원 수 / 기본값: 768 hidden_size=768, # encoder hidden layer 수 / 기본값: 12 num_hidden_layers=12, #encoder가 가지는 attention head 수 / 기본값: 12 num_attention_heads=12, #encoder의 intermediate 차원수 (feed-forward) / 기본값: 3072 intermediate_size=3072, # encoder와 pooler의 활성화 함수 기본값..

이론/NLP 2023.07.20

[딥러닝][Text Adversarial Attack] NLP에서 Adversarial Attack의 분류

NLP에서 Adversarial Attack은 Similarity에 기준해 두갈래로 분류된다. [1] Visual Similarity (시각적 유사성) : 원래 입력과 아주 유사한 형태(word or sentence, 눈으로 보기에) 적대적 공격 중 일부는 모델의 예측을 변경 시키기 위해 가능한 적은 수의 문자를 변형하려고 시도한다. 보통 현실적인 범주의 오타를 말한다. rull-based의 맞춤법 검사기 또는 적대적인 오타를 수정하도록 훈련된 seq2seq 모델을 사용하여 이러한 공격을 상당히 효과적으로 방어할 수 있을 것으로 사료된다. visual Text attack recipe: deepwordbug, hotflip, pruthi, textbugger*, morpheus (ex) - i don't..

이론/NLP 2023.01.03

sew_Code_ SALT

안녕하세요. NLP 논문 리뷰가 주로 올라옵니다. Python도 하고 R도 합니다.

NLP 논문, bestpaper, 과학 논문, bert class, bert 환경설정, class 단위 bert, BERT, deeplearning, Adversarial, bert 토크나이저, 편향제거, BERTtokenizer, nlp, BERT 정의, deeplearing, acl 2023, 편향 제거의 효과, nlp 논문리뷰, 딥러닝, bert 편향,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

이론/NLP 3

티스토리툴바