[딥러닝][BERT] BERT - config

이론/NLP

[딥러닝][BERT] BERT - config | BERT 공부하기

쏘오금 2023. 7. 20. 17:14

class BertConfig(PretrainedConfig):
            def __init__(
            self,
                
                # bert에 포함된 voca 크키 / 고유 토큰 갯수 / 기본값: 30522
            vocab_size=30522,
                
                #encoder와 pooler층 차원 수 / 기본값: 768
            hidden_size=768, 
                
                # encoder hidden layer 수 / 기본값: 12
            num_hidden_layers=12, 
                
                #encoder가 가지는 attention head 수 / 기본값: 12
            num_attention_heads=12, 
                
                #encoder의 intermediate 차원수 (feed-forward) / 기본값: 3072
            intermediate_size=3072, 
                
                # encoder와 pooler의 활성화 함수 기본값: gelu
            hidden_act="gelu", 
                
                # embedding과 encoder와 pooler의 fully-connected-layer의 dropout 비율 / 기본값: 0.1
            hidden_dropout_prob=0.1, 
                
                 #attention probabilities의 dropout 비율 / 기본값: 0.1
            attention_probs_dropout_prob=0.1,
                
                # 모델이 처리할 수 있는 sequence의 최대 길이 / 기본값: 512
            max_position_embeddings=512,
                
                # token_type_ids의 voca 크기 / 기본값: 2
            type_vocab_size=2, 
                
                # 모든 가중치 벡터 초기화에 쓰이는 표준 편차 값/ 기본값: 0.02
            initializer_range=0.02, 
                
                # layer normalization layers에 쓰는 epsilon 값/ 기본값: 1e-12 
            layer_norm_eps=1e-12, 
            pad_token_id=0, 
                
                # position embedding의 유형 ('absolute', 'relative_key', 'relative_key_query') / 기본값: 'absolute'
            position_embedding_type="absolute", 
                
                # 모델이 마지막 key/value attention들을 반환할 것인가 여부(is_decoder = True 일 때만 의미 있음.)
            use_cache=True, 
                
                # classification head의 dropout 비율
            classifier_dropout=None, 
            **kwargs
        )

BERT config에 관한 설명은 주석으로 대체.

저작자표시 (새창열림)

'이론 > NLP' 카테고리의 다른 글

[딥러닝][BERT] BertTokenizer 정리 \| BERT 공부하기 (0)	2023.07.20
[딥러닝][Text Adversarial Attack] NLP에서 Adversarial Attack의 분류 (0)	2023.01.03

현재글[딥러닝][BERT] BERT - config | BERT 공부하기

sew_Code_ SALT

안녕하세요. NLP 논문 리뷰가 주로 올라옵니다. Python도 하고 R도 합니다.

emnlp2024, sentiment, 딥러닝, 편향제거, deeplearning, 편향 제거의 효과, bert 편향, nlp paper, nlp 논문리뷰, Adversarial, bert 토크나이저, acl 2023, BERT 정의, bestpaper, nlp, 과학 논문, deeplearing, emnlp, BERT, NLP 논문,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

[딥러닝][BERT] BERT - config | BERT 공부하기

'이론 > NLP' 카테고리의 다른 글

'이론/NLP'의 다른글

티스토리툴바

[딥러닝][BERT] BERT - config | BERT 공부하기

'이론 > NLP' 카테고리의 다른 글

'이론/NLP'의 다른글

관련글

티스토리툴바