Bert-Tokenizer tokenizer 정의 : 주어진 corpus에서 토큰이라 불리는 단위로 나누는 작업임. berttokenizer의 특별한 점. wordpiece tokenizer(BPE의 변형 알고리즘) 적용 BPE(Byte Pair Encoding): OOV(OUT-OF-VOCA) 문제를 완화하기위한 대표적인 서브워드 분리 알고리즘 서브워드 분리(subword segmenation); 하나의 단어는 더 작은 단위의 의미있는 여러 서브워드들(workplace = work + place)조합으로 구성된 경우가 많음. 이같은 하나의 단어를 서브워드로 분리해 인코딩 & 임베딩하기 위한 전처리 작업. Tokenizer의 input과 output input 텍스트 (List[str]), 리스트 형태로..