Model | Tokenization strategy | Example tokenization of ’CCS(=O)(=O)CCBr’ |
---|---|---|
BERT tokenizer | Subword-based tokenization | [’CC’, ’##S’, ’(’, ’=’, ’O’, ’)’, ’(’, ’=’, ’O’, ’)’, ’CC’, ’##B’, ’##r’] |
GPT tokenizer | cl100k-base | [’CC’, ’S’, ’(’, ’=’, ’O’, ’)(’, ’=’, ’O’, ’)’, ’CC’, ’Br’] |
LLaMA2 tokenizer | SentencePiece byte-pair encoding-based | [’_C’, , ’CS’, ’(’, ’=’, ’O’, ’)(’, ’=’, ’O’, ’)’, ’CC’, ’Br’] |
ChemBERTa tokenizer | Byte-pair encoding-based | [’C’, ’C’, ’S’, ’(’, ’=’, ’O’, ’)’, ’(’, ’=’, ’O’, ’)’, ’C’, ’C’, ’B’, ’r’] |
MolFormer-XL tokenizer | SMILE regex | [’C’, ’C’, ’S’, ’(’, ’=’, ’O’, ’)’, ’(’, ’=’, ’O’, ’)’, ’C’, ’C’, ’Br’] |