Skip to main content

Table 1 Comparison of tokenizers for molecular SMILES string

From: Can large language models understand molecules?

Model

Tokenization strategy

Example tokenization of ’CCS(=O)(=O)CCBr’

BERT tokenizer

Subword-based tokenization

[’CC’, ’##S’, ’(’, ’=’, ’O’, ’)’, ’(’, ’=’, ’O’, ’)’, ’CC’, ’##B’, ’##r’]

GPT tokenizer

cl100k-base

[’CC’, ’S’, ’(’, ’=’, ’O’, ’)(’, ’=’, ’O’, ’)’, ’CC’, ’Br’]

LLaMA2 tokenizer

SentencePiece byte-pair encoding-based

[’_C’, , ’CS’, ’(’, ’=’, ’O’, ’)(’, ’=’, ’O’, ’)’, ’CC’, ’Br’]

ChemBERTa tokenizer

Byte-pair encoding-based

[’C’, ’C’, ’S’, ’(’, ’=’, ’O’, ’)’, ’(’, ’=’, ’O’, ’)’, ’C’, ’C’, ’B’, ’r’]

MolFormer-XL tokenizer

SMILE regex

[’C’, ’C’, ’S’, ’(’, ’=’, ’O’, ’)’, ’(’, ’=’, ’O’, ’)’, ’C’, ’C’, ’Br’]