Can large language models understand molecules?

BMC Bioinformatics

Table 1 Comparison of tokenizers for molecular SMILES string

Model	Tokenization strategy	Example tokenization of ’CCS(=O)(=O)CCBr’
BERT tokenizer	Subword-based tokenization	[’CC’, ’##S’, ’(’, ’=’, ’O’, ’)’, ’(’, ’=’, ’O’, ’)’, ’CC’, ’##B’, ’##r’]
GPT tokenizer	cl100k-base	[’CC’, ’S’, ’(’, ’=’, ’O’, ’)(’, ’=’, ’O’, ’)’, ’CC’, ’Br’]
LLaMA2 tokenizer	SentencePiece byte-pair encoding-based	[’_C’, , ’CS’, ’(’, ’=’, ’O’, ’)(’, ’=’, ’O’, ’)’, ’CC’, ’Br’]
ChemBERTa tokenizer	Byte-pair encoding-based	[’C’, ’C’, ’S’, ’(’, ’=’, ’O’, ’)’, ’(’, ’=’, ’O’, ’)’, ’C’, ’C’, ’B’, ’r’]
MolFormer-XL tokenizer	SMILE regex	[’C’, ’C’, ’S’, ’(’, ’=’, ’O’, ’)’, ’(’, ’=’, ’O’, ’)’, ’C’, ’C’, ’Br’]

ISSN: 1471-2105