В BERT (представления двунаправленного кодировщика из Transformers) vocab.json
— это файл, содержащий словарь модели. Он сопоставляет каждый уникальный токен в обучающих данных с уникальным целочисленным индексом. Файл vocab.json
используется в процессе токенизации для преобразования ввода текста в последовательность токенов, которые могут быть обработаны моделью BERT.
Вот пример загрузки и использования vocab.json
в Python:
import json
# Load the vocab.json file
with open('vocab.json', 'r', encoding='utf-8') as f:
vocab = json.load(f)
# Convert a text into BERT tokens
def tokenize_text(text):
tokens = []
for word in text.split():
if word in vocab:
tokens.append(vocab[word])
else:
tokens.append(vocab['[UNK]']) # Handle unknown words
return tokens
# Example usage
text = "Hello, how are you?"
tokens = tokenize_text(text)
print(tokens)
В этом примере файл vocab.json
загружается с помощью функции json.load()
. Функция tokenize_text()
принимает вводимый текст, разбивает его на отдельные слова и преобразует каждое слово в соответствующий ему индекс токена, используя словарь vocab
. Если слово не найдено в словаре, оно заменяется токеном [UNK]
.