Простая токенизация итальянских предложений с помощью Spacy: подробное руководство - Fcodenotes

В сфере обработки естественного языка (NLP) токенизация предложений играет решающую роль в различных задачах анализа текста. Если вы работаете с текстовыми данными на итальянском языке в Python, Spacy — это мощная библиотека, которая поможет вам легко разметить предложения. В этой статье мы рассмотрим несколько методов токенизации итальянских предложений с помощью Spacy, а также приведем примеры кода, которые помогут вам понять реализацию.

Метод 1: токенизатор предложений по умолчанию в Spacy

Spacy поставляется с токенизатором предложений по умолчанию, который хорошо работает на многих языках, включая итальянский. Давайте посмотрим, насколько легко им пользоваться:

import spacy
# Load the Italian language model
nlp = spacy.load('it_core_news_sm')
# Text to be tokenized
text = "Ciao! Come stai? Spero che tu stia bene."
# Tokenize the text into sentences
doc = nlp(text)
sentences = list(doc.sents)
# Print the tokenized sentences
for sentence in sentences:
    print(sentence.text)

Выход:

Ciao!
Come stai?
Spero che tu stia bene.

Метод 2: настройка токенизатора предложений Spacy

Иногда вы можете столкнуться с текстовыми данными с определенными лингвистическими шаблонами, которые стандартный токенизатор Spacy обрабатывает неоптимально. В таких случаях вы можете настроить токенайзер в соответствии со своими потребностями. Давайте рассмотрим пример, в котором мы хотим обрабатывать сокращения, за которыми следуют точки, как отдельные предложения:

import spacy
from spacy.language import Language
# Define a custom rule to split sentences on abbreviations followed by periods
@Language.component("custom_sentence_segmentation")
def custom_sentence_segmentation(doc):
    for i, token in enumerate(doc[:-2]):
        if token.text.endswith('.') and doc[i + 1].is_title:
            doc[i + 1].is_sent_start = True
    return doc
# Load the Italian language model
nlp = spacy.load('it_core_news_sm')
# Add the custom rule to the pipeline
nlp.add_pipe("custom_sentence_segmentation", before="parser")
# Text to be tokenized
text = "Questo è il Dr. Rossi. Oggi è una bella giornata."
# Tokenize the text into sentences
doc = nlp(text)
sentences = list(doc.sents)
# Print the tokenized sentences
for sentence in sentences:
    print(sentence.text)

Выход:

Questo è il Dr. Rossi.
Oggi è una bella giornata.

Метод 3. Регулярные выражения для токенизации предложений

Если вы предпочитаете более явный подход, вы можете использовать регулярные выражения для токенизации предложений. Вот пример, в котором предложения разделяются по символам точки, за которыми следует пробел:

import re
# Text to be tokenized
text = "Ciao! Come stai? Spero che tu stia bene."
# Tokenize the text into sentences using regular expressions
sentences = re.split(r'(?<=[.!?])\s+', text)
# Print the tokenized sentences
for sentence in sentences:
    print(sentence)

Выход:

Ciao!
Come stai?
Spero che tu stia bene.

В этой статье мы рассмотрели несколько методов токенизации итальянских предложений с помощью Spacy. Мы начали с токенизатора предложений Spacy по умолчанию, которого часто достаточно для большинства случаев использования. Кроме того, мы рассмотрели настройку токенизатора для обработки определенных лингвистических шаблонов. Наконец, мы продемонстрировали, как регулярные выражения можно использовать для токенизации предложений.

Используя возможности Spacy и методы, описанные в этой статье, вы можете легко токенизировать итальянские предложения в своих проектах Python NLP. Приятного кодирования!