Удаление знаков препинания и специальных символов с помощью NLTK в Python

Чтобы удалить знаки препинания и специальные символы с помощью набора инструментов естественного языка (NLTK) в Python, вы можете использовать различные методы. Вот несколько вариантов:

  1. Использование регулярных выражений.
    Регулярные выражения можно использовать для удаления знаков препинания и специальных символов. Вот пример:

    import re
    text = "Hello! How are you?"
    # Remove punctuation and special characters
    cleaned_text = re.sub(r'[^\w\s]', '', text)
    print(cleaned_text)  # Output: Hello How are you
  2. Использование NLTK и модуля string:
    Библиотека NLTK предоставляет модуль string, который содержит строковую константу punctuation, представляющую все знаки пунктуации. Вы можете объединить его с NLTK для удаления знаков препинания и специальных символов:

    import nltk
    from nltk.tokenize import word_tokenize
    from string import punctuation
    nltk.download('punkt')
    text = "Hello! How are you?"
    # Tokenize the text
    tokens = word_tokenize(text)
    # Remove punctuation and special characters
    cleaned_tokens = [token for token in tokens if token not in punctuation]
    cleaned_text = ' '.join(cleaned_tokens)
    print(cleaned_text)  # Output: Hello How are you