-
Определение языка:
- Метод: использование библиотеки определения языка, например langdetect в Python.
- Пример кода:
from langdetect import detect text = "Hola, ¿cómo estás?" language = detect(text) print(language) # Output: 'es' (Spanish)
- Пример кода (с использованием библиотеки googletrans в Python):
from googletrans import Translator translator = Translator() text = "Hola, ¿cómo estás?" translation = translator.translate(text, dest='en') print(translation.text) # Output: 'Hello, how are you?' -
Языковая локализация:
- Метод: использование фреймворков интернационализации (i18n), таких как gettext.
- Пример кода (Python с gettext):
import gettext # Set the language lang = 'es' translation = gettext.translation('messages', localedir='locales', languages=[lang]) translation.install() # Use translated strings print(_("Hello")) # Output: 'Hola'
-
Проверка орфографии:
- Метод: использование библиотек проверки орфографии, таких как PySpellChecker.
- Пример кода:
from spellchecker import SpellChecker spell = SpellChecker() text = "Ths sentence has sme misspelled wrds." misspelled = spell.unknown(text.split()) for word in misspelled: print(spell.correction(word)) # Output: 'This', 'some', 'words'
-
Стэмминг и лемматизация:
- Метод: использование таких библиотек, как NLTK (Natural Language Toolkit) в Python.
- Пример кода (с использованием NLTK):
from nltk.stem import PorterStemmer, WordNetLemmatizer stemmer = PorterStemmer() lemmatizer = WordNetLemmatizer() word = "running" print(stemmer.stem(word)) # Output: 'run' print(lemmatizer.lemmatize(word)) # Output: 'running'