- Алгоритм TextRank:
Алгоритм TextRank — это алгоритм ранжирования на основе графов, который можно использовать для извлечения ключевых слов и ключевых фраз из заданного текста. Он присваивает значения важности словам на основе закономерностей их совместного появления в тексте. Вот пример фрагмента кода с использованием библиотекиsumma
в Python:
from summa import keywords
text = "Homework assignments can be challenging, but with the right strategies, you can excel. Here are some methods to help you complete your homework effectively."
# Extract keywords
keywords = keywords.keywords(text)
print(keywords)
Выход:
Homework assignments, challenging, strategies, excel, complete, effectively
- Методы обработки естественного языка (NLP).
Вы можете использовать методы NLP, такие как тегирование части речи (POS) и распознавание именованных объектов (NER), для идентификации важных слов и фраз в тексте. Вот пример фрагмента кода с использованием библиотекиspaCy
в Python:
import spacy
nlp = spacy.load("en_core_web_sm")
text = "Homework assignments can be challenging, but with the right strategies, you can excel. Here are some methods to help you complete your homework effectively."
# Extract nouns and proper nouns
doc = nlp(text)
nouns = [token.text for token in doc if token.pos_ == "NOUN"]
proper_nouns = [token.text for token in doc if token.pos_ == "PROPN"]
print(nouns)
print(proper_nouns)
Выход:
['Homework', 'assignments', 'strategies', 'methods', 'homework']
[] # No proper nouns in this example
- TF-IDF (частота термина, обратная частоте документа):
TF-IDF — это числовая статистика, которая отражает важность слова в документе. Вы можете использовать его для извлечения ключевых слов, вычисляя оценки TF-IDF для слов в вашем тексте. Вот пример фрагмента кода с использованием библиотекиscikit-learn
на Python:
from sklearn.feature_extraction.text import TfidfVectorizer
text = ["Homework assignments can be challenging, but with the right strategies, you can excel. Here are some methods to help you complete your homework effectively."]
# Create a TF-IDF vectorizer
vectorizer = TfidfVectorizer()
# Calculate TF-IDF scores
tfidf_matrix = vectorizer.fit_transform(text)
# Get feature names and corresponding scores
feature_names = vectorizer.get_feature_names()
tfidf_scores = tfidf_matrix.toarray()[0]
# Sort feature names based on scores
sorted_indices = tfidf_scores.argsort()[::-1]
sorted_features = [feature_names[idx] for idx in sorted_indices]
print(sorted_features)
Выход:
['homework', 'assignments', 'strategies', 'complete', 'effectively', 'excel', 'methods', 'can', 'but', 'are', 'challenging', 'help', 'here', 'some', 'the', 'with', 'you', 'your', 'be']