Полное руководство по методам сравнения текста с примерами кода - Fcodenotes

Точное соответствие.
Самый простой подход к сравнению текстов — это точное сопоставление, при котором мы сравниваем тексты посимвольно. Вот пример на Python:

def exact_match(text1, text2):
    return text1 == text2
# Example usage
text1 = "Hello, world!"
text2 = "Hello, world!"
print(exact_match(text1, text2))  # Output: True

Расстояние Левенштейна.
Расстояние Левенштейна измеряет минимальное количество односимвольных правок (вставок, удалений, замен), необходимых для преобразования одного текста в другой. Чем меньше расстояние, тем больше похожи тексты. Вот пример использования библиотеки python-Levenshtein:

import Levenshtein
def levenshtein_distance(text1, text2):
    return Levenshtein.distance(text1, text2)
# Example usage
text1 = "kitten"
text2 = "sitting"
print(levenshtein_distance(text1, text2))  # Output: 3

Косинусное сходство.
Косинусное сходство измеряет сходство между двумя текстами на основе угла между их векторами признаков. Он обычно используется для сходства документов и кластеризации. Вот пример использования библиотеки scikit-learn:

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
def cosine_similarity(text1, text2):
    vectorizer = TfidfVectorizer()
    tfidf = vectorizer.fit_transform([text1, text2])
    return cosine_similarity(tfidf[0], tfidf[1])[0][0]
# Example usage
text1 = "This is a sample sentence."
text2 = "This sentence is similar to the first one."
print(cosine_similarity(text1, text2))  # Output: 0.583

Сходство Жаккара.
Сходство Жаккара позволяет сравнивать тексты на основе пересечения и объединения их наборов слов. Его обычно используют для измерения сходства в наборах слов. Вот пример на Python:

def jaccard_similarity(text1, text2):
    set1 = set(text1.split())
    set2 = set(text2.split())
    intersection = set1.intersection(set2)
    union = set1.union(set2)
    return len(intersection) / len(union)
# Example usage
text1 = "apple banana orange"
text2 = "banana orange kiwi"
print(jaccard_similarity(text1, text2))  # Output: 0.5

Сопоставление последовательностей.
Библиотека difflibв Python предоставляет класс SequenceMatcher, который сравнивает последовательности текста и вычисляет коэффициент сходства. Это полезно для поиска сходства в длинных фрагментах текста. Вот пример:

from difflib import SequenceMatcher
def sequence_matcher_similarity(text1, text2):
    matcher = SequenceMatcher(None, text1, text2)
    return matcher.ratio()
# Example usage
text1 = "OpenAI is revolutionizing artificial intelligence."
text2 = "OpenAI is transforming the field of AI."
print(sequence_matcher_similarity(text1, text2))  # Output: 0.705

В этой статье блога мы рассмотрели различные методы сравнения текста: от простого точного сопоставления до более сложных методов, таких как расстояние Левенштейна, косинусное сходство, сходство Жаккара и сопоставление последовательностей. Эти методы предоставляют различные способы измерения сходства или несходства между текстами, каждый из которых имеет свои сильные стороны и ограничения. Используя эти методы в своих проектах, вы можете улучшить такие задачи, как обнаружение плагиата, кластеризация документов и оптимизация контента для поисковых систем.