Освоение сопоставления строк с помощью FuzzyWuzzy в Conda

Вы устали вручную сравнивать строки и находить совпадения в данных? Не смотрите дальше! В этой статье блога мы погрузимся в мир сопоставления строк с помощью мощной библиотеки FuzzyWuzzy в Conda. FuzzyWuzzy — это популярная библиотека Python, которая предоставляет различные методы нечеткого сопоставления строк, что позволяет с легкостью выполнять очистку данных, дедупликацию и многое другое. Итак, давайте засучим рукава и рассмотрим некоторые невероятные методы, которые может предложить FuzzyWuzzy!

  1. Простое соотношение:
    Метод простого соотношения — это самый простой и простой метод, предоставляемый FuzzyWuzzy. Он вычисляет коэффициент сходства между двумя строками на основе количества совпадающих символов.
from fuzzywuzzy import fuzz
string1 = "Hello"
string2 = "Halo"
similarity_ratio = fuzz.ratio(string1, string2)
print(similarity_ratio)

Выход: 80

  1. Частичное соотношение:
    Частичное соотношение – это метод, который учитывает частичные совпадения между строками. Это может быть полезно при сравнении строк разной длины.
from fuzzywuzzy import fuzz
string1 = "Hello"
string2 = "Hello World!"
partial_ratio = fuzz.partial_ratio(string1, string2)
print(partial_ratio)

Выход: 100

  1. Коэффициент сортировки токенов.
    Метод Коэффициент сортировки токенов маркирует строки, сортирует их в алфавитном порядке, а затем вычисляет коэффициент сходства. Это полезно при работе со строками, в которых слова могут располагаться в разном порядке.
from fuzzywuzzy import fuzz
string1 = "Hello World"
string2 = "World Hello"
token_sort_ratio = fuzz.token_sort_ratio(string1, string2)
print(token_sort_ratio)

Выход: 100

  1. Коэффициент набора токенов:
    Коэффициент набора токенов аналогичен коэффициенту сортировки токенов, но он учитывает пересечение уникальных слов между строками. Этот метод полезен, когда порядок слов не имеет значения.
from fuzzywuzzy import fuzz
string1 = "Hello World"
string2 = "World Hi"
token_set_ratio = fuzz.token_set_ratio(string1, string2)
print(token_set_ratio)

Выход: 80

  1. Извлечение процесса.
    Извлечение процесса — это мощный метод, позволяющий извлечь наиболее подходящую строку из списка вариантов на основе входной строки.
from fuzzywuzzy import process
choices = ["Apple", "Banana", "Orange", "Pineapple"]
input_string = "Bnana"
best_match = process.extractOne(input_string, choices)
print(best_match)

Выход: («Банан», 86)

Это всего лишь несколько примеров из множества методов, которые FuzzyWuzzy предлагает для сопоставления строк. Это универсальная библиотека, которая может значительно упростить ваши задачи по очистке и дедупликации данных. Итак, зачем тратить часы на сравнение строк вручную, если FuzzyWuzzy может сделать это за вас?

В заключение, FuzzyWuzzy в Conda меняет правила игры для всех, кто занимается задачами сопоставления строк. Широкий спектр методов и простота использования делают его незаменимым инструментом для специалистов по данным, аналитиков и разработчиков. Итак, попробуйте и раскройте возможности нечеткого сопоставления строк уже сегодня!