Освоение подсчета частотности слов в PHP: раскрытие возможностей языкового анализа

Готовы ли вы погрузиться в захватывающий мир языкового анализа в PHP? В этой статье блога я познакомлю вас с несколькими методами подсчета частоты слов, которые позволят вам извлечь ценную информацию из текстовых данных. Итак, хватайте свое снаряжение для кодирования и начнем!

Метод 1: использование функции str_word_count()
Функция str_word_count()в PHP — это простой, но эффективный метод подсчета частоты слов в строке. Он возвращает массив, содержащий все уникальные слова и соответствующие им частоты. Взгляните на фрагмент кода ниже:

$text = "Lorem ipsum dolor sit amet, consectetur adipiscing elit. Sed consequat erat nec lectus tincidunt, in mollis tortor varius.";
$wordFrequency = array_count_values(str_word_count($text, 1));
print_r($wordFrequency);

Выход:

Array
(
    [Lorem] => 1
    [ipsum] => 1
    [dolor] => 1
    [sit] => 1
    [amet] => 1
    [consectetur] => 1
    [adipiscing] => 1
    [elit] => 1
    [Sed] => 1
    [consequat] => 1
    [erat] => 1
    [nec] => 1
    [lectus] => 1
    [tincidunt] => 1
    [in] => 1
    [mollis] => 1
    [tortor] => 1
    [varius] => 1
)

Метод 2: использование регулярных выражений
Регулярные выражения предоставляют мощный способ манипулирования и анализа текстовых данных. Используя функцию preg_match_all(), мы можем подсчитать частоту слов в строке. Вот пример:

$text = "PHP is a popular programming language. PHP stands for Hypertext Preprocessor.";
preg_match_all('/\b\w+\b/', $text, $matches);
$wordFrequency = array_count_values($matches[0]);
print_r($wordFrequency);

Выход:

Array
(
    [PHP] => 2
    [is] => 1
    [a] => 1
    [popular] => 1
    [programming] => 1
    [language] => 1
    [stands] => 1
    [for] => 1
    [Hypertext] => 1
    [Preprocessor] => 1
)

Метод 3: подсчет частоты слов вручную.
Если вы предпочитаете более ручной подход, вы можете разделить строку на массив слов с помощью функции explode(), а затем перебрать массив для подсчета. частота каждого слова. Вот пример:

$text = "PHP is a server-side scripting language. It is widely used for web development.";
$words = explode(' ', $text);
$wordFrequency = array();
foreach ($words as $word) {
    if (array_key_exists($word, $wordFrequency)) {
        $wordFrequency[$word]++;
    } else {
        $wordFrequency[$word] = 1;
    }
}
print_r($wordFrequency);

Выход:

Array
(
    [PHP] => 1
    [is] => 1
    [a] => 1
    [server-side] => 1
    [scripting] => 1
    [language.] => 1
    [It] => 1
    [widely] => 1
    [used] => 1
    [for] => 1
    [web] => 1
    [development.] => 1
)

Это всего лишь несколько методов подсчета частоты слов в PHP. В зависимости от ваших конкретных требований вы можете выбрать метод, который подходит вам лучше всего. Помните: понимание частоты слов открывает мир возможностей для анализа текста и обработки данных.

Итак, давайте использовать возможности PHP, чтобы получать ценную информацию из ваших текстовых данных. Приятного кодирования!