10 самых распространенных слов в текстовых файлах в Linux: руководство для начинающих - Fcodenotes

В огромном мире Linux текстовые файлы являются фундаментальной частью повседневных задач. Независимо от того, являетесь ли вы разработчиком, аналитиком данных или просто любопытным пользователем, возможность анализировать и извлекать ценную информацию из текстовых файлов может оказаться чрезвычайно полезной. Одной из распространенных задач является поиск наиболее часто встречающихся слов в коллекции текстовых файлов. В этой статье блога мы рассмотрим различные способы достижения этой цели в Linux, используя разговорный язык и практические примеры кода.

Метод 1: Использование команды «grep»:
Команда «grep» — мощный инструмент для поиска текстовых шаблонов в файлах. Мы можем использовать его для поиска наиболее распространенных слов в текстовых файлах, комбинируя его с некоторыми другими командами. Вот пример:

grep -oE '\w+' *.txt | sort | uniq -c | sort -nr | head -n 10

Объяснение:

Команда grep -oE '\w+' *.txtнаходит все слова в текстовых файлах.
sortрасполагает слова в порядке возрастания.
uniq -cгруппирует одинаковые слова и подсчитывает их появление.
sort -nrсортирует слова в порядке убывания их количества.
head -n 10отображает 10 самых распространенных слов.

Метод 2: использование «awk» и «sort»:
Команда «awk» — универсальный инструмент для обработки текста. Мы можем использовать его для поиска наиболее распространенных слов в текстовых файлах. Вот пример:

awk '{ for (i=1; i<=NF; i++) count[$i]++ } END { for (word in count) print count[word], word }' *.txt | sort -rn | head -n 10

Объяснение:

Команда «awk» перебирает каждое слово в текстовых файлах и увеличивает его счетчик в массиве «count».
sort -rnсортирует слова в порядке убывания их количества.
head -n 10отображает 10 самых распространенных слов.

Метод 3. Скрипт Python с использованием модуля «коллекции».
Python предоставляет обширные библиотеки для обработки текста. Модуль «Коллекции», в частности, предлагает класс «Счетчик», который упрощает подсчет вхождений. Вот пример:

import collections
word_count = collections.Counter()
with open('file1.txt') as file:
    for line in file:
        word_count.update(line.split())
with open('file2.txt') as file:
    for line in file:
        word_count.update(line.split())
most_common_words = word_count.most_common(10)
for word, count in most_common_words:
    print(word, count)

Объяснение:

Класс «Счетчик» из модуля «коллекции» используется для подсчета вхождений слов.
Мы открываем каждый файл отдельно и перебираем каждую строку, обновляя количество слов с помощью метода update().
Наконец, мы извлекаем 10 самых распространенных слов с помощью метода most_common()и распечатываем их.

В этой статье блога мы рассмотрели несколько методов поиска 10 самых распространенных слов в текстовых файлах в Linux. Мы рассмотрели подходы с использованием командной строки с использованием таких инструментов, как «grep» и «awk», а также скрипт Python, использующий модуль «collections». В зависимости от ваших предпочтений и требований вы можете выбрать тот метод, который подойдет вам лучше всего. Освоив эти методы, вы сможете эффективно анализировать текстовые файлы и извлекать ценную информацию.