🐧 Удаление повторяющихся строк из текстового файла с помощью командной строки Linux

Удаление повторяющихся строк из текстового файла можно выполнить из командной строки Linux.

Такая задача может быть более распространенной и необходимой, чем вы думаете.

Чаще всего это может быть полезно при работе с файлами логов.

Зачастую файлы логов повторяют одну и ту же информацию снова и снова, что делает практически невозможным просмотр файлов.

В этом руководстве мы покажем различные примеры из командной строки, которые вы можете использовать для удаления повторяющихся строк из текстового файла.

Попробуйте некоторые команды в своей системе и используйте ту, которая наиболее удобна для вашего сценария.

Эти примеры будут работать в любом дистрибутиве Linux при условии, что вы используете оболочку Bash.

В нашем примере сценария мы будем работать с файлом, который просто содержит имена различных дистрибутивов Linux.

Это очень простой текстовый файл для примера, но на самом деле вы можете использовать эти методы для документов, содержащих даже тысячи повторяющихся строк.

Мы увидим, как удалить все дубликаты из этого файла, используя приведенные ниже примеры.

$ cat distros.txt
Ubuntu
CentOS
Debian
Ubuntu
Fedora
Debian
openSUSE
openSUSE
Debian

Пример 1

Команда uniq может изолировать все уникальные строки из нашего файла, но это работает только в том случае, если повторяющиеся строки находятся рядом друг с другом.

Чтобы строки были смежными, их сначала нужно отсортировать в алфавитном порядке.

Следующая команда будет работать с использованием sort и uniq.

$ sort distros.txt | uniq
CentOS
Debian
Fedora
openSUSE
Ubuntu

Чтобы упростить задачу, мы можем просто использовать -u с sort, чтобы получить тот же точный результат, вместо перехода к uniq.

$ sort -u distros.txt
CentOS
Debian
Fedora
openSUSE
Ubuntu

Пример 2

Чтобы увидеть, сколько повторений каждой строки находится в файле, мы можем использовать параметр -c (count) с uniq.

$ sort distros.txt | uniq -c
      1 CentOS
      3 Debian
      1 Fedora
      2 openSUSE
      2 Ubuntu

Пример 3

Чтобы увидеть наиболее часто повторяющиеся строки, мы можем передать по пайпу еще одну команду sort с параметрами -n (числовая сортировка) и -r в обратном направлении.

Это позволяет нам быстро увидеть, какие строки в файле больше всего дублируются – еще один удобный вариант для просмотра логов.

$ sort distros.txt | uniq -c | sort -nr
      3 Debian
      2 Ubuntu
      2 openSUSE
      1 Fedora
      1 CentOS

Пример 4

Одна из проблем с использованием предыдущих команд заключается в том, что мы полагаемся на сортировку.

Это означает, что наш окончательный результат отсортирован по алфавиту или по количеству повторов, как в предыдущем примере.

Иногда это может быть хорошо, но что, если нам нужно, чтобы текстовый файл сохранил свой предыдущий порядок?

Мы можем удалить повторяющиеся строки без сортировки файла, используя команду awk в следующем синтаксисе.

$ awk '!seen[__g5_token60a1f36c18105]++' distros.txt 
Ubuntu
CentOS
Debian
Fedora
openSUSE

С помощью этой команды сохраняется первое вхождение строки, а будущие повторяющиеся строки удаляются из вывода.

$ awk '!seen[__g5_token60a1f36c18107]++' distros.txt > distros-new.txt

Заключение

В этом руководстве мы рассмотрели различные примеры команд для удаления повторяющихся строк из текстового файла в Linux.

Эти команды можно применять к файлам логов или любому другому типу файла с открытым текстом, содержащему повторяющиеся строки.

Мы также узнали, как сортировать строки текстового файла или подсчитывать количество дубликатов, поскольку это иногда может ускорить выделение нужной нам информации из документа.

🐧 Удаление повторяющихся строк из текстового файла с помощью командной строки Linux

Пример 1

Пример 2

Пример 3

Пример 4

🐳 Как удалить все Docker контейнеры с помощью одной команды

🤾 Как установить сетевой принтер и сканер HP в Ubuntu Linux

You may also like

Leave a Comment Cancel Reply