Diversión en Linux Terminal - Juega con recuentos de palabras y personajes

Diversión en Linux Terminal - Juega con recuentos de palabras y personajes

La línea de comandos de Linux se divierte mucho a su alrededor y muchas tareas tediosas se pueden realizar muy fácilmente aún con perfección. Jugar con palabras y personajes, su frecuencia en un archivo de texto, etc. es lo que vamos a ver en este artículo.

El único comando que viene a nuestra mente, para ajustar la línea de comandos de Linux para manipular palabras y caracteres de un archivo de texto es el comando wc.

Diversión con la palabra y la letra cuenta en shell

A 'WC'Comando que representa el recuento de palabras es capaz de imprimir Newline, Word & Byte cuenta desde un archivo de texto.

Para trabajar con los scripts pequeños para analizar el archivo de texto, debemos tener un archivo de texto. Para mantener la uniformidad, estamos creando un archivo de texto con el comando de salida del hombre, como se describe a continuación.

$ hombre hombre> hombre.TXT

El comando anterior crea un archivo de texto 'hombre.TXT'Con el contenido de'página manual' para 'hombre' dominio.

Queremos verificar las palabras más comunes, en las anteriores creadas 'Archivo de texto'Ejecutando el siguiente script.

$ gato hombre.txt | tr "2 '| tr' [: superior:]" [: inferior:] '| tr -d '[: PUNT:]' | grep -v '[^a -z]' | ordenar | uniq -c | Sort -rn | cabeza
Salida de muestra
7557 262 El 163 a 112 es 112 A 78 de 78 Manual 76 y 64 si 63

El script simple de un revestimiento anterior muestra, diez palabras que aparecen con mayor frecuencia y su frecuencia de apariencia, en el archivo de texto.

¿Qué tal romper una palabra en individuo usando el siguiente comando?.

$ Echo 'TecMint Team' | pliegue -w1
Salida de muestra
T e c m i n t t e a m

Nota: Aquí, '-w1' es para ancho.

Ahora desglosaremos cada palabra en un archivo de texto, ordenaremos el resultado y obtendremos la salida deseada con la frecuencia de diez caracteres más frecuentes.

$ plegable -w1 < man.txt | sort | uniq -c | sort -rn | head
Salida de muestra
8579 2413 E 1987 A 1875 T 1644 I 1553 N 1522 O 1514 S 1224 R 1021 L

¿Qué tal obtener los caracteres más frecuentes en el archivo de texto con mayúsculas y minúsculas de manera diferente junto con su frecuencia de ocurrencia?.

$ plegable -w1 < man.txt | sort | tr '[:lower:]"[:upper:]' | uniq -c | sort -rn | head -20
Salida de muestra
11636 2504 E 2079 A 2005 T 1729 I 1645 N 1632 S 1580 O 1269 R 1055 L 836 H 791 P 766 D 753 C 725 M 690 U 605 F 504 G 352 Y 344 .

Verifique la salida anterior, donde se incluye el signo de puntuación. Vamos a eliminar la puntuación, con 'TR' dominio. Aquí vamos:

$ plegable -w1 < man.txt | tr '[:lower:]"[:upper:]' | sort | tr -d '[:punct:]' | uniq -c | sort -rn | head -20
Salida de muestra
 11636 2504 E 2079 A 2005 T 1729 I 1645 N 1632 S 1580 O 1550 1269 R 1055 L 836 H 791 P 766 D 753 C 725 M 690 U 605 F 504 G 352 Y

Ahora tengo tres archivos de texto, ejecutemos el script de un revestimiento anterior para ver la salida.

$ Cat *.txt | pliegue -w1 | tr '[: inferior:] "[: superior:]' | sort | tr -d '[: punc:]' | uniq -c | sort -rn | head -8
Salida de muestra
 11636 2504 E 2079 A 2005 T 1729 I 1645 N 1632 S 1580 O

A continuación, generaremos esas letras poco frecuentes que tienen al menos diez letras de largo. Aquí está el script simple.

$ gato hombre.txt | tr "2 '| tr' [: superior:]" [: inferior:] '| tr -d '[: PUNT:]' | tr -d '[0-9]' | ordenar | uniq -c | sort -n | Grep -e '...' | cabeza
Salida de muestra
1 eros Todos los argumentos dentro son opcionales 1 capaz de ver SetLocale para detalles precisos 1 Las opciones AB delimitadas por no se pueden usar juntos 1 logrado utilizando la variable menos de entorno 1 Un proceso infantil devolvió un estado de salida sin cero 1 actuar como si esta opción se suministrara utilizando el nombre como un nombre de archivo 1 activar formato de modo local y mostrar archivos manuales locales 1 acento agudo

Nota: Cuanto más y más puntos en el script anterior hasta que se generan todos los resultados. Nosotros podemos usar .10 para obtener diez partidos de personajes.

Estos scripts simples, también nos hacen saber las palabras y personajes más frecuentes en inglés.

Eso es todo por ahora. Estaré aquí de nuevo con otro tema interesante y fuera del ritmo que vale la pena saber, que a ustedes les encantará leer. No olvide proporcionarnos sus valiosos comentarios en la sección de comentarios, a continuación.

Leer también: 20 comandos divertidos de Linux