Cómo comparar dos archivos de texto en la terminal de Linux

¿Necesita ver las diferencias entre dos revisiones de un archivo de texto? Entonces diff es el comando que necesitas. Este tutorial le muestra cómo usar diff en Linux y macOS, de la manera más fácil.

Buceando en diff

El comando diff compara dos archivos y produce una lista de las diferencias entre los dos. Para ser más preciso, genera una lista de los cambios que se deben realizar en el primer archivo para que coincida con el segundo archivo. Si tiene esto en cuenta, le resultará más fácil comprender la salida de diff. El comando diff fue diseñado para encontrar diferencias entre los archivos de código fuente y producir una salida que pudiera ser leída y actuada por otros programas, como el parche mando. En este tutorial, veremos las formas más útiles y amigables para los humanos de usar diff.

Vamos a sumergirnos y analizar dos archivos. El orden de los archivos en la línea de comando determina qué archivo diff considera el «primer archivo» y cuál considera el «segundo archivo». En el siguiente ejemplo, alpha1 es el primer archivo y alpha2 es el segundo archivo. Ambos archivos contienen el alfabeto fonetico pero el segundo archivo, alpha2, ha tenido algunas modificaciones adicionales para que los dos archivos no sean idénticos.

Podemos comparar los archivos con este comando. Escriba diff, un espacio, el nombre del primer archivo, un espacio, el nombre del segundo archivo y luego presione Entrar.

diff alpha1 alpha2

Salida del comando diff sin opciones

¿Cómo diseccionamos ese resultado? Una vez que sepa qué buscar, no estará tan mal. Cada diferencia se enumera a su vez en una sola columna y cada diferencia está etiquetada. La etiqueta contiene números a ambos lados de una letra, como 4c4. El primer número es el número de línea en alpha1 y el segundo número es el número de línea en alpha2. La letra del medio puede ser:

c: La línea del primer archivo debe cambiarse para que coincida con la línea del segundo archivo.
d: La línea del primer archivo debe eliminarse para que coincida con el segundo archivo.
a: Se debe agregar contenido adicional al primer archivo para que coincida con el segundo archivo.

El 4c4 en nuestro ejemplo nos dice que la línea cuatro de alpha1 debe cambiarse para que coincida con la línea cuatro de alpha2. Ésta es la primera diferencia entre los dos archivos que encontró diff.

Las líneas que comienzan con se refieren al segundo archivo, alpha2. La línea Dave nos dice que la palabra Dave es el contenido de la línea cuatro en alpha2. Entonces, para resumir, necesitamos reemplazar Delta con Dave en la línea cuatro en alpha1, para que esa línea coincida en ambos archivos.

  Cómo limpiar y acelerar Arch Linux

El siguiente cambio está indicado por el 12c12. Aplicando la misma lógica, esto nos dice que la línea 12 en alpha1 contiene la palabra Lima, pero la línea 12 de alpha2 contiene la palabra Linux.

El tercer cambio se refiere a una línea que se ha eliminado de alpha2. La etiqueta 21d20 se descifra como «la línea 21 debe eliminarse del primer archivo para que ambos archivos se sincronicen desde la línea 20 en adelante». los

La cuarta diferencia está etiquetada como 26a26,28. Este cambio se refiere a tres líneas adicionales que se han agregado a alpha2. Tenga en cuenta el 26,28 en la etiqueta. Los números de dos líneas separados por comas representan un rango de números de línea. En este ejemplo, el rango va de la línea 26 a la 28. La etiqueta se interpreta como «en la línea 26 del primer archivo, agregue las líneas 26 a 28 del segundo archivo». Se nos muestran las tres líneas en alpha2 que deben agregarse a alpha1. Estos contienen las palabras Quirk, Strange y Charm.

Simples de una sola línea

Si todo lo que desea saber es si dos archivos son iguales, use la opción -s (reportar archivos idénticos).

diff -s alpha1 alpha3

Salida del comando diff con la opción -s

Puede usar la opción -q (breve) para obtener una declaración igualmente concisa sobre dos archivos que son diferentes.

diff -q alpha1 alpha2

Salida del comando diff con la opción -q

Una cosa a tener en cuenta es que con dos archivos idénticos, la opción-q (breve) se cierra por completo y no informa nada en absoluto.

Una vista alternativa

La opción -y (lado a lado) usa un diseño diferente para describir las diferencias de archivo. A menudo es conveniente usar la opción -W (ancho) con la vista lado a lado, para limitar el número de columnas que se muestran. Esto evita las feas líneas envolventes que dificultan la lectura de la salida. Aquí le hemos dicho a diff que produzca una visualización lado a lado y que limite la salida a 70 columnas.

diff -y -W 70 alpha1 alpha2

Salida del comando diff con visualización lado a lado

El primer archivo de la línea de comando, alpha1, se muestra a la izquierda y la segunda línea de la línea de comando, alpha2, se muestra a la derecha. Las líneas de cada archivo se muestran, una al lado de la otra. Hay caracteres indicadores junto a esas líneas en alpha2 que se han cambiado, eliminado o agregado.

|: Una línea que se ha modificado en el segundo archivo.
<: a="" line="" that="" has="" been="" deleted="" from="" the="" second="" file.="">: Una línea que se ha agregado al segundo archivo que no está en el primer archivo.

Si prefiere un resumen paralelo más compacto de las diferencias de archivo, utilice la opción –suppress-common-lines. Esto obliga a diff a enumerar solo las líneas modificadas, agregadas o eliminadas.

diff -y -W 70 --suppress-common-lines alpha1 alpha2

Salida del comando diff con la opción --suppress-common-lines

Añade un toque de color

Otra utilidad llamada colordiff agrega resaltado de color a la salida de diferencia. Esto hace que sea mucho más fácil ver qué líneas tienen diferencias.

  Cómo cambiar de Bash a Korn Shell en Linux

Use apt-get para instalar este paquete en su sistema si está usando Ubuntu u otra distribución basada en Debian. En otras distribuciones de Linux, utilice la herramienta de administración de paquetes de su distribución de Linux.

sudo apt-get install colordiff

Use colordiff tal como lo haría con diff.

Salida del comando colordiff sin opciones

De hecho, colordiff es un envoltorio para diff, y diff hace todo el trabajo detrás de escena. Por eso, todas las opciones de diferencias funcionarán con colordiff.

Salida del comando colordiff con la opción --suppress-common-lines

Proporcionar algo de contexto

Para encontrar un término medio entre tener todas las líneas en los archivos mostrados en la pantalla y tener solo las líneas cambiadas en la lista, podemos pedirle a diff que proporcione algo de contexto. Hay dos maneras de hacer esto. Ambas formas logran el mismo propósito, que es mostrar algunas líneas antes y después de cada línea modificada. Podrá ver lo que está sucediendo en el archivo en el lugar donde se detectó la diferencia.

El primer método usa la opción -c (contexto copiado).

colordiff -c alpha1 alpha2

Salida de colordiff con opción -c

La salida diff tiene un encabezado. El encabezado enumera los dos nombres de archivo y sus tiempos de modificación. Hay asteriscos

antes del nombre del primer archivo y guiones (-) antes del nombre del segundo archivo. Se utilizarán asteriscos y guiones para indicar a qué archivo pertenecen las líneas de la salida.

Una línea de asteriscos con 1,7 en el medio indica que estamos viendo líneas de alpha1. Para ser precisos, estamos viendo las líneas uno a siete. La palabra Delta se marca como modificada. Tiene un signo de exclamación (!) A su lado y es rojo. Se muestran tres líneas de texto sin cambios antes y después de esa línea para que podamos ver el contexto de esa línea en el archivo.

La línea de guiones con 1,7 en el medio nos dice que ahora estamos viendo líneas de alpha2. Nuevamente, estamos viendo las líneas uno a siete, con la palabra Dave en la línea cuatro marcada como diferente.

colordiff -C 2 alpha1 alpha2

Tres líneas de contexto encima y debajo de cada cambio es el valor predeterminado.  Puede especificar cuántas líneas de contexto desea que proporcione diff.  Para hacer esto, use la opción -C (contexto copiado) con una

Salida de colordiff con opción -C 2

colordiff -u alpha1 alpha2

La segunda opción diff que ofrece contexto es la opción -u (contexto unificado).

Salida de colordiff con opción -u

Como antes, tenemos un encabezado en la salida. Los dos archivos se nombran y se muestran sus tiempos de modificación. Hay guiones (-) antes del nombre de alpha1 y signos más (+) antes del nombre de alpha2. Esto nos dice que los guiones se usarán para referirse a alpha1 y los signos más se usarán para referirse a alpha2. Dispersas a lo largo de la lista hay líneas que comienzan con los signos (@). Estas líneas marcan el inicio de cada diferencia. También nos dicen qué líneas se muestran de cada archivo.

  Las 5 mejores distribuciones de Linux basadas en Gnome para revisar

Se nos muestran las tres líneas antes y después de la línea marcada como diferente para que podamos ver el contexto de la línea modificada. En la vista unificada, las líneas con la diferencia se muestran una encima de la otra. La línea de alpha1 está precedida por un guión y la línea de alpha2 está precedida por un signo más. Esta pantalla logra en ocho líneas lo que la pantalla de contexto copiada de arriba tardó quince en hacer.

colordiff -U 2 alpha1 alpha2

Como era de esperar, podemos pedirle a diff que proporcione exactamente el número de líneas de contexto unificado que nos gustaría ver.  Para hacer esto, use la opción -U (contexto unificado) con una “U” mayúscula y proporcione la cantidad de líneas que desea:

Salida de colordiff con opción -U 2

Ignorar el espacio en blanco y el caso

colordiff -y -W 70 test4 test5

Analicemos otros dos archivos, test4 y test5.  Estos tienen los nombres seis de superhéroes en ellos.

Salida de colordiff en archivos test4 y test5

Los resultados muestran que diff no encuentra nada diferente con las líneas Black Widow, Spider-Man y Thor. Señala cambios con las líneas Capitán América, Ironman y Hulk.

Entonces, ¿qué es diferente? Bueno, en test5, Hulk se escribe con una «h» minúscula y el Capitán América tiene un espacio adicional entre «Capitán» y «América». Está bien, eso es fácil de ver, pero ¿qué pasa con la línea Ironman? No hay diferencias visibles. Aquí tienes una buena regla general. Si no puede verlo, la respuesta es un espacio en blanco. Es casi seguro que haya un espacio perdido o dos, o un carácter de tabulación, al final de esa línea.

Si no le importan, puede indicarle a diff que ignore tipos específicos de diferencia de línea, que incluyen:
-i: Ignora las diferencias entre mayúsculas y minúsculas.
-Z: ignora los espacios en blanco finales.
-b: ignora los cambios en la cantidad de espacio en blanco.

-w: ignora todos los cambios de espacios en blanco.

colordiff -i -y -W 70 test4 test5

Pidamos a diff que revise esos dos archivos nuevamente, pero esta vez para ignorar cualquier diferencia en el caso.

salida de colordiff ignorar caso

colordiff -i -Z -y -W 70 test4 test5

Las líneas con

La salida de colordiff ignora los espacios en blanco finales

colordiff -i -w -y -W 70 test4 test5

Como se sospechaba, el espacio en blanco al final debe haber sido la diferencia en la línea Ironman porque diff ya no marca una diferencia para esa línea.  Eso deja al Capitán América.  Pidamos a diff que ignore las mayúsculas y minúsculas y que ignore todos los problemas de espacios en blanco.

La salida de colordiff ignora todos los espacios en blanco

Al decirle a diff que ignore las diferencias que no nos preocupan, diff nos dice que, para nuestros propósitos, los archivos coinciden. El comando diff tiene muchas más opciones, pero la mayoría de ellas se relacionan con la producción de resultados legibles por máquina. Estos se pueden revisar en Linuxpágina man

. Las opciones que hemos usado en los ejemplos anteriores le permitirán rastrear todas las diferencias entre las versiones de sus archivos de texto, usando la línea de comando y los ojos humanos.