¿Cuál es un método más preciso de detección de archivos duplicados: SHA1 o CRC32?

SHA1 es definitivamente más preciso que CRC32, solo vea la tabla a continuación:

(Imagen tomada de un gran artículo: Hash Collision Probabilities).

CRC32 es de 32 bits, SHA1 es de 160 bits. Entonces, si marca 100 archivos, habrá aprox. 1 en un millón de posibilidades de que para dos de ellos los hashes CRC32 colisionen e informen los archivos como duplicados cuando no lo estén. Por otro lado, con SHA1 la posibilidad será de 9 órdenes de magnitud menos: aprox. 1 en 10 ^ 15.

Sin embargo, SHA1 también es más complejo de calcular, mientras que CRC32 es bastante simple. Puede tener sentido emplear ambos: CRC32 primero, y luego SHA1 para asegurarse de que los archivos con los mismos hash CRC32 sean duplicados entre sí.

Pero si está escribiendo una utilidad que encontrará y eliminará archivos duplicados, piense si puede permitirse incluso una probabilidad tan minúscula de un falso positivo. Probablemente tendrá que hacer una comparación bit a bit de los archivos como verificación final.

Actualización: también considere que para archivos grandes, el método más eficiente es no usar hashes de todo el archivo, sino leer y hash los archivos por bloques. De esta manera, podrá dejar de verificar tan pronto como llegue al primer bloque diferente.

Related Content

¿Cuál es el mejor software de seguimiento de tiempo de código abierto?

¿Qué software me permite tocar un piano digital y crear miles de tonos de instrumentos diferentes?

¿Cuál es el mejor software para videos promocionales para una startup con problemas de arranque?

¿Cómo codifico sin usar Internet?

¿En qué modelo de software se pueden crear sitios web de sistemas de citas en línea?

¿Qué es un núcleo? ¿Es hardware o software?

¿El software de código abierto para gestionar la seguridad física cuenta bajo la desgravación fiscal de I + D del Reino Unido?

Duplicate Files Deleter es una herramienta simple pero efectiva para localizar archivos duplicados en una o más rutas de búsqueda seleccionadas. Analiza los archivos y los compara según Byte para Byte Comparison, lo que garantiza una precisión del 100%. Luego puede elegir eliminar los archivos duplicados u originales seleccionados. El programa es multiproceso y realiza escaneos rápidamente.

Abigail Madison

Definitivamente optaría por SHA-1 si los recursos y el tiempo lo permiten. Puede ser difícil calcular CRC32 para archivos grandes y CRC32 es simplemente una función de comprobación de errores.

Recomendaría SHA-1 para casi todos los escenarios.

Asher Syed

More Interesting

¿Cuáles son algunos programas gratuitos de transmisión de video, ya que mi presupuesto es bajo? Quiero algunos consejos para comenzar a transmitir video y ganar dinero algún día.

Cómo escribir un programa para la conversión de datos y cuáles son los mejores programas de programación para usar

¿Cuál es la mejor herramienta gratuita para la grabación de pantalla de PC?

Cómo desarrollar una aplicación similar como Zomato

¿Cuál es el campamento base de la gestión de procesos empresariales (BPM)?

¿Existe una aplicación útil para recuperar fotos del teléfono?

¿Existe un software gratuito basado en la web para rastrear (20) las horas de los empleados?

¿Es posible escribir un script que extraiga automáticamente las consultas de búsqueda y las coloque en una hoja de cálculo o en una base de datos para encontrar la mejor oferta?

¿Cuáles son algunos programas de recuperación de datos recomendados o Mac OS X?

¡He estado jugando con aplicaciones habilitadas para voz como Shazam y Dragon Go! - ¿Hay otros por ahí a los que debería prestar atención y por qué?

¿Son realmente útiles esas aplicaciones de traducción gratuitas?

¿Cuál es el mejor software de Photoshop?

¿Cómo se hace una copia de seguridad de la configuración del software en Windows?

¿Qué aplicación es una aplicación de llamadas internacionales barata?

¿Cuáles son las 5 mejores aplicaciones que un estudiante debe tener?

Web Analytics