أي ملف كمبيوتر يتكون من بايت. يمكن أن يأخذ البايت قيمًا من 0 إلى 255. إنتروبيا المعلومات هي معلمة إحصائية تُظهر احتمالية حدوث وحدات بايت معينة في الملف.
يمكنك تقييم درجة الانتروبيا بصريًا باستخدام الرسم البياني - توزيع احتمالية تكرار نفس البايت في ملف. من إنتروبيا الملف ، يمكننا تخمين نوع الملف الموجود أمامنا ، مع رؤية المدرج التكراري الخاص به فقط.
للتوضيح ، دعنا نأخذ ثلاثة ملفات من أنواع مختلفة ونقارن الرسوم البيانية الخاصة بهم. دع الأول يكون ملفًا نصيًا (*. TXT). يظهر الرسم البياني الخاص به في الشكل:
يحتوي الملف النصي على نص فقط. يتم ترميز كل حرف من أحرف النص ببايتات معينة وفقًا لجدول الترميز. على الرغم من وجود عدد كبير من أنواع الترميز ، فمن الواضح أن هناك عددًا محدودًا من الأحرف الأبجدية الرقمية ، والتي تكون عادةً أقل من 255. لذلك ، يتم شغل بعض المناطق فقط في الرسم البياني الأول ، وبعض البايتات غير موجودة على الإطلاق.
سيكون الملف التالي بتنسيق PDF:
يحتوي هذا الملف على جميع وحدات البايت الممكنة ، حيث يتم ترميز PDF بشكل مختلف عن الملفات النصية. يخزن الكثير من معلومات الخدمة: التنسيق والخطوط والصور وما إلى ذلك. لكن الرسم البياني الخاص به يوضح أن بعض البايتات تحدث باحتمالية متساوية تقريبًا ، في حين أن البعض الآخر - في كثير من الأحيان أكثر من غيرها. ومن هنا كانت الانفجارات الحادة المتعددة على الرسم البياني ، وبشكل عام لها مظهر "خشن" إلى حد ما ، على الرغم من أنها تشغل العرض المتاح بالكامل.
والملف الأخير مضغوط بتنسيق 7Z:
يحتوي هذا الرسم البياني على ميزتين رئيسيتين: أولاً ، تم العثور على جميع البايتات في الملف المضغوط مع احتمال متساوٍ إلى حد ما (حافة علوية مسطحة إلى حد ما) ، وثانيًا ، لا توجد مساحة خالية عمليًا فوق الرسم البياني ، مما يشير إلى الغياب شبه الكامل من التكرار مثل هذا الملف. ومن ثم ، يمكننا أن نستنتج أن خوارزمية الأرشفة بطريقة خاصة "تمزج" بايتات الملف من أجل تحقيق أقصى توزيع منتظم لها.
وبالتالي ، فإن الانتروبيا في علوم الكمبيوتر ، كما في الفيزياء ، هي مقياس للاضطراب في النظام ، وفي هذه الحالة ، الاضطراب في توزيع البايتات في الملف. يسمح لك الانتروبيا بالحكم على درجة ضغط الملف و - بشكل غير مباشر - حول نوعه.