Ano Ang File Entropy

Ano Ang File Entropy
Ano Ang File Entropy

Video: Ano Ang File Entropy

Video: Ano Ang File Entropy
Video: What is entropy? - Jeff Phillips 2024, Nobyembre
Anonim

Anumang file ng computer ay binubuo ng mga byte. Ang isang byte ay maaaring tumagal ng mga halaga mula 0 hanggang 255. Ang entropy ng impormasyon ay isang statistiko na parameter na nagpapakita ng posibilidad ng paglitaw ng ilang mga byte sa isang file.

Ano ang file entropy
Ano ang file entropy

Maaari mong biswal na masuri ang antas ng entropy gamit ang isang histogram - ang pamamahagi ng posibilidad na ulitin ang parehong mga byte sa isang file. Mula sa entropy ng file, mahuhulaan natin kung anong uri ng file ang nasa harapan natin, nakikita lamang ang histogram nito.

Para sa pagpapakita, kumuha tayo ng tatlong mga file ng iba't ibang mga uri at ihambing ang kanilang mga histogram. Hayaan ang una na maging isang text file (*. TXT). Ang histogram nito ay ipinapakita sa pigura:

гистограмма=
гистограмма=

Ang teksto ng file ay naglalaman lamang ng teksto. Ang bawat karakter ng teksto ay naka-encode ng ilang mga byte alinsunod sa talahanayan ng pag-encode. Bagaman mayroong isang malaking bilang ng mga uri ng pag-encode, halata na mayroong isang limitadong bilang ng mga alphanumeric character, na karaniwang mas mababa sa 255. Samakatuwid, ang ilang mga lugar lamang ang sinasakop sa unang histogram, at ang ilang mga byte ay hindi talaga.

Ang sumusunod na file ay nasa format na PDF:

гистограмма=
гистограмма=

Naglalaman ang file na ito ng lahat ng posibleng byte, dahil ang PDF ay nai-encode nang iba mula sa mga file ng teksto. Nag-iimbak ito ng maraming impormasyon sa serbisyo: pag-format, mga font, imahe, atbp. Ngunit ipinapakita ng histogram nito na ang ilan sa mga byte ay nangyayari na may humigit-kumulang pantay na posibilidad, habang ang iba pa - mas madalas kaysa sa iba. Samakatuwid ang maramihang matalim na pagsabog sa histogram, at sa pangkalahatan ito ay may isang "basag" na hitsura, kahit na sinasakop nito ang buong magagamit na lapad.

At ang huling file ay nai-zip sa 7Z format:

гистограмма=
гистограмма=

Ang histogram na ito ay may dalawang pangunahing tampok: una, ang lahat ng mga byte ay matatagpuan sa naka-zip na file na may higit o mas mababa pantay na posibilidad (isang medyo patag na tuktok na gilid), at pangalawa, halos walang libreng puwang sa itaas ng histogram, na nagpapahiwatig ng halos kumpletong kawalan ng kalabisan tulad ng isang file. Samakatuwid, maaari nating tapusin na ang algorithm ng archiver sa ilang espesyal na paraan ay "sinasama" ang mga byte ng file upang makamit ang kanilang maximum na pamamahagi ng pare-parehong.

Kaya, ang entropy sa computer science, tulad ng physics, ay isang sukat ng karamdaman sa system, sa kasong ito, ang karamdaman sa pamamahagi ng mga byte sa file. Pinapayagan ka ng Entropy na hatulan ang antas ng pag-compress ng file at - nang hindi direkta - tungkol sa uri nito.

Inirerekumendang: