Informační entropie
Entropie Bernoulliho procesu jako funkce pravděpodobnosti úspěchu.
Entropie je pojem v termodynamice (viz termodynamická entropie), statistické mechanice a teorii informací. Pojmy informace a entropie mají hluboké vazby mezi sebou, i když trvalo mnoho let, než se to projevilo ve vývoji teorií statistické mechaniky a teorie informací. Tento článek je o informační entropii, informačně-teoretické formulaci entropie. Informační entropie je příležitostně nazývána Shannonovou entropií na počest Clauda E. Shannona.
Pojem entropie v teorii informace popisuje, s jak velkou náhodností (nebo alternativně 'nejistotou') je signál nebo náhodná událost. Alternativní způsob, jak se na to podívat, je mluvit o tom, kolik informací je signálem přenášeno.
Mohlo by vás zajímat: Informační geometrie
Vezměme si například nějaký anglický text, kódovaný jako řetězec písmen, mezer a interpunkce (takže náš signál je řetězec znaků). Vzhledem k tomu, že četnost písmen u některých znaků není příliš vysoká (např. 'z'), zatímco jiná písmena jsou velmi častá (např. 'e'), řetězec znaků není ve skutečnosti tak náhodný, jak by mohl být. Na druhou stranu, vzhledem k tomu, že nemůžeme předpovědět, jaký bude další znak: je do určité míry 'náhodný'. Entropie je měřítkem této náhodnosti, kterou navrhl Shannon ve své práci z roku 1948 „Matematická teorie komunikace“.
Shannon nabízí definici entropie, která splňuje předpoklady, že:
(Poznámka: Shannon/Weaver odkazují na Tolmana (1938), který zase připisuje Paulimu (1933) definici entropie, kterou používá Shannon. Jinde ve statistické mechanice literatura zahrnuje odkazy na von Neumanna, který v roce 1927 odvodil stejnou formu entropie, takže to bylo tak, že von Neumann upřednostnil použití existujícího termínu 'entropie'. )
Claude E. Shannon definuje entropii z hlediska diskrétní náhodné události x, s možnými stavy (nebo výsledky) 1..n jako:
To znamená, že entropie události x je součtem všech možných výsledků i(x) součinu pravděpodobnosti výsledku i krát log inverzní pravděpodobnosti i (což se také nazývá i's surprisal – entropie x je očekávaná hodnota překvapení jeho výsledku). Můžeme to také aplikovat na obecné rozdělení pravděpodobnosti, spíše než na událost s diskrétní hodnotou.
Shannon ukazuje, že jakákoli definice entropie splňující jeho předpoklady bude mít formu:
kde K je konstanta (a je vlastně jen volbou měrných jednotek).
Shannonova definice entropie úzce souvisí s termodynamickou entropií, jak ji definovali fyzici a mnozí chemici. Boltzmann a Gibbs odvedli značnou práci na statistické termodynamice, která se stala inspirací pro přijetí slova entropie v teorii informace. Existují vztahy mezi termodynamickou a informační entropií. Ve skutečnosti by podle Jaynese (1957) měla být termodynamika chápána jako aplikace Shannonovy teorie informace: termodynamická entropie je interpretována jako odhad množství dalších Shannonových informací (potřebných k definování detailního mikroskopického stavu systému), které zůstávají nekomunikovány popisem výhradně z hlediska makroskopických proměnných klasické termodynamiky. (Viz článek: MaxEntova termodynamika). Podobně Maxwellův démon obrací termodynamickou entropii informacemi; ale pokud je sám vázán zákony termodynamiky, zbavení se této informace přesně vyvažuje termodynamický zisk, kterého by démon jinak dosáhl.
Z předchozího příkladu si povšimněte následujících bodů:
Entropie účinně omezuje výkon nejsilnější bezztrátové (nebo téměř bezztrátové) komprese, kterou lze teoreticky realizovat pomocí typické množiny nebo v praxi pomocí Huffmanova, Lempelova-Zivova nebo aritmetického kódování. Výkon stávajících algoritmů komprese dat se často používá jako hrubý odhad entropie bloku dat.
kde i je stav (určité předcházející znaky) a je pravděpodobnost dané jako předchozí znak (s).
Další způsob, jak definovat entropickou funkci H (nepoužíváme Markovův model) je dokázat, že H je jednoznačně definováno (jak již bylo zmíněno) MFF H splňuje 1) - 3):
1) H(p1, …, pn) je definováno a spojité pro všechny p1, …, pn kde pi [0,1] pro všechny i = 1, …, n a p1 + … + pn = 1. (Všimněte si, že funkce závisí výhradně na rozdělení pravděpodobnosti, nikoli na abecedě.)
2) Pro všechny pozitivní celá čísla n, H splňuje
3) Pro pozitivní celá čísla bi kde b1 + … + bk = n, H vyhovuje
Odvození Shannoniny entropie
Vzhledem k tomu, že entropie byla uvedena jako definice, není třeba ji odvodit. Na druhou stranu lze uvést „odvození“, které dává smysl motivaci pro definici i souvislosti s termodynamickou entropií.
Q. Vzhledem k tomu, ruleta s n kapsy, které jsou všechny stejně pravděpodobné, že bude přistál na míč, jaká je pravděpodobnost získání rozdělení (A1, A2, …, An) kde Ai je počet krát pocket i byl přistál na a
je celkový počet míčových přistání?
A. Pravděpodobnost je multinomiální rozdělení, viz.
je počet možných kombinací výsledků (pro události), které odpovídají danému rozdělení, a
je počet všech možných kombinací výstupů pro množinu P událostí.
Q. A jaká je entropie?
A. entropie rozdělení se získává z logaritmu Ω:
Součty mohou být přiblíženy tím, že jsou nahrazeny integrály:
Integrál z logaritmu je
Změňte Ax na px = Ax/P a změňte P na 1 (pro měření „předpětí“ nebo „nerovností“, v rozdělení pravděpodobnosti kapes pro jednu událost), pak
a výraz (1 − n) může být vypuštěn, protože je konstanta, nezávislá na px distribuci. Výsledkem je
Tedy Shannonova entropie je důsledkem rovnice
která se týká Boltzmannova definice,
termodynamické entropie.
Vlastnosti Shannonovy informační entropie
V návaznosti na Jensenovu nerovnost,
Rozdělíme-li mn výsledky náhodného experimentu do m skupin s každou skupinou obsahující n prvků, můžeme experiment provést ve dvou krocích: nejprve určit skupinu, do které náleží skutečný výsledek; poté najít výsledek v této skupině. Pravděpodobnost, že budete pozorovat skupinu i, je qi. Podmíněná funkce rozdělení pravděpodobnosti pro skupinu i je pi1/qi,...,pin/qi). entropie
je entropie pravděpodobnostního rozdělení podmíněného skupinou i. Tato vlastnost znamená, že celková informace je součtem informací získaných v prvním kroku, Hm(q1,..., qn), a váženým součtem entropií podmíněných každou skupinou.
Khinchin v roce 1957 ukázalo, že jedinou funkcí splňující výše uvedené předpoklady je na formě
kde k je kladná konstanta představující požadovanou měrnou jednotku.
Odvození kontinuální entropie z diskrétní entropie: Boltzmannova entropie
Shannonova entropie je omezena na konečné množiny. Zdá se, že vzorec
kde f označuje hustotu pravděpodobnosti funkce na reálné přímce, je analogická s Shannonovou entropií a mohla by být tedy považována za rozšíření Shannonovy entropie na doménu reálných čísel. Vzorec (*) je obvykle označován jako Boltzmannova entropie, spojitá entropie nebo diferenciální entropie. Ačkoli analogie mezi oběma funkcemi je sugestivní, je třeba položit následující otázku: je Boltzmannova entropie platným rozšířením Shannonovy entropie? Pro odpověď na tuto otázku musíme vytvořit spojení mezi oběma funkcemi:
Chceme získat obecně konečnou míru, protože velikost koše jde k nule. V diskrétním případě je velikost koše (implicitní) šířka každého z n (konečných nebo nekonečných) košů, jejichž pravděpodobnosti jsou označeny pn. Když zobecňujeme spojitou doménu, musíme tuto šířku explicitně vyjádřit.
Chcete-li to udělat, začněte s spojitou funkcí f diskrétní, jak je znázorněno na obrázku. Jak je znázorněno na obrázku, podle věty o střední hodnotě existuje hodnota xi v každém koši taková, že
a tak integrál funkce f lze aproximovat (v Riemannian smyslu) podle
kde tento limit a velikost koše jde na nulu jsou ekvivalentní.
a rozšíření logaritmu, máme
Ale na vědomí, že jako , Proto potřebujeme speciální definici diferenciální nebo spojité entropie:
který je, jak již bylo řečeno, označován jako Boltzmannova entropie. To znamená, že Boltzmannova entropie není limitem Shannonovy entropie pro n → ∞ a není tedy měřítkem nejistoty a informace.
Tento článek obsahuje materiál ze Shannonovy entropie na PlanetMath, který je licencován pod GFDL.