Laat #A# een \((n\times n)\)-matrix zijn. We hebben eerder gezien dat alle matrices van deze afmetingen met de gebruikelijke matrixoptelling en scalarvermenigvuldiging een #n^2#-dimensionale vectorruimte vormen. Er is dus een niet-negatief geheel getal #k\le n^2#, zodat het stelsel \[\basis{1,A,A^2,\ldots, A^{k}}\] lineair afhankelijk is. In dat geval is er een gelijkheid van de vorm
\[A^k+c_{k-1} \cdot A^{k-1}+\cdots +c_1\cdot A + c_0\cdot I_n = 0\]
Volgens onderstaande stelling van Cayley-Hamilton is #k# ten hoogste #n#. Om dit resultaat te begrijpen, geven we aan wat we bedoelen met het invullen van een vierkante matrix in een veelterm.
Laat #n# een natuurlijk getal zijn en #A# een #(n\times n)#-matrix. Onder het invullen van #A# (voor #x#) in een veelterm\[ p(x) = c_0+c_1x+\cdots+ c_kx^k\] in #x# of de evaluatie van de veelterm in #A# verstaan we de bepaling van de #(n\times n)#-matrix \(p(A)\) gegeven door \[p(A)= c_0\cdot I_n+c_1\cdot A+\cdots +c_k\cdot A^k\]
De toevoeging van #p(A)# aan #p(x)# is een afbeelding # P\to M_{n\times n}# van de vectorruimte #P# van alle veeltermen in #x# naar de vectorruimte #M_{n\times n}# van alle #(n\times n)#-matrices.
Deze afbeelding respecteert de vermenigvuldiging in de volgende zin: als #p(x)#, #q(x)# en #r(x)# veeltermen zijn met #r (x)= p(x)\cdot q(x)#, dan geldt \[r(A) = p(A)\, q(A)\] Met het invullen van een lineaire afbeelding #L: V\to V# in de veelterm #p(x)# zoals hierboven gegeven, bedoelen we de lineaire afbeelding #p(L): V\to V# gegeven door \[p(L)= c_0\cdot I_V+c_1\cdot L+\cdots +c_k\cdot L^k\]
Als bijvoorbeeld #p(x) = 3x +4# en #A = \matrix{1&-3\\ 2&-5}#, dan is \[\begin{array}{rcl}p(A) &=& 3\cdot A+4\cdot I_2 \\ &=&3\cdot\matrix{1&-3\\ 2&-5}+4\cdot\matrix{1&0\\ 0&1}\\ &=&\matrix{3+4&-9\\ 6&-15+4}\\ &=&\matrix{7&-9\\ 6&-11}\end{array}\]
Als #A = \matrix{a}#, dan is het invullen van de matrix #A# in een veelterm #p(x)# niet anders dan het invullen van de waarde #a# in #p(x)#, dat wil zeggen: #p(A) # is de #(1\times1)#-matrix met element #p(a)#.
Een opmerkelijk feit van lineaire afbeeldingen van een eindigdimensionale vectorruimte naar zichzelf is dat invulling ervan in hun karakteristieke veelterm de nulafbeelding oplevert:
Elke lineaire afbeelding #L:V\to V# van een eindigdimensionale vectorruimte #V# naar zichzelf voldoet aan \[p_L(L) = 0_V\]waarbij #p_L(x)# de karakteristieke veelterm is.
Als #\dim{V}=n# en we de karakteristieke veelterm schrijven als \[\det(L-\lambda\cdot I_V) = (-1)^n\lambda^n+c_{n-1}\lambda^{n-1}+\cdots +c_1 \lambda + c_0\] dan is de #(n\times n)#-matrix #X=L_\alpha# voor elke basis #\alpha# van #V# een oplossing van de bijbehorende matrixvergelijking in #X#:\[(-1)^n\cdot X^n+c_{n-1} \cdot X^{n-1}+\cdots +c_1\cdot X + c_0\cdot I_n = 0_n\]
Laat #n# een natuurlijk getal zijn en #A# een #(n\times n)#-matrix. Dan voldoet #A# aan #p_A(A) = 0_n#. Dit is het speciale geval van de stelling voor de lineaire afbeelding #L_A# bepaald door #A#.
Laat #n# een natuurlijk getal zijn. Eerst bewijzen we de uitspraak: Elke #(n\times n)#-matrix #A# voldoet aan #p_A(A) = 0_n#.
We maken gebruik van de matrixvergelijking in de regel van Cramer. We brengen in herinnering dat het #(i,j)#-element van de geadjugeerde matrix #\text{adj}(A)# gelijk is aan #(-1)^{i+j}\cdot \det(A_{ji})#. Genoemde vergelijking luidt \[\det(A)\cdot I_n = A\, \text{adj}(A)\]Vervangen we #A# door #A-x\cdot I_n#, dan vinden we \[\det(A-x\cdot I_n)\cdot I_n = (A-x\cdot I_n)\, \text{adj}(A-x\cdot I_n)\]
We voeren het bewijs door het invullen van een #(n\times n)#-matrix in een veelterm ook toe te passen op een algemenere uitdrukking, namelijk een veelterm waarvan de coëfficiënten ook #(n\times n)#-matrices zijn. De verzameling van dergelijke veeltermen geven we met #Q# aan. Een element #q(x)# van #Q# heeft de vorm
\[q(x) =x^k\,C_k+x^{k-1}\,C_{k-1} +\cdots + x\,C_1 + C_0\] waarbij #C_k,C_{k-1},\ldots,C_0# tot #M_{n\times n}# behoren. De factor #r(x) = A-x\cdot I_n# in bovenstaande gelijkheid is een voorbeeld van een element uit #Q#. Het linker lid van de gelijkheid is ook een voorbeeld, waarbij alle coëfficiënten van machten van #x# veelvouden van de identieke matrix #I_n# zijn. De factor \(p(x) = \text{adj}(A-x\cdot I_n)\) in het rechter lid is tenslotte ook een veelterm in #Q# van graad #n-1# in #x# (de determinanten in de geadjugeerde matrix worden immers genomen van matrices met #n-1# rijen en #n-1# kolommen).
Voor #n=1# zijn de matrices niet anders dan gewone getallen en geldt #Q=P#.
We geven weer met #q(A)# de matrix aan die verkregen wordt uit #q(x)# door #x# door #A# te vervangen. Het is eenvoudig in te zien dat #Q# weer een vectorruimte is en dat de afbeelding die aan #q(x)# de matrix #q(A)# toevoegt, een lineaire afbeelding #Q\to M_{n\times n}# is.
We kunnen elementen van #Q# ook met elkaar vermenigvuldigen met de gebruikelijke regels, waarbij #C\,x# herschreven wordt tot #x\, C# voor elke matrix #C# in #M_{n\times n}#. Als #n\gt 1#, dan is matrixvermenigvuldiging niet langer commutatief, zodat invullen van #A# voor #x# niet langer vermenigvuldiging respecteert. Dit wil zeggen dat \((p\cdot q)(A) \ne p(A)\, q(A)\) voorkomt. Bijvoorbeeld, als #A# en #B# niet-commuterende, inverteerbare matrices zijn, en #p(x) = x# en #q(x) =B #, dan geldt
\[(p\cdot q)(A) = B\,A\ne A\,B = p(A)\, q(A)\]
Als #A# echter met #p(x)# en #q(x)# commuteert en dus met elke coëfficiënt van #p(x)# en van #q(x)#, dan geldt wel
\[(p\cdot q)(A) = p(A)\, q(A)\]
omdat dan het uitschrijven van het product in het rechter lid op precies dezelfde wijze gebeurt als voor een veelterm in #x# (steeds als #C\,x# herschreven wordt tot #x\, C# voor een coëfficiënt van #p(x)# of #q(x)#, geldt dezelfde commutatie na substitutie: #C\,A = A\,C#).
Deze uitspraak passen we toe op de gelijkheid \(\det(A-x I_n)\cdot I_n = (A-x I_n)\, \text{adj}(A-x I_n)\) die we hierboven afgeleid hebben. Omdat #A-x I_n# commuteert met #\text{adj}(A-x I_n)#, en omdat #x\, I_n# met elke matrix commuteert, volgt dat #A=(A-xI_n)+xI_n# commuteert met #\text{adj}(A-x I_n)# en dus met elke coëfficiënt van #\text{adj}(A-x I_n)#.
Vullen we #A# in voor #x#, dan wordt het rechter lid gelijk aan de nulmatrix omdat #A# invullen in #A-x I_n# de nulmatrix oplevert. We hebben geconstateerd dat invullen van #A# de vermenigvuldiging respecteert, dus invullen van #A# in het gehele rechter lid geeft de nulmatrix. We concluderen dat ook invullen van #A# in het linker lid de nulmatrix oplevert. Dat wil zeggen: invullen van #A# in #\det(A-x I_n)\cdot I_n# geeft de nulmatrix. Omdat het invullen van #A# voor #x# in #p_A(x)\cdot I_n=\det(A-x I_n)\cdot I_n# gelijk is aan #p_A(A)\cdot I_n#, betekent dit #p_A(A)=0_n#, waarmee de uitspraak over #A# bewezen is.
De stelling is een direct gevolg omdat, voor elke basis #\alpha# van #V# geldt \[\left(p_L(L) \right)_{\alpha}=\left(p_A(L)\right)_{\alpha}=p_A( A) = 0_n\]waarbij #A=L_\alpha#.
Invullen van #A# voor #x# in #\text{adj}(A- x I_n)# geeft niet altijd de nulmatrix. Als bijvoorbeeld
\[A = \matrix{a&b\\ c&d}\] dan is \[\text{adj}(A- x I_2) = \matrix{d-x&-b\\- c&a-x}=\matrix{d&-b\\ -c&a}-x\cdot I_2\] dus invullen van #A# geeft\[\matrix{d&-b\\ -c&a}-\matrix{a&b\\ c&d} = \matrix{d-a & -2b\\-2c&a-d}\]
Dit is bijvoorbeeld ongelijk aan de nulmatrix als #d\ne a#.
Bekijk de matrix \[ A =\matrix{0 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & -1 \\ }\] en de veelterm \[p(x) = x^2+x\] Bereken #p(A)#.
\(p(A)= \) \(\matrix{0 & 0 & 0 \\ 0 & 2 & 0 \\ 0 & 0 & 0 \\ }\)
Om de matrix #p(A)# te berekenen, vullen we #A# in in de veelterm #p(x)# en vereenvoudigen we het resultaat tot een enkele #(3\times3)#-matrix:
\[\begin{array}{rcl}
p(A) &=&A^2+A\\
&&\phantom{xxx}\color{blue}{A\text{ ingevuld }}\\
&=& \matrix{0 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \\ } +1\cdot \matrix{0 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & -1 \\ } +0\cdot \matrix{1&0&0\\ 0&1&0\\ 0&0&1}\\
&&\phantom{xxx}\color{blue}{\text{matrices ingevuld}}\\
&=& \matrix{0 & 0 & 0 \\ 0 & 2 & 0 \\ 0 & 0 & 0 \\ }\\
&&\phantom{xxx}\color{blue}{\text{lineaire combinatie vereenvoudigd}}\\
\end{array}
\]