/elektronik

Intels nye monster-processor: To milliarder transistorer

Intel er klar med en ny udgave af sin Itanium-processor, selskabet første med fire kerner på samme stykke silicium. De syv kvadratcentimeter rummer over to milliarder transistorer, de fleste til cache.

Af Mads Ølholm, mandag 04. feb 2008 kl. 14:31

Mandag løfter Intel officielt sløret for en ny udgave af Itanium-processoren, der kan bryste sig af at være verdens største processor. Processoren med kodenavnet Tukwila er et veritabelt monster, der slår stort set alle andre processorer – alene på specifikationerne.

Selve processoren på syv kvadratcentimeter er fremstillet i en 65-nm-procesteknologi og indeholder 2,048 milliarder transistorer. Disse er fordelt med 430 millioner transistor til de fire processorkerner, mens chippens level-3-cache sluger 1,52 milliarder transistorer. Resten af transistorbudgettet anvendes primært til I/O-funktioner samt systembus.

Den forholdsvis lave clockfrekvens på 2 GHz dækker over en veludnyttet pipeline, der betyder, at processoren yder langt mere end tilsvarende IA-processorer, der arbejder med samme frekvens.

Processoren indeholder fire kerner på samme stykke silicium. Intel har indtil nu været kendt for at fremstille quadcore-processorer ved at lime to dulcore-processorer sammen, men denne processor er firmaets første ægte quadcore-processor.

I/O-systemet arbejder ved 2,4 GHz, hvilket giver en samlet båndbredde på 96 gigabyte per sekund, mens hukommelses-interfacet arbejder med op til 34 GB/s. Dermed er problemerne med flaskehalse, som tidligere Itanium-generationer har været plaget af, løst.

De mange transistorer, der anvendes til cache, giver plads til 24 MB, der dog kun bruger 20 W, mens selve processorkernerne bruger omkring 100 W.



04. feb 2008 kl 18:53

avatar

Poul-Henning Kamp

Direkte fra Intels press-release ?

Det lyder som noget der kommer direkte ud af Intels press-release, helt uden fakta-check.

Itanium for alle praktiske formål 100% død udenfor computer-cluster segmentet, hvor den har det meget, meget svært, fordi den dybe pipeline næsten er umulig for kodere og compilere at holde fyldt.

Desuden er den naturligvis ikke kompatibel med noget som helst andet, kan ikke købes nogen steder og er alt for dyr hvis man alligevel prøver.

Poul-Henning


04. feb 2008 kl 22:00

Benny Amorsen

Re: Direkte fra Intels press-release ?

Itanium for alle praktiske formål 100% død udenfor computer-cluster segmentet, hvor den har det meget, meget svært, fordi den dybe pipeline næsten er umulig for kodere og compilere at holde fyldt.

Itanium har en efter moderne forhold temmeligt kort pipeline på kun 10 stages. Pentium-D har f.eks. en 31-stage pipeline, mens Core 2 klarer sig med 14 stages.

Jeg har heller set meget tendens til at bruge Itanium i clusters. Den er relativt populær i massive SMP'er, men selv SGI skifter nok snart til x86-64. Så er der stort set kun HP-UX og VMS tilbage...


05. feb 2008 kl 00:07

Jens Madsen

Re: Re: Direkte fra Intels press-release ?

Antallet af states i pipelines betyder stort set ikke noget. Normalt kan processoren forudsé de efterfølgende indstruktioner mange states frem - hvis den er ordentligt lavet. Allerede ved fetching ind i cachen, har den mulighed for at analysere de følgende indstruktioner, jumps osv. og derved optimere i den rette jump retning. Det mest normale er jumps, ved branches mv. men skulle det vise sig flere gange at ikke være jumps, skiftes koden ud dynamisk.

Det største problem, og flaskehalsen, er normalt anvendelse af indexeret ram. Bruges ikke indexeret ram (konstant addresse), kan det direkte analyseres og forwardes. Indexerede addresser, tager ikke tid ved skrivning, hvor de kan buffres, men ved læsning kræves hele cachen/lagerets accesstid, før data kan læses ud. Det eneste CPU'en kan gøre, er at søge at flytte udregningen af index addressen så højt op som muligt, og at begynde opslaget, allerede på tidspunktet hvor index registeret er udregnet.

At udføre CPU indstruktioner med en rivende hastighed, er intet problem. Problemerne ligger alene i brugen og adgang til ram lager - og her kan man skele til, hvordan moderne compilere fungerer. I dag, skal computere ikke fungere hurtigt når koden skrives i maskinsprog - men når den gennereres af compilere, og man kan diskutere om de burde udføre et højniveau bitnært niveau mere direkte.

I forbindelse med brugen af stak, skal man også tænke på, at eliminere stak kald, samt indsætte koden direkte, da return indstruktionen er sløv. Call indstruktionen, tager dog ikke tid (0 cycles). I forbindelse med fetch af cache, indsættes indstruktioner direkte ved jump, branch, og calls.

Som nævnt, betyder antallet af states ikke noget. Et lille trick, er at folde konstruktionerne ud, således noget der tager to states, udføres på kun éen states. Der samles altså to indstruktioner, i éen. Denne process, kan gøres i mange tilfælde, og specielt nem i CPU konstruktioner. Reelt betyder det, at indstruktionerne kan opfattes både som høj hastighed, og mange states - eller lav hastighed og få states, og dette er fuldstændigt dualt. En realisering af sidste, kan give højere hastighed, hvis der anvendes en asynkron VLIW CPU, der giver besked om, hvornår resultatet foreligger. Igen, er problemet alene et spørgsmål, om indexeret ram. Alt andet, kan "forwardes".

Det værste problem ved Intels CPU'er, er deres lighed med moderne software. De fylder en masse, og yder lidt i forhold til antallet af transistorer.


Ny i debatten? Opret en brugerkonto

  • Seneste nyt
  • Mest læste
  • Topdebat
Populært på Facebook
 

Nyhedsbrev

Tilmeld dig vores nyhedsbrev.