Skip to content Skip to navigation Skip to collection information

Connexions

You are here: Home » Content » Cómputo de Alto Rendimiento » Qué Hace un Compilador - Visita Guiada al Optimizador de Código

Navigation

Table of Contents

Recently Viewed

This feature requires Javascript to be enabled.
 

Qué Hace un Compilador - Visita Guiada al Optimizador de Código

Module by: José Enrique Alvarez Estrada. E-mail the authorTranslated By: José Enrique Alvarez Estrada

Based on: What a Compiler Does - Optimizing Compiler Tour by Charles Severance, Kevin Dowd

Comenzaremos dando un paseo por el optimizador de código de un compilador, para verlo en acción. Creemos que es interesante, y si puede usted volverse empático con el compilador se convertirá en un mejor programador; verá lo que el compilador espera de usted, así como lo que puede hacer por sí mismo.

El Proceso de Compilación

Figure 1
Procesos básicos de un compilador
Esta figura es un diagrama de flujo que muestra el movimiento de líneas de código numeradas a cajas numeradas. En la parte superior hay un grupo de código, la primera línea mostrando A=B*C+5, y la segunda D=B*C. En la parte inferior de este grupo está una línea apuntado a una caja etiquetada Análisis Lexicográfico. Bajo ella está una línea apuntado a una línea de código, A=B*C+5. La A está etiquetada como Variable, el * como Operador y el 5 como Constante. Bajo esta línea de código está una flecha apuntando hacia abajo a una caja rotulada Análisis Sintáctico. Bajo esta caja está un grupo de código. La primera línea dice T1:=B*C, la segunda A:=T1+5, y la tercera D:=B*C. Apuntando hacia la parte superior derecha está una flecha que señala a una caja etiquetada Optimización.

Típicamente, el proceso de compilación se divide en un número de pasos identificables, como se muestra en la Figure 1. Aunque no todos los compiladores estén implementados exactamente de esta manera, ayuda a comprender las diferentes funciones que éstos deben realizar:

  1. Una fase de precompilación o preprocesamiento, donde se realiza cierta manipulación textual sencilla del código fuente. El paso de preprocesamiento puede procesar o incluir archivos, así como realizar substituciones sencillas de cadenas de texto a lo largo del código.
  2. La fase de análisis lexicográfico es la que descompone las sentencias de código fuente entrantes en tokens tales como variables, constantes, comentarios o elementos del lenguaje.
  3. La fase de análisis sintáctico es la encargada de comprobar la sintaxis de la entrada, y el copilador traduce el programa entrante a un lenguaje intermedio que está listo para su optimización.
  4. Se le realizan una o más pasadas de optimización al lenguaje intermedio.
  5. Un generador de código objeto traduce el lenguaje intermedio a código ensamblador, tomando en consideración los detalles arquitectónicos particulares del procesador en cuestión.

Conforme los compiladores se vuelven más y más sofisticados para poder dar hasta el último bit de rendimiento del procesador, algunos de estos pasos (especialmente los de optimización y generación de código) se vuelven más y más confusos. En este capítulo nos enfocaremos en el optimizador de código tradicional de un compilador, y en los capítulos subsecuentes revisaremos más de cerca cómo hacen optimizaciones más sofisticadas los compiladores modernos.

Representación en Lenguaje Intermedio

Como estamos más interesados en la optimización de nuestro programa, comenzaremos nuestra discusión a partir de la salida de la fase de análisis sintáctico del compilador. Dicha salida está en la forma de un lenguaje intermedio (LI), algo entre un lenguaje de alto nivel y un lenguaje ensamblador. El lenguaje intermedio expresa los mismos cálculos que en el programa original, en una forma que el compilador pueda manipular más fácilmente. Es más, ciertas instrucciones que no están presentes en el fuente, tales como expresiones de direccionamiento para referencias a arreglos, se hacen visibles junto con el resto del programa, haciéndolo también de este modo sujeto de optimización.

¿Cómo luce un lenguaje intermedio? En términos de complejidad, es similar a un código ensamblador, pero no tan simple como para que se pierdan las definiciones1 y usos de las variables. Necesitaremos la información acerca de definición y uso para analizar el flujo de datos a través del programa. Típicamente los cálculos se expresan como u flujo de cuádruplas — sentencias con exactamente un operador, (hasta) dos operandos, y un resultado.2 Presuponiendo que cualquier cosa en el programa fuente original pueda cambiar su representación en términos de cuádruplas, tenemos un lenguaje intermedio utilizable. Para darnos una idea de cómo trabaja, reescribiremos la sentencia siguiente como una serie de cuatro cuádruplas:

A = -B + C * D / E 
    

Tomando todo como una unidad, la sentencia tiene cuatro operadores y cuatro operandos: /, *, + y - (negación), y B, C, D, y E. Claramente es demasiado para que quepa en una cuádrupla. Necesitamos una forma con exactamente un operador y, cuando mucho, dos operandos por sentencia. La versión que sigue lo lleva a cabo, empleando variables temporales para almacenar los resultados intermedios:


T1 = D / E T2 = C * T1 T3 = -B A = T3 + T2

Por supuesto, un lenguaje intermedio utilizable requiere de algunas otras características, como apuntadores. Estamos por sugerir la creación de nuestro propio lenguaje intermedio para investigar cómo trabajan las optimizaciones. Para comenzar, necesitamos establecer unas pocas reglas:

  • Las instrucciones están formadas por un código de operación, dos operandos y un resultado. Dependiendo de la instrucción, los operandos pueden quedar vacíos.
  • Las asignaciones adoptan la forma X := Y op Z, que significa X optiene el resultado de op aplicado a Y y Z.
  • Todas las referencias a memoria son cargas explícitas desde, o bien almacenamiento a, variables "temporales" tn.
  • Los valores lógicos usados en las bifurcaciones se calculan separadamente del salto actual.
  • Los saltos van a direcciones absolutas.

Si estamos construyendo un compilador, deberemos ser un poco más específicos. Para nuestros propósitos con esto basta. Considere el siguiente fragmento de código en C:


while (j < n) { k = k + j * 2; m = j * 2; j++; }

Este ciclo se traduce en la representación en lenguaje intermedio que se muestra a continuación:


A:: t1 := j t2 := n t3 := t1 < t2 jmp (B) t3 jmp (C) TRUE B:: t4 := k t5 := j t6 := t5 * 2 t7 := t4 + t6 k := t7 t8 := j t9 := t8 * 2 m := t9 t10 := j t11 := t10 + 1 j := t11 jmp (A) TRUE C::

Cada línea de código fuente en C se representa mediante varias sentencias en LI. En muchos procesadores RISC, nuestro código LI es tan parecido al lenguaje máquina que podemos traducirlo directamente a código objeto.3 A menudo el nivel más bajo de optimización consiste en una traducción literal del lenguaje intermedio a código máquina. Cuando esto sucede, el código generalmente es muy largo y su rendimiento es pobre. Al revisarlo, puede usted encontrar lugares donde ahorrar unas pocas instrucciones. Por ejemplo, j se carga en variables temporales en cuatro lugares; seguramente podemos reducirlo. Tenemos que realizar algo de análisis y algunas optimizaciones.

Bloques Básicos

Tras generar nuestro lenguaje intermedio, queremos cortarlo en bloques básicos. Se trata de secuencias de código que comienzan con una instrucción que o bien sigue una bifurcación o es en sí misma el destino de un salto. Dicho de otra forma, cada bloque básico tiene una entrada (en la parte superior) y una salida (en la parte inferior). Figure 2 representa nuestro código LI como un grupo de tres bloques básicos. Estos bloques hacen el código más fácil de analizar. Al restringir el flujo de control al interior de un bloque básico de arriba hacia abajo y eliminar todas las bifurcaciones, podemos asegurarnos que si se ejecuta la primera sentencia, también lo hará la segunda, y así sucesivamente. Por supuesto, las bifurcaciones no han desaparecido, pero las hemos forzado afuera de los bloques en la forma de flechas de conexión - el grafo de flujo.

Figure 2
Lenguaje intermedio dividido en bloques básicos
Esta figura está compuesta por tres bloques conteniendo líneas de código. La primera tiene como título A : :, y en la primera columna dice t1, t2, t3, jmp. La segunda columna dice := j, := n, := t1 less than t2, (B) t3. El segundo bloque contiene dos elementos que ocupan las mismas columnas que el primer bloque. En la primera columna dice jmp, y en la segunda, (C) TRUE. En el tercer bloque hay las mismas columnas, en este caso el encabezado dice B : :. The first column reads, t4, t5, t6, t7, k, t8, t9, m, t10, t11, j, jmp. La segunda columna dice := k, := j, := t5 * 2, := t4 +t6, := t7, := j, := t8 * 2, := t9, := j, := t10 + 1, := t11, (A) TRUE. Hay una flecha apuntando del primer bloque al segundo, y otra flecha apuntando del primero al tercero. Y otra más apuntando del final del tercer bloque al inicio del primero, asì como una flecha a trazos, apuntando hacia afuera de la derecha del segundo bloque alejándose de los bloques.

Ahora somos libres de extraer información de los bloques mismos. Por ejemplo, podemos decir con certeza cuáles variables usa cierto bloque, y cuáles define (les asigna valor), cosa que no hubiéramos podido ser capaces de hacer si el bloque contuviera una bifurcación. También podemos reunir la misma clase de información sobre los cálculos que realizan. Tras haber analizado los bloques, de forma tal que sepamos qué entra y qué sale de ellos, podemos modificarlos para mejorar el rendimiento, sin preocuparnos acerca de la interacción entre bloques.

Footnotes

  1. Por "definiciones" nos referimos a la asignación de valores, no a las declaraciones.
  2. De manera más general, el código puede representarse como n-tuplas. Depende del nivel del lenguaje intermedio.
  3. Véase (Reference) para algunos ejemplos de código máquina obtenido directamente a partir de lenguaje intermedio.

Collection Navigation

Content actions

Download module as:

Add:

Collection to:

My Favorites (?)

'My Favorites' is a special kind of lens which you can use to bookmark modules and collections. 'My Favorites' can only be seen by you, and collections saved in 'My Favorites' can remember the last module you were on. You need an account to use 'My Favorites'.

| A lens I own (?)

Definition of a lens

Lenses

A lens is a custom view of the content in the repository. You can think of it as a fancy kind of list that will let you see content through the eyes of organizations and people you trust.

What is in a lens?

Lens makers point to materials (modules and collections), creating a guide that includes their own comments and descriptive tags about the content.

Who can create a lens?

Any individual member, a community, or a respected organization.

What are tags? tag icon

Tags are descriptors added by lens makers to help label content, attaching a vocabulary that is meaningful in the context of the lens.

| External bookmarks

Module to:

My Favorites (?)

'My Favorites' is a special kind of lens which you can use to bookmark modules and collections. 'My Favorites' can only be seen by you, and collections saved in 'My Favorites' can remember the last module you were on. You need an account to use 'My Favorites'.

| A lens I own (?)

Definition of a lens

Lenses

A lens is a custom view of the content in the repository. You can think of it as a fancy kind of list that will let you see content through the eyes of organizations and people you trust.

What is in a lens?

Lens makers point to materials (modules and collections), creating a guide that includes their own comments and descriptive tags about the content.

Who can create a lens?

Any individual member, a community, or a respected organization.

What are tags? tag icon

Tags are descriptors added by lens makers to help label content, attaching a vocabulary that is meaningful in the context of the lens.

| External bookmarks