Composición: figura y fondo. Percepción visual

Vamos a hablar un poco del funcionamiento del cerebro humano: la percepción visual, los mecanismos de atención y la capa de interpretación de la realidad.

Percepción visual: figura y fondo.

Todos estos conceptos tienen que ver con la psicología de la percepción (percepción visual en este caso), no son conceptos que vienen del mundo del arte.

Lo comento para diferenciar lo que serían ‘reglas, normas o cánones’ artísticos (que incluyen un elemento subjetivo y cultural muy importante) de lo que son ‘principios o leyes’ que tienen que ver con la fisiología de la visión, evolución del cerebro y la percepción.

Ten en cuenta que los procesos y mecanismos de la percepción y la atención son muy complejos. Lo que vamos a comentar es una simplificación que nos permite entender un poco cómo operan esos mecanismos.

También es importante quedarse con la idea de que los conceptos de figura y fondo en este contexto no son los mismos que los de figura y fondo en el contexto de las artes visuales. Esto lo veremos en otro capítulo.

Escuela de la Gestalt

La psicología de la Gestalt (psicología de la forma o de la estructura) fue una rama o movimiento de la psicología que surgió a principios del siglo XX en Alemania.

Estudió el comportamiento de la percepción humana, sobre todo la percepción visual.

Aunque desde entonces se ha avanzado en el estudio de la fisiología y la psicología humanas, algunos de los principios de la Gestalt siguen siendo aceptados como una aproximación bastante buena del comportamiento de la percepción humana.

A lo largo del curso iremos haciendo referencia a algunos de esos principios, y dedicaremos un capítulo a resumir o comentar los principios más conocidos.

Los principios de la Gestalt no tienen normalmente una aplicación directa en fotografía o en las artes visuales, pero nos ayudan a entender por qué percibimos una imagen (una escena) de una determinada forma y qué sensaciones genera en nuestro cerebro.

IMPORTANTE

La escuela de la Gestalt no tiene nada que ver con la Terapia Gestalt.

La escuela de la Gestalt estudió la percepción visual y el pensamiento (abstracción, interpretación…) desde un punto de vista científico. Se desarrolló durante el primer tercio del siglo XX. Fue una rama de la psicología centrada exclusivamente en investigación, en ampliar el conocimiento sobre la mente humana. Los estudios de la Gestalt no tienen ninguna aplicación clínica, no se trata de terapias ni de tratamientos, ni nada parecido.

La Terapia Gestalt, a pesar del nombre, no tiene ninguna relación con la escuela de la Gestalt. Surge a mediados del siglo XX y es una variante de la psicoterapia humanista. La Terapia Gestalt no tiene evidencia científica y muchos la consideran una pseudociencia.

Principio de figura y fondo

Es uno de los principios fundamentales de la psicología de la percepción.

Para entender este principio hay que tener en cuenta un par de detalles…

Los conceptos de figura y fondo en las artes visuales, aunque están en cierta forma relacionados con estos conceptos psicológicos, tienen un origen histórico diferente. No hacen referencia a las mismas cosas.

En el mundo del arte hacen referencia a la intención del autor: qué elemento decide el autor que es el protagonista y qué elementos forman parte del fondo.

Cuando se habla de figura y fondo en un contexto de percepción visual nos estamos refiriendo al observador. A cómo los humanos percibimos la ‘realidad’ a través de los mecanismos de la visión.

En muchos ejemplos del principio de figura y fondo se recurre a las figuras ambiguas del tipo del jarrón de Rubin y puede dar la impresión de que este principio es algo anecdótico, una especie de efecto visual curioso.

No es así.

El principio de figura y fondo es la base de la percepción visual, o al menos es una aproximación, un modelo, que explica muy bien el comportamiento de la mente humana.

Forma parte del funcionamiento del cerebro. No es algo que podamos conectar o desconectar. Ni es un fenómeno curioso que sólo ocurre a veces.

El sistema visual humano

El sistema visual está formado por los ojos y por la parte del cerebro que se encarga de interpretar esa información visual.

Por un lado tenemos que nuestros ojos sólo ven con detalle en la parte central de la retina, donde se encuentra la fóvea. Esto cubre un ángulo de visión realmente pequeño.

El resto de la visión es la visión periférica.

Percepción visual: fóvea y visión periférica

La visión periférica nos aporta cierta información del entorno pero no podemos reconocer muy bien los detalles de los elementos situados en esa periferia.

Por otro lado, el cerebro humano no puede analizar toda la realidad que lo rodea, sería imposible. Para analizar más información necesitaríamos una cabeza enorme y un consumo energético acorde a la potencia de procesamiento. La evolución siempre llega a soluciones sostenibles, con el compromiso justo entre capacidad de análisis y capacidad de respuesta para permitir la supervivencia.

Nuestro cerebro sólo puede procesar, en un momento determinado, una pequeñísima parte de la información que hay en el mundo real físico.

La atención

Esas características físicas tienen sus limitaciones pero forman parte de un camino evolutivo.

La visión humana ha desarrollado una serie de mecanismos para optimizar la percepción del entorno y mejorar las opciones de supervivencia.

Uno de esos mecanismos es el de la atención.

Los mecanismos de atención cubren todos los sentidos, pero nos vamos a quedar con la parte relacionada con la visión.

El cerebro no tiene capacidad para procesar toda la realidad (la parte que ven nuestros ojos) a la vez, con todos y cada uno de sus detalles.

Lo que hace es barrer constantemente la escena (fase sacádica) y se va deteniendo, durante un cierto tiempo (fase de fijación), en cada elemento que llama su atención por algún motivo.

Percepción visual: análisis de la escena

Para que nos hagamos una idea, el tiempo de fijación suele ser del orden de 0.2-0.3 segundos. Y una vez finaliza esa fase, la visión (el cerebro) salta al siguiente elemento de interés o a alguna zona de la escena para ver si hay algo de interés.

Esto es un ciclo constante: sacádico – fijación – sacádico – fijación …

Si un elemento llama mucho nuestra atención es muy probable que volvamos repetidamente a él (fijación) a lo largo del ciclo.

Y para esos elementos de mayor interés el tiempo de fijación propiamente dicho también es mayor, pero siempre en ese rango de tiempos inferiores a medio segundo.

Sí puede ocurrir que de forma consciente forcemos la atención en un determinado elemento. Ahí interviene otro tipo de atención, más relacionada con la concentración. Pero incluso en esos casos sería muy difícil mantener la atención en un único elemento durante un tiempo prolongado.

Figura y fondo

Las fases de barrido (sacádico) y fijación corresponderían a la parte fisiológica.

Ahora, desde el punto de vista de la percepción, una vez que tenemos fijada nuestra atención en un elemento, ese elemento se convierte en el centro de interés (figura) y el resto de la escena se convierte en fondo.

El fondo pasa a un segundo plano en el cerebro.

Percepción visual: figura y fondo. Ejemplo figura

No quiere decir que no seamos conscientes de lo que hay en ese fondo o periferia.

Si se trata de un entorno nuevo para nosotros, la memoria a corto plazo permite elaborar una especie de catálogo de elementos de interés. Cada vez que fijamos la atención en un nuevo elemento, lo incorporamos al catálogo que representa ese entorno en nuestra cabeza, incluyendo la estimación de posiciones relativas y el grado de atención o de importancia.

Si se trata de un entorno familiar, la memoria a largo plazo se encarga de mantener un catálogo de elementos ‘conocidos’.

Pero en cualquier caso, cuando la visión está activa, para cada instante sólo hay un elemento de interés: una figura. Lo demás, durante ese instante es el fondo.

En nuestro cerebro un elemento no puede ser a la vez figura y fondo.

Pero el cerebro (la visión) está constantemente buscando elementos de interés.

Esto quiere decir que un instante después (en el ciclo barrido / fijación) pasaremos posiblemente nuestra atención a otro elemento.

Percepción visual: figura y fondo. Ejemplo

Ahora ese nuevo elemento pasa a ser la figura y el resto pasa a ser el fondo (incluyendo al primer elemento, al que ya no le estamos prestando atención).

Es decir, aunque en un instante determinado un elemento no pueda ser a la vez figura y fondo, no quiere decir que ese elemento no pueda ser figura o fondo en instantes sucesivos.

De hecho, como hemos comentado, un elemento que atraiga mucho nuestra atención pasará a lo largo del ciclo varias veces por la fase de fijación (se convertirá en figura en diferentes instantes de tiempo)

Ya veremos que el cerebro tiende a elegir como figura a elementos reconocibles (formas).

Y a cada una de esas formas el cerebro les asignará una determinada importancia: nos llamarán más la atención ciertos elementos. Por la forma en sí o por el contexto.

La palabra ‘fondo’ hace referencia a lo que queda fuera de la atención principal del cerebro en un instante determinado. Puede corresponder a elementos que están por delante, por detrás o a los lados de la figura. No tiene nada que ver con el fondo de las artes visuales.

En fotografía y en el día a día, la palabra fondo hace referencia (normalmente) a lo que está por detrás del sujeto principal, lo que está lejos, lo que está situado ‘al fondo’ de la escena. Son conceptos relacionados pero no equivalentes.

Volviendo al ciclo de barrido / fijación, podemos hacer una analogía.

La visión no funciona como una cámara de fotos que hace una instantánea de la realidad y la analiza. La visión funciona más bien como una cámara de vídeo (o de vigilancia para ser más precisos con la analogía) que va realizando un barrido por la escena.

El cerebro va reconociendo e interpretando (abstracción, concepto, significado) elementos de la escena y con ellos reconstruye en su interior una versión de la realidad, una especie de mundo 3D virtual poblado con abstracciones de objetos y sus posiciones relativas.

Si esa escena genera un recuerdo, ese recuerdo sería, grosso modo, una especie de ‘foto’ construida por nuestro cerebro a partir de trozos de la realidad, sobre todo con los elementos que han generado interés.

Los demás elementos que no han generado mucho interés, lo que normalmente entendemos como fondo o entorno, sólo quedan en el recuerdo como una especie de relleno más o menos coherente.

La figura

Otro de los principios fundamentales de la teoría de la Gestalt es que el cerebro humano tiene la capacidad de abstraer de forma automática objetos o elementos que están formados por muchos elementos más pequeños.

El todo de un objeto emerge de forma directa en el cerebro sin necesidad de analizar todos y cada uno de sus detalles.

Aunque dicho así parece algo muy filosófico y muy del maestro Yoda, en realidad es algo muy práctico.

De hecho, ese mismo principio es el que utilizan las redes neuronales artificiales en las que se basa la visión artificial.

Los humanos percibimos la realidad a través de patrones (o moldes si quieres pensarlo así) que hemos ido aprendiendo a lo largo de nuestra vida. Sobre todo en los primeros años, cuando se da forma a esa red neuronal que se encarga de procesar la visión.

Cuando miramos una escena, automáticamente emergen los ‘objetos’, las formas reconocibles: un coche, una persona, la cara de una persona, un perro…

Usamos patrones aprendidos para identificar cada una de esas formas.

Por ejemplo, para reconocer que se trata de un coche no tenemos que analizar cada uno de sus elementos y sumarlos todos para llegar a la conclusión de que se trata de un coche.

Percepción visual: figura y fondo. Ejemplo coche

Dicho de otra forma: no necesitamos construir el todo (concepto coche) a partir de sus pequeñas partes y detalles.

Eso le llevaría al cerebro muchísimo tiempo y recursos. Desde el punto de vista de la evolución no sería una solución eficiente y no hubiera garantizado probablemente la supervivencia como especie.

Simplemente clasificamos una determinada forma (el bulto) como objeto ‘coche’, incluso si se trata de un coche con una forma extraña que no habíamos visto nunca antes.

Y si realmente se trata de un objeto extraño que no habíamos visto nunca antes: primero lo intentaremos clasificar como algo conocido.

Por ejemplo, si ves por primera vez un insecto extraño o algo que se le parece, tu cerebro lo clasifica como ‘bicho’ y ya tú decides si echas a correr o no.

Es un mecanismo tremendamente útil, porque es rapidísimo.

Se tarda mucho tiempo en entrenar esa red neuronal (parte de la infancia), pero luego, una vez entrenada, la respuesta a los estímulos visuales es prácticamente inmediata. Ese entrenamiento no termina nunca, siempre estamos incorporando nuevos patrones de reconocimiento (con un ritmo mucho menor que en la infancia).

La principal ventaja es que el cerebro no tiene que gastar tiempo y energía analizando cada detalle de un objeto antes de decidir que se trata por ejemplo de un tigre que está a punto de atacarnos o un insecto que podría ser venenoso.

Simplemente aparece (emerge) el concepto de manera instantánea porque coincide con un patrón aprendido previamente: forma con rayas -> (puede ser un) tigre -> correr.

En palabras de la Gestalt: el todo es más que la suma de las partes.

Pero esa frase me hace pensar más en temas filosóficos y no me gusta excesivamente. Da pie a que algún iluminado siga por el camino del pensamiento mágico y se meta en cuestiones pseudocientíficas.

Me quedo con la parte práctica: la capacidad de abstracción del cerebro humano y la percepción a través de patrones visuales.

En la Gestalt, el concepto de figura (o forma) está relacionado con la percepción e identificación de objetos.

Características de ‘la figura’

Cualquier elemento de una escena puede ser figura.

Sin embargo, el cerebro da prioridad a una serie de elementos, que es lo que solemos interpretar como figura en la mayoría de los casos:

Tienen una forma, un contorno definido
Destacan de alguna manera en primer plano
Si estuvieran detrás de otro objeto no las veríamos y si estuvieran camufladas no la percibiríamos como un elemento independiente
Los reconocemos a partir de un patrón y adquieren significado (coche, perro, persona)
Tienen colores y tonos que concuerdan con nuestros patrones de reconocimiento, son coherentes y suelen ser colores densos, sólidos.
Son elementos que se recuerdan con facilidad

En contrapartida, el cerebro suele asignar poca prioridad a los elementos de tipo ‘fondo’:

Son difusos y no tienen una forma definida
Quedan en un segundo plano, en el sentido de que no destacan con respecto al resto de elementos, o son elementos que consideramos como ‘entorno’ habitual
Suelen ser elementos lejanos
Son elementos poco significativos
Tienen colores más diluidos o mezclados
Son elementos que no los recordamos con facilidad (no les prestamos mucha atención)

Como digo, cualquier elemento puede ser figura en un momento dado, independientemente de sus características.

Por ejemplo, imagina una escena en la que hay un gatito adorable y al ‘fondo’ tenemos un paisaje con hierba y nubes a lo lejos.

El gatito es un candidato a ‘figura’: tiene una forma definida, un contorno, destaca sobre el fondo, lo reconocemos y le asignamos el concepto ‘gatito’, tiene un color o colores sólidos y coherentes, y es un elemento que recordaremos con facilidad.

El terreno con hierba que hay en el entorno sería un candidato a ‘fondo’: no tiene una forma tan definida, no destaca sobre el fondo (es el entorno propiamente dicho), el color puede ser homogéneo pero no destaca y es un elemento que no nos llama la atención y no recordaremos con facilidad.

Pero sin embargo, podemos dedicarle atención consciente a la hierba o a las nubes.

Y en ese momento la hierba o las nubes pasarían a ser la figura y el gatito adorable pasaría a ser parte del fondo (pobrecillo).

Lo lógico es que nuestra atención vuelva de nuevo al gatito (en sucesivas iteraciones del ciclo de barrido / fijación) ya que esos otros elementos no nos están aportando información de interés, no llaman nuestra atención inicialmente y no suelen captar nuestra atención durante mucho tiempo.

Ejemplo para entender el concepto de figura y fondo

Vamos a poner un ejemplo del día a día.

Salimos a la calle y vamos paseando pensando en nuestras cosas. Podríamos decir que vamos en modo ‘automático’.

Imagina que llama nuestra atención un coche (ha pitado, o tiene un color que nos llama la atención, o ha frenado bruscamente… hay miles de estímulos que pueden hacer que nuestra atención le dé prioridad a ese elemento)

Cuando miramos hacia el coche lo percibimos como un elemento coche.

No percibimos algo como ‘conjunto de piezas unidas en un chasis, con cuatro ruedas y con alguien sentado en su interior sujetando algo circular…‘

El concepto de coche emerge directamente en nuestro cerebro, porque hemos visto muchos coches anteriormente y tenemos ese patrón incorporado en nuestra base de datos de ‘formas’.

Además el contexto nos puede dar más pistas: se mueve, hace un ruido reconocible…

Como hemos centrado la atención en él, el coche pasa a ser la figura, y el resto de la realidad que lo rodea pasa a ser el fondo.

Percepción visual: figura y fondo. Ejemplo coche

Imagina que ahora nos llama la atención la persona que va conduciendo.

Esa persona pasa a ser la figura, y todo lo demás pasa a ser el fondo (incluyendo el coche, que hasta hace un instante era la figura).

Percepción visual: figura y fondo. Ejemplo persona.

De nuevo, a la persona la vemos como ‘persona’, como un todo.

No necesitamos ser conscientes de que tiene 2 orejas, una nariz, un cuerpo… y sumar todas esas partes para llegar a la conclusión de que se trata de un objeto persona.

De hecho, el cuerpo y las piernas no los estamos viendo, pero sabemos por experiencia que el objeto ‘persona’ suele tener un cuerpo pegado a la cabeza. Suele tener piernas, etc.

El cerebro es capaz de construir el objeto ‘persona’ en nuestra percepción y lo completa si es necesario, como en este caso cuando no tiene información visual suficiente.

Nos podemos equivocar, por supuesto. Es uno de los riesgos que tiene este mecanismo de percepción.

Vamos a suponer que ahora nos llama la atención la cara de esa persona.

Percepción visual: figura y fondo. Ejemplo cara

Hasta ahora la hemos percibido como un objeto ‘persona’. Ahora hemos pasado al objeto ‘cara’, que pasa a ser la figura de interés.

Y así sucesivamente.

El cerebro está constantemente decidiendo en qué va a centrar su atención y cuánto tiempo dedica a cada elemento.

Cuando perdemos en el interés en la cara, persona, coche… y volvemos al objeto ‘calle’, esa porción de la realidad (el trozo de calle que abarca nuestra visión) pasa a ser la figura.

Sin embargo, la ‘calle’ como tal suele ser normalmente un elemento que entraría más bien en la categoría de fondo, por lo que hemos comentado antes de las prioridades que asigna el cerebro. La calle es el entorno, por decirlo de alguna forma.

Rápidamente volveríamos a centrar el interés en elementos de más utilidad: acera, paso de peatones, un señor que se cruza…

Pero todo en esa secuencia o ciclo continuo que alterna las fases sacádica y de fijación

Todos estos mecanismos forman parte del funcionamiento básico del cerebro humano.

Es algo automático, como la respiración. No es algo que se enseñe o algo cultural, etc.

Aunque lógicamente, los patrones que aprendemos sí incluyen elementos o conceptos culturales.

No hay un único tipo de atención. Aquí hemos comentado la que podríamos llamar ‘automática’ (abierta)

Si hago un esfuerzo consciente, puedo dirigir la atención hacia lo que me interesa.

Este tipo de atención consciente tiene que ver con la concentración y la realización de tareas complejas. Y requiere de un esfuerzo.

Pero incluso en esos casos, la visión está barriendo constantemente un área de la escena y está alerta ante cualquier elemento de la periferia.

Los patrones, los moldes que usa el cerebro para reconocer cosas de la realidad, sí forman parte del aprendizaje.

Los humanos pasan muchos años (toda la infancia prácticamente) entrenando al cerebro para construir esa ‘base de datos’ de patrones básicos de reconocimiento y a lo largo de toda la vida se siguen añadiendo y/o refinando en base a nuestra experiencia vital.

Los fallos de la Matrix

El mecanismo de percepción y reconocimiento que hemos comentado es alucinante y maravilloso, pero tiene sus problemillas (nada es gratis).

El principal ‘problema’ es que la realidad que reconstruimos en nuestro cerebro NO es la realidad ‘real’, física.

Lo que entendemos por realidad, cuando contemplamos una escena por ejemplo, es siempre una interpretación que ha construido el cerebro a partir de la información disponible (el mundo 3D virtual que comentaba anteriormente).

Los mecanismos de atención y atracción visual dan prioridad a ciertas partes de la realidad.

Otras partes nos pasan totalmente desapercibidas, ni nos enteramos.

Ambigüedad

Otro problemilla relacionado, es que para conseguir esa rapidez y efectividad, el cerebro completa, inventa si hace falta, o reconstruye la realidad a partir del contexto (por ejemplo ayudado por otros sentidos: sonidos, olores…)

Nuestros sentidos envían información incompleta.

Por ejemplo, los ojos proporcionan al cerebro una versión en dos dimensiones (2D) de una realidad en tres dimensiones (3D).

Ya hablaremos sobre la perspectiva y sus propios problemillas (la mayoría relacionados con la ambigüedad que se genera al reconstruir un ‘mundo tridimensional’ a partir de dos dimensiones).

A lo largo del día recibimos millones y millones de estímulos con información ambigua, que podrían corresponder a muchas interpretaciones diferentes de la realidad física.

Y nuestro cerebro va resolviendo esas ambigüedades sobre la marcha, de forma automática, a partir del contexto.

Podríamos decir que entre la realidad física y la realidad que percibimos como real hay una capa intermedia, un ‘grupo de guionistas y un director de cine’ que se encargan de coger esos trozos incompletos de realidad y los convierten en una ‘película’ coherente.

Coherente no quiere decir totalmente fiel a la realidad física. Estos guionistas hacen lo que pueden, pero no pueden hacer milagros.

La realidad que percibimos puede estar (lo está siempre, de hecho) condicionada por el contexto, la experiencia previa, las expectativas, el estado de ánimo, las ideas preconcebidas…

Percepción visual. Fallos de ambigüedad

La figura anterior sería un ejemplo de ambigüedad (de los miles o millones que procesa nuestro cerebro a lo largo del día).

A partir de una cierta distancia (fuera del alcance de la visión binocular) no podríamos saber si por ejemplo el coche que estamos viendo es un coche completo real en 3D, o si se trata de cualquier otra cosa que justo tenga desde nuestra posición forma de coche.

Podría ser perfectamente un recortable de cartón con forma de coche.

A partir del contexto el cerebro busca si hay una coherencia entre lo que ve y su experiencia previa: se mueve, hace ruido de coche, hay una persona en su interior…

Pero sería relativamente sencillo manipular una escena para mantener esa mínima coherencia, al menos durante un tiempo razonable.

Y todos estaríamos convencidos de haber visto un coche real. Porque la alternativa (p.e. el recortable de cartón, o cientos de alternativas igualmente válidas) no encaja con nuestra experiencia habitual previa, son alternativas bastante menos probables.

Manipulados por nuestro propio cerebro

Ojo, que en general es un sistema que funciona muy muy bien y nos ha permitido sobrevivir como especie.

Pero ten en cuenta que los mecanismos de reconocimiento y percepción visual han evolucionado para ser rápidos y efectivos. No para ser precisos ni para darnos una interpretación exacta (fiel) de la realidad.

Nuestra versión de la realidad está ‘manipulada’ por nuestro propio cerebro.

Un ejemplo son las ilusiones ópticas, pero digamos que son casos excepcionales y muy llamativos porque se salen de nuestra experiencia habitual.

En nuestro día a día la percepción que tenemos de la realidad también está manipulada y no nos damos cuenta porque entra dentro de ese guión coherente con nuestra experiencia previa.

Y no, no estoy hablando de teorías de la conspiración y de manipulación de masas (‘emosido engañado‘).

Es una manipulación necesaria, interna, que tiene lugar en cada cerebro, constantemente, por la forma en que operan los mecanismos de la percepción humana.

Con lo que nos tenemos que quedar es con que esos mismos mecanismos se pueden aprovechar para ‘manipular’ de forma premeditada la percepción del observador.

Esto lo utilizan a su favor constantemente los ilusionistas (magos), los directores de cine, los fotógrafos, los pintores, los que trabajan en marketing…

Más información y referencias

Eye Fixations and Cognitive Processes, Marcel Adam Just and Patricia A. Carpenter (Carnegie-Mellon University, 1976)

Effects of semantic consistency on eye movements during scene viewing, John M. Henderson and Phillip A. Weeks Jr (Journal of Experimental Psychology Human Perception & Performance, 1999)

Psicología de la Percepción Visual – La organización perceptual (introducción a la psicología de la Gestalt), J. Antonio Aznar Casanova (Facultad de Psicología, Universidad de Barcelona).