Structure par RMN d'un complexe AlcR(1-60)ADN: Reconnaissance du petit sillon par la partie...

7
J- Chim. Phys. <1999) 96, 1573-1579 © EDP Sciences, Les Ulis Structure par RMN d'un complexe AlcR(1-60)-ADN : reconnaissance du petit sillon par la partie N-terminale B. Cahuzac 1 , B. Félenbok 2 et E. Guittet 1 '* ' Laboratoire de RMN à Haut Champ, Institut de Chimie des Substances Naturelles, 1 avenue de la Terrasse, 91198 Gif-sur-Yvette, France 2 Institut de Génétique Moléculaire, Centre Universitaire d'Orsay, 91000 Orsay, France ' Correspondance et tirés-à-part Résumé Aspergillus nidulans est un champignon filamenteux capable d'utiliser l'éthanol comme source unique d'énergie. La protéine AlcR est responsable de l'activation de l'expression des gènes du régulon éthanol. Le domaine de liaison à l'ADN est situé dans la partie N-terminale de la protéine (a.a. 1 à 60), et sa structure déterminée par RMN en solution montre un repliement global en bouquet binucléaire à zinc, avec deux hélices supplémentaires par rapport au motif de base. Alors que les structures déjà connues de complexes ADN - bouquets binucléaires permettent de situer dans le grand sillon la quasi-totalité des interactions, nous montrons dans la présente étude l'implication du début de la séquence dans la reconnaissance du petit sillon de l'ADN (a.a. 5 et 6). Mots-clés : interactions protéine-ADN, protéines à zinc, activation des gènes, structure RMN Abstract Aspergillus nidulans is a filamentous fungus able to use ethanol as sole energy source. The activation of the ethanol regulon genes expression is mediated by the AlcR protein. Its DNA-binding domain is located in the N-terminus (residues 1 to 60), and its NMR solution structure shows a global zinc binuclear cluster fold, with two helices in addition to the basic binuclear motif. A small number of crystallographic structures of DNA complexes of binuclear cluster proteins is yet known, and points out the major groove and the first helix as

Transcript of Structure par RMN d'un complexe AlcR(1-60)ADN: Reconnaissance du petit sillon par la partie...

J- Chim. Phys. <1999) 96, 1573-1579 © EDP Sciences, Les Ulis

Structure par RMN d'un complexe AlcR(1-60)-ADN : reconnaissance du petit sillon par la partie N-terminale

B. Cahuzac 1, B. Félenbok 2 et E. Guittet1'*

' Laboratoire de RMN à Haut Champ, Institut de Chimie des Substances Naturelles, 1 avenue de la Terrasse, 91198 Gif-sur-Yvette, France

2 Institut de Génétique Moléculaire, Centre Universitaire d'Orsay, 91000 Orsay, France

' Correspondance et tirés-à-part

Résumé

Aspergillus nidulans est un champignon filamenteux capable d'utiliser l'éthanol comme source unique d'énergie. La protéine AlcR est responsable de l'activation de l'expression des gènes du régulon éthanol. Le domaine de liaison à l'ADN est situé dans la partie N-terminale de la protéine (a.a. 1 à 60), et sa structure déterminée par RMN en solution montre un repliement global en bouquet binucléaire à zinc, avec deux hélices supplémentaires par rapport au motif de base.

Alors que les structures déjà connues de complexes ADN - bouquets binucléaires permettent de situer dans le grand sillon la quasi-totalité des interactions, nous montrons dans la présente étude l'implication du début de la séquence dans la reconnaissance du petit sillon de l'ADN (a.a. 5 et 6).

Mots-clés : interactions protéine-ADN, protéines à zinc, activation des gènes, structure RMN

Abstract

Aspergillus nidulans is a filamentous fungus able to use ethanol as sole energy source. The activation of the ethanol regulon genes expression is mediated by the AlcR protein. Its DNA-binding domain is located in the N-terminus (residues 1 to 60), and its NMR solution structure shows a global zinc binuclear cluster fold, with two helices in addition to the basic binuclear motif.

A small number of crystallographic structures of DNA complexes of binuclear cluster proteins is yet known, and points out the major groove and the first helix as

1574 B. Cahuzac et al.

the principal sites of interaction on the DNA and the protein respectively. In this article we show evidences that the N-terminus of the protein is involved in binding to the minor groove.

Kevwords: DNA-protein interactions, zinc proteins, gene transactivation, NMR solution structure

INTRODUCTION

Aspergillm nidulans est un champignon filamenteux capable d'utiliser l'éthanol

comme source unique d'énergie, en absence de glucose. La protéine AlcR (821 aa)

active l'expression des gènes des enzymes intervenant dans le métabolisme de

l'éthanol [l]. Elle se lie de façon monornérique à I'ADN, au niveau de quintuplets

CCGCNT, avec une forte affinité [2,3].

Le domaine de liaison à l'ADN est situé dans la partie N-terminale (a.a. 1 à 60). Sa

structure, récemment déterminée par RMN, montre que cette protéine appartient à la

famille des bouquets binucléaires à zinc (motif Zn2Cys6) [4]; les structures de certains

bouquets (à l'état libre ou complexés à l'ADN) sont connues (GAL4 [5,6], CYPl

[7,8], ...) et montrent qu'ils se lient à l'état d'homodimère à des répétitions de triplets

de bases CCG.

Pour comprendre les originalités d'AlcR dans la liaison à I'ADN, nous avons

entrepris la détermination de la structure d'un complexe entre cette protéine et le

décamère d'ADN contenant la cible CCGCA présenté en figure 1.

Figure 1 Séquence d'ADN utilisée dans notre étude. La séquence consensus d'AlcR est entourée.

La séquence N-terminale d'AlcR(1-60) lie l'ADN

ATTRIBUTION

Les premières études sur ce complexe ont permis de mettre en évidence le caractère

intermédiaire du régime d'échange entre les deux partenaires. De ce fait, les formes

libres et liées de I'ADN et de la protéine présentent deux jeux distincts de résonances

[4]. Des expériences hétéronucléaires bi- et tri-dimensionnelles utilisant l'échange

chimique et développées au laboratoire [9] ont permis de relier entre elles les

résonances des formes libre et liée pour environ deux tiers des groupements amides.

La suite de l'attribution est basée sur des expériences 2D-NOESY et 3D-NOESY-

HSQC.

L'attribution de I'ADN a été réalisée à partir des protons imino, attribués en utilisant

l'échange chimique avec la forme libre.

DÉTERMINATION DE LA STRUCTURE

La détermination de la structure complète a b initio du complexe est en cours au

laboratoire. Mais nous nous sommes d'abord intéressés à la seule partie N-terminale.

L'étude par RMN d'une partie d'un demi-complexe GAL4-ADN a montré que les

protons impliqués dans des liaisons hydrogène intermoléculaires subissaient des

variations de déplacement chimique vers les bas champs importantes (supérieures à

0.5 ppm) [IO]. Ces variations importantes sont retrouvées dans le cas dlAlcR, pour

les protons H4 des cytosines 5 et 15 et pour le proton amide de la cystéine 22. Cela

nous permet de supposer que la fixation d'AlcR dans le grand sillon de I'ADN est

similaire à celle de GAL4. La structure ici présentée a donc été déterminée à partir

d'un ADN de forme B et de la structure de la protéine libre présentée par

superposition à la structure du complexe GAL4-ADN et des 19 NOEs impliquant la

partie N-terminale de la protéine.

Le protocole utilise le programme X-PLOR pour un recuit simulé à 1000 K suivi

d'une minimisation énergétique sous contraintes.

1576 B. Cahuzac et al.

ANALYSE DES STRUCTURES OBTENUES

Alors que les études sur la protéine libre ont montré que la séquence N-terminale

d'AlcR n'adoptait pas de structure définie en solution, le jeu de structures obtenu en

présence d'ADN met en évidence une assez bonne définition de la chaîne peptidique

à partir du résidu 5. 11 nous permet d'identifier un certain nombre de liaisons

hydrogène entre la partie N-terminale d'AlcR et I'ADN (cf. fig. 2c) : la chaîne

latérale de I'arginine 5 contacte l'azote N3 de Gua7. Celle de I'arginine 6 fait une

liaison avec l'azote N3 de Adel2, tandis que son groupement amide peut lier

l'oxygène 0 2 de ïhy13. Ces contacts sont donc spécifiques des bases concernées. En

revanche, I'arginine 7 ne forme pas de contacts dans le petit sillon, mais est en

position d'engager un pont salin avec le phosphate de Cytl5.

Figure 2 a. Colonne extraite de I'expkrience 3D-NOESY-HSQC correspondant au proton Arg 6 HE. Les NOEs avec I'ADN sont indiques en italique. b. Vue d'ensemble du complexe AlcR(1-60)-ADN. La numérotation des bases de I'ADN est indiquée. c. Schéma représentatif des liaisons hydrogène entre la séquence N-terminale d'AlcR et le petit sillon de I'ADN.

La séquence N-terminale d'AlcR(1-60) lie I'ADN

COMPARAISON AVEC D'AUTRES BOUQUETS A ZINC

L'analyse des séquences primaires de 79 protéines contenant un bouquet binucléaire

à zinc montre que dans 60 cas il y a une séquence de 2 à 6 résidus basiques parmi les

acides aminés situés entre les positions -1 1 et -5 par rapport à la première cystéine

[Il]. Cependant, seule la structure récemment publiée du complexe HAP1-ADN [SI

montre une interaction entre une telle séquence et le petit sillon de I'ADN (séquence

absente chez GAL4 [6] et tronquée dans les échantillons de PPRl [12] et PUT3 [13]).

La séquence Arg-Asn-Arg y contacte I'ADN via les groupements amides qui font des

liaisons hydrogène avec les phosphates, tandis que les groupements guanidino des

arginines sont engagés dans des liaisons hydrogène avec des atomes N3 de purines,

0 2 de pyrimidines et 04 ' des sucres.

La principale différence avec notre structure est que les bases concernées dans le

cas de HAPl sont assez éloignées de la séquence consensus, soit -5 à -3 avant le

quintuplet CCG, contre -3 à -1 dans notre étude. De plus, les contacts ne sont pas du

tout conservés résidu par résidu, car les séquences d'ADN sont différentes

(ATAATA dans le cas de CYP1, GAT dans le cas d'AlcR).

CONCLUSION

Nos travaux prouvent sans ambiguïté l'implication de la partie N-terminale d'AlcR

dans la liaison à I'ADN. Les arginines 5 et 6 contactent de manière spécifique les 2

paires de bases AT situées immédiatement en amont de la séquence consensus

CCGCA. Les études in vitro avaient déjà montré que la mutation de ces arginines

(surtout Arg6) affectaient fortement la liaison à l'ADN, jusqu'à la rendre indétectable

dans certains cas [14], mais n'avaient pas permis d'identifier les bases moléculaires

de l'implication de ces résidus.

En examinant les différentes cibles in vivo de la protéine AlcR, on constate que les

regions riches en paires AT en amont du consensus sont très variables en longueur

1578 B. Cahuzac et al.

(entre O et 3) et en séquence [15]. L'analogie avec CYPl nous amène à penser qu'une

séquence du type Arg-Arg-Arg est très adaptative et, de manière générale, peut lier

dans le petit sillon toutes les régions riches en paires AT, mais avec des affinités

différentes en fonction de la configuration et donc de l'énergie en jeu (notamment le

nombre de liaisons hydrogène intermoléculaires). Ce phénomène pourrait être la

principale explication des différences d'affinité d'AlcR pour ses cibles observées in

vitro [3].

La détermination de la structure complète du complexe AlcR(1-60)-ADN permettra

sûrement de mieux comprendre comment se fait la reconnaissance de l'ADN dans le

grand sillon, et d'expliquer en particulier pourquoi la séquence consensus d'AlcR est

plus longue que celle des autres protéines à bouquets binucléaires.

Méthodes

Toutes les expériences ont été réalisées sur des spectromètres Bruker AMX6OO et

DRX800 sur des échantillons contenant de la protéine marquée uniformément à

l'azote 15, a des rapports protéine : ADN de 1 : 2, 1 : 1 et 2 : 1 et une température de

20 OC. La préparation et la purification de la protéine AlcR(1-60) marquée "N ont été

réalisées comme précédemment décrit [16].

Toutes les expériences ont été acquises en mode States-TPPI, en utilisant la

séquence Watergate pour supprimer l'eau [l7]; les spectres ont été traités avec le

logiciel Gifa [18], installé sur Silicon Graphics 02.

Références

1. Fillinger S., Félenbok B. (1996) Mol.Microbiol. 20,475-488. 2. Cerdan R., Collin D., Lenouvel F., Félenbok B., Guittet E. (1997) FEBS Lett.

408,235-240. 3. Lenouvel F., Nikolaev I., Félenbok B. (1997) JBioLChem. 272, 15521-15526. 4 . Cerdan R., Cahuzac B., Félenbok B., Guittet E. (1999) soumis.

La séquence N-terminale d'AlcR(1-60) lie l'ADN 1579

5. Baleja J.D., Marmostein R., Harrison S.C., Wagner G. (1992) Nature 356, 450- 453.

6. Marmorstein R., Carey M., Ptashne M., Harrison S.C. (1992) Nature 356, 408- 414.

7. Timmerman J., Vuidepot A.L., Bontems F., Lallemand J.Y., ûewais M., Shechter E., Guiard B. (1996) J.MoI.Bio1. 259,792-804.

8. King D.A., Zhang L., Guarente L., Marmorstein R. (1999) Nature Struct.Bio1. 6, 64-7 1

9. Vialle-Pnntems C., Van Heijenoort C., Guittet E. (1999) soumis. 10. Mau T., Baleja J.D., Wagner G. (1992) Prot. Sci 1,1403-1412. 1 1. Scherling P., Holmberg S. (1996) Nucleic Acids. Res. 24,4599-4607. 12. Marmorstein R., Hamson S.C. (1994) Genes and Dev. 8,2504-25 12. 13. Swaminathan K., Flynn P., Reece R.J., Marmorstein R. (1997) Nature Struct.Bio1.

4, 75 1-759. 14. Nikolaev I., Cochet M.F., Lenouvel F., Félenbok B. (1999) Mol.Microbiol. 31(4),

1115-1124. 15. Lenouvel F. (1996) thèse de doctorat, Université Paris XI Orsay. 16. Kulmburg P., Judewicz N., Mathieu M., Lenouvel F., Séqueval D., Félenbok B.

(1992) J. Biol.Chem. 267, 1-8. 17. Piotto M., Saudek V., Sklenar V. (1992) JBiomoLNMR 2,661-665. 18. Pons J.L., Malliavin T. E., Delsuc M.A. (1996) JBiomol.NMR 8,445-452.