Ein kleines Beispiel zu stochastischer Modellierung

Nachdem es hier in den letzten Wochen recht ruhig war, moechte ich jetzt eine kleine Serie von Beitraegen starten, wo ich einen Aspekt meiner Arbeit beschreiben will, naemlich stochastische Modelle und was man mit ihnen ueber biologische Systeme lernen kann. Als allererstes, moechte ich die generellen Unterschiede zwischen einem deterministischen System und einem stochastischen System beschreiben. Deterministisch (von lateinisch determinare - ‘abgrenzen’, ‘festlegen’) bedeutet im naturwissenschaftlichen Sinne, dass ein System, wenn der Zustand zu einem beliebigen Zeitpunkt bekannt ist, man den Zustand fuer spaetere Zeitpunkte exakt berechnen kann. Einfachstes Beispiel aus der Physik ist wohl der beruehmte Apfel, der vom Baum faellt. Wenn ich den Ort und die Geschwindigkeit des Apfels zu Anfang seines Falles kenne, kann ich mittels Newtons Gleichung ausrechnen, wann der Apfel am Boden aufschlaegt und wie schnell er dabei ist (freier Fall).

Eine Anwendung aus der Biologie waere zum Beispiel ein Gen, das zu einem bestimmten Zeitpunkt eingeschaltet wird. Das Produkt Y (mRNA) wird nun mit einer festen Rate  \beta (Produkt pro Zeit) produziert und zerfaellt mit einer Rate \alpha. Dabei wird der Zerfall des Produktes natuerlich von der aktuellen Menge von Produkt abhaengen, d.h. wenn mehr Produkt da ist, wird auch mehr zerfallen. Zu Anfang ist kein Produkt vorhanden.

Ein solcher Prozess wird sich dabei in ein Gleichgewicht bewegen in dem Produktion und Zerfall sich die Waage halten. Mathematisch wird das durch eine einfache Differentialgleichung beschrieben:


Dabei ist \dot{Y} die erste zeitliche Ableitung, also die zeitliche Aenderung der Produktion. Im Gleichgewicht sind Produktion und Zerfall gleich gross, also die zeitliche Ableitung Null. Daraus folgt der Gleichgewichtswert Y_{st}. Die Loesung der Differentialgleichung steht in der dritten Zeile, sie stellt den eigentlichen zeitlichen Verlauf von Y dar. Man sieht, dass der Exponentialterm fuer grosse t verschwindet und Y mit der Zeit gegen seinen Gleichgewichtswert strebt. Wie schnell oder langsam das geht, haengt einzig vom Zerfallsparameter \alpha ab mit der Halbwertszeit \tau = \frac{\ln 2}{\alpha}.

Nun besteht ja die Natur aus diskreten Bausteinen und chemische Reaktionen laufen in diskreten Schritten ab. Nur wenn sehr viele davon miteinander reagieren, bekommen wir davon nix mit und es erscheint uns als ein kontinuierlicher Prozess. In einer lebenden Zelle sieht das mitunter schon wieder anders aus, da es von vielen Proteinen nur wenige hundert oder tausend Kopien gibt und die Produktion dieser Proteine ist fuer die Zelle deshalb auch ein diskreter Process, sie muss erst das Gen transkribieren, die mRNA zurechtschneiden und dann in ein Protein uebersetzen und das dann eventuell noch zurechtfalten oder sonstwie modifizieren.

Wie laesst sich nun ein solcher Prozess stochastisch beschreiben? An welcher Stelle tritt eigentlich die Zufaelligkeit zu Tage? Wenn wir uns wieder unser Gen von eben hernehmen und wir wissen, dass es aktiv ist, was kann als naechstes passieren? Es kann ein einzelnes Produkt produziert werden (das Gen also transkribiert in ein mRNA Molekuel), allerdings koennen wir nicht mit Sicherheit sagen wann. Zerfallen kann erstmal noch nix. Wenn wir nun das erste Produkt Molekuel haben, koennen zwei Dinge passieren, es kann wieder zerfallen oder es wird noch ein weiteres produziert. Es gibt also in diesem Zusammenhang zwei zufaellige Ereignisse, naemlich wann eine Reaktion passiert und welche (Produktion oder Zerfall). Die dazugehoerigen Wahrscheinlichkeiten werden dabei von den Raten \beta und \alpha bestimmt. Solche Prozesse heissen Birth-Death-Prozesse. Dabei folgt die Anzahl von Reaktionen, die in einem Intervall [t,t+\Delta t] stattfinden einem Poisson Prozess, d.h. die Laenge der Zeitintervalle zwischen zwei Reaktionen ist Exponentiell verteilt.

Um das ganze nun zu simulieren braucht man einen Zufallszahlen Generator, allerdings gibt es da sehr gute und entsprechende Funktionen bzw. Methoden in allen gaengigen Programmiersprachen. Desweiteren braucht man natuerlich die beiden Raten und einen Startwert. Als erstes generiert man sich nun also ein Zeitinterval als Sample einer exponentiell verteilten Zufallsvariable, der Parameter \lambda haengt dabei natuerlich von den beiden Raten ab und der aktuellen Anzahl von Molekuelen: \lambda = \beta +\alpha y. Wenn man das Zeitintervall hat, braucht man eine zweite Zufallszahl um festzulegen, welche der beiden moeglichen Reaktionen Produktion und Zerfall stattfindet. Das kann man z.B. durch eine gleichverteilte Zufallszahl aus dem Intervall [0,1] machen und wenn die Zahl kleiner als \frac{\beta}{\beta + \alpha y} ist, wird ein weiteres Molekuel produziert. So ist die Wahrscheinlichkeit fuer einen Zerfall gering, so lange es wenige Produktmolekuele y gibt. Andersrum wird ein Zerfall umso wahrscheinlicher, je mehr produziert wurde. Wenn man weiss welche Reaktion stattfindet, passt man die Anzahl an Produktmolekuelen y entsprechend an und mach weiter mit dem naechsten Zeitintervall. Und so weiter…

In einem solchen Modell haengt die Zahl von Reaktionen pro Zeit und damit die Annaeherung an ein Gleichgewicht nicht mehr nur vom Zerfallsparameter  \alpha ab, sondern auch von der Produktionsrate \beta. Das sieht man recht gut in den Plots fuer zwei Simulationen solcher Systeme. Im ersten Fall ist \beta = 10 und \alpha = 1 und damit der Gleichgewichtswert 10. Die farbigen Linien zeigen einzelne Realisationen fuer ein solches System und die dicke schwarze Linie den deterministischen Fall mit identischen Paramtern. Darunter ist ein Histogram der Anzahl der mRNA Molekuele nachdem das Gleichgewicht erreicht wurde und als drittes folgt ein Histogramm der Laengen der Zeitintervalle zwischen zwei aufeinanderfolgenden Reaktionen. Letztere sind wie beschrieben exponentiell verteilt.

Im zweiten Fall wurden beide Reaktionsraten um den Faktor 10 verringert, wobei natuerlich ihr Verhaeltnis und damit der Gleichgewichtswert bei 10 blieb. Das Histogramm der Molekuelzahlen sieht auch genauso aus, wie im ersten Beispiel. Nur sind die Zeitintervalle zwischen den Reaktionen deutlich laenger und damit auch die Fluktuationen viel langsamer.

Der hier vorgestellte Birth-Death-Prozess ist ein Spezialfall eines Markov-Prozesses mit stetiger Zeit, d.h. die Reaktionen finden nicht in festen Zeitintervallen statt, sondern die Zeitintervalle sind variabel. Bei solchen Prozessen haengt der zukuenftige Systemzustand nur vom aktuellen Zustand ab und nicht von Zustaenden weiter in der Vergangenheit.

Im naechsten Post will ich einen Algorithmus zur Simulation von stochastischen Prozessen genauer Vorstellen, der von Daniel Gillespie in den 70er Jahren entwickelt wurde. Dazu gibt es dann sicher wieder ein oder zwei Beispiele.

Zum Abschluss wiedermal eine Buchempfehlung: vor einigen Wochen bin ich ueber Darren Wilkinsons Buch Stochastic modelling for systems biology gestolpert und war spontan begeistert. D. Wilkinson ist Professor fuer Statistik an der Uni in Newcastle und schreibt nicht nur Buecher zur stochastischen Modelierung, sondern auch Software. Zum Buch gibt es ein R Paket, mit allen Beispielen. Damit laesst sich schoen rumspielen und man kann direkt auch eigene einfache Modelle basteln.

Bloggen und Karriere

Im Zuge der aktuellen re:publica gibt es bei den Scilogs ein Bloggewitter zum Thema Bloggen und Karriere in der Wissenschaft und Sebastian Reusch hat mich gefragt, ob ich nicht auch einen Beitrag dazu verfassen will.

Als Neublogger kann ich im Moment noch nicht wirklich einschätzen, ob und wenn ja wie sich meine Blogtätigkeit auf meine Karriere auswirken wird. Ehrlich gesagt, war die Motivation mit dem Bloggen anzufangen nicht die, mir dadurch eventuell Karrierevorteile zu erschreiben. Ausserdem kenne ich aus meinem direkten wissenschaftlichen Umfeld leider niemanden, der einen eigenen Wissenschaftsblog betreibt und dadurch irgendwelche Auswirkungen auf seine Karriere erfahren hätte.

Meine Motivation einen Blog zu betreiben war vielmehr das Schreiben selbst und mir dadurch selbst Notizen zu meiner Arbeit zu machen in der Hoffnung, dass es vielleicht auch gelesen wird. Schreiben ist ja nun mal in der Wissenschaft unabdingbar, allerdings wird in den Naturwissenschaften Englisch geschrieben und das leider auch nicht immer sehr verständlich. Deshalb denke ich, dass schreiben um die eigene Arbeit verständlich für ein nichtwisschenschaftliches Publikum zu machen, sehr wichtig ist.  Es zwingt einen dazu auch aus anderen Perspektiven über die eigene Arbeit nachzudenken. Das klingt jetzt vielleicht sehr nach Pflichtprogramm, ist es aber für mich durchaus nicht.

Auf der Suche nach Informationen zu meinen aktuellen wissenschaftlichen Fragestellungen (hauptsächlich zu Modellierungsmethoden und Programmierung) bin ich schon recht häufig auf andere Blogs gestossen (z.B. hier), die mir sehr weitergeholfen haben. Auf diese Weise kann man natürlich passiv partizipieren und die eigene Arbeit voranbringen und damit vielleicht auch seine Karriere. Dadurch ergibt sich auch für mich eine Motivation meine Ideen aufzuschreiben, es sollte ja auch einen Austausch geben.

Es gibt ja in der deutschen Bloglandschaft auch einige Beispiele, die durch ihre Blogs ganz andere Karrieren nach der eigentlichen Wissenschaft eingeschlagen haben, wie zum Beispiel Ulrike Bandt-Bohne oder Florian Freistetter.

Als ich vor Antritt meiner Promotion auf der Suche nach Informationen war, wie andere Studenten so ein Projekt angehen und organisieren bin ich auf die Informationsseite eines amerikanischen Physikprofessors gestossen (ich finde die Seite nur leider grad nicht wieder), der ein paar Ratschläge für Doktoranden zusammengefasst hatte. Einer der Punkte war: ‘Start your own blog’. Ich denke, in nicht allzu ferner Zukunft quasi mit einer neuen Wissenschaftlergeneration wird sich das zu einem Standard durchsetzen, weil es meiner Meinung nach eine sehr gute Sache sein kann. Für einen selbst, wie auch für andere und man hat die Chance so mit Leuten in Kontakt zu kommen, denen man auf analogem Wege vielleicht nie begegnet wäre.

Buchvorschlag: ‘System Modeling in Cellular Biology’

Hier im Institut bin ich kuerzlich ueber ein interessantes Buch gestolpert, naemlich ‘Systems Modeling in Cellular Biology’ untertitelt mit ‘From concepts to nuts and bolts’. Es ist kein Lehrbuch im eigentlichen Sinne sondern eher eine Sammlung von Artikeln zur verschiednen Modellierungsmethoden. Erschienen 2010 bei MIT Press stellt es, wie ich finde einen guten Ueberblick ueber Moeglichkeiten mathematischer Modellierung in der Biologie oder System Biologie dar. Die einzelnen Kapitel sind von Experten der jeweilgen Gebiete geschrieben und darunter so bekannte Namen wie J. J. Tyson, Karsten Kruse oder D. Gillespie.

Unterteilt ist das Buch in vier groessere Abschnitte und los gehts mit General Concepts und welche Vorteile mathematische Modelle liefern und die Wechselwirkung zwischen Experiment/gemessenen Daten und Modellierung. Danach kommt der eigentliche Einstieg in die Materie mit Modeling Approaches, wo der Ueberschrift folgend verschiedene Techniken von Bayesian Inference bis stochastische Modellierung vorgestellt werden und auch an Beispielen erlaeutert. Der dritte Teil kommt wieder zurueck zur Verbindung zum Experiment und ist ueberschrieben mit Models and Reality. Der vierte und letzte Teil stellt dann noch verschiedene technische Umsetzungen von Modellen im Computer vor.

Wie ich finde eine gelungene Zusammenstellung aus dem weitem Gebiet der Modellierung in der Biologie und durchaus auch fuer rein experimentell arbeitende Biologen zu empfehlen, da nach meiner Erfahrung die Kommunikation zwischen ‘wet’ und ‘dry’ Lab nicht immer ganz einfach ist. Die jeweiligen Einleitungen der Kapitel geben einen guten Ueberblick ueber die jeweiligen Staerken und Schwaechen der vorgestellten Methoden.

 

Systems Modeling in Cellular Biology

From Concepts to Nuts and Bolts

edited by: Zoltan Szallasi, Joerg Stelling and Vipul Periwal

MIT Press, 2010

Transcriptional Bursting

Nachdem ich in letzter Zeit damit beschäftigt war zum einen neue Experimente zu planen   und zum anderen mit verschiedenen Modellierungsmethoden rumzuspielen, ist es endlich mal wieder Zeit für einen neuen Artikel. Gehen soll es dabei um die Bursting Kinetik der Gentranskription. Ich habe in älteren Artikeln schon darüber geschrieben, wie die Gentranskription reguliert werden kann, aber wie die eigentliche Produktion von mRNA zeitlich aussieht, darüber habe ich noch nix geschrieben. Hier habe ich über mein eigentliches Promotionsthema geschrieben, dabei geht es um Transkriptionszyklen, allerdings ist in der ersten Abbildung dort nicht direkt die Produktion von RNA über die Zeit dargestellt, sondern das Binden von Transkriptionsfaktoren, die für die Transkription notwendig sind. Den eigentlichen Vorgang kann man eigentlich nur indirekt ablesen, durch die Präsenz der RNA Polymerase.

Letzte Woche war ich in unserem Journal Club an der Reihe ein Paper vorzustellen und ich hab mich für ein Science Paper vom April 2011 entschieden: David M. Suter et al, Mammalian genes are transcribed with widely different bursting kinetics (siehe Link unten).  Die Autoren haben gemessen, in welchen Zeiträumen ist ein Gen aktiv, d. h. es wird entsprechende mRNA produziert, und in welchen inaktiv. Das ist insofern interessant, da es ja die verschiedensten Aktivitätsmuster für einzelne Gene gibt. In den beschriebenen ChIP Experimenten wird zum Beispiel die Besetzung eines Genes mit RNA Polymerasen gemessen, allerdings für eine ganze Population (etwa eine Million) von Zellen. Nun ist die Frage, wie können aus dem An- und Ausschalten des Gens in jeder einzelnen Zelle solche Muster entstehen. Ich nehme es vorweg, die Autoren beantworten diese Frage nicht (ich glaube, das wäre auch etwas viel verlangt), allerdings haben sie für verschiedene Gene, die auch durch verschiedene Mechanismen kontrolliert werden, die Transkription gemessen und dazu auch ein stochastisches Modell entwickelt, das die zufällige (In)Aktivierung von Genen beschreiben kann.

Die Hauptaussage des Papers ist schnell gesagt, nämlich dass die Bursting Kinetik für verschiedene Gene sehr unterschiedlich ist. Bursting in dem Zusammenhang bedeutet, die stochastische Aktivierung des Gens und dessen Transkription in den aktiven Phasen. Das Ganze verläuft stochastisch, da die Länge der aktiven und inaktiven Phasen bestimmten Verteilungen folgen, also keine konstante Dauer haben.

Genaktivitaet und deren Umsetzung in mRNA und Protein

Das Bild oben illustriert, wie während der Aktivitätsphasen eines Gens (‘on’) mRNA (rot) und daraus wiederum Protein (blau) produziert wird. Wenn das Gen wieder zurück in den ‘off’ Zustand wechselt, zerfallen beide wieder exponentiell. Die Autoren haben nun drei verschiedene Genkonstrukte mit einem Reportergen (Luciferase) gebastelt.

  • Ein Genetrap Lentivector; dabei wird die Transkription vom endogenen Locus, wo also das Konstrukt ins Genom eingebaut wurde, kontrolliert
  • Ein Konstrukt mit dem circadianen Promoter Bmal1, das heisst Transkription wird durch einen Circadianen Rhythmus gesteuert.
  • Künstliche Promotoren, die aus einer oder zwei CCAAT Boxen gefolgt von einer TATA Box bestehen. Diese Promotoren wurden auch variiert, um den Effekt der Bindungsspezifität für Transkriptionsfaktoren zu untersuchen.
Was das im Detail für Konstrukte sind, ist hier gar nicht so wichtig, wichtig ist, dass es sich um Gene handelt, die durch unterschiedliche Kontrollmechanismen gesteuert werden. Nun haben die Autoren mit diesen Konstrukten Zelllinien gezüchtet und sich das Luciferasesignal über die Zeit angeschaut. Dabei kam dann z.B. ein Verlauf wie im oberen Plot in der unteren Abbildung heraus. Jetzt musste das Signal noch kalibriert werden, d.h aus dem Intensitätsverlauf will man berechnen, wie viele Luciferase Moleküle zu jedem Zeitpunkt in der Zelle waren und daraus wiederum wieviele mRNA Moleküle. Das klingt kompliziert und ist es auch. Wie das Ganze im Detail gemacht wurde, will ich hier auch nicht erklären. Hier ist wichtig, dass es möglich ist, die Zahl der jeweiligen Moleküle aus dem Intensitätssignal abzuleiten. Wenn man nun weiss, wieviele mRNA Moleküle da sind, weiss man auch, wieviel wann produziert wurden, d.h. wann also das Gen aktiv ist und wann nicht. Man hat also die Burst Kinetik.

Zeitverlauf des Lumineszenzsignals (oben) und Umrechnung des Signals in mRNA bzw. aktive und inaktive Phasen

Diese Burst Kinetik beschreiben die Autoren nun mit einem random Telegraph Modell. Das ist ein Modell für einen Zufallsprozess ohne Erinnerung, also der zukünftige Zustand des Systems hängt nur vom aktuellen Zustand ab und nicht von vorherigen, es ist also eine Art Markov Prozess und es werden folgende Annahmen gemacht:

  • Zufälliger Wechsel zwischen ‘An’ und ‘Aus’ mit den konstanten Raten k_{on} und  k_{off}
  • Im ‘An’ Zustand wird mit konstanter Rate  k_{m} transkribiert, im ‘Aus’ Zustand gibt es keine Transkription
  • Es gibt eine konstante Translationsrate k_{p} pro mRNA Molekuel
  • mRNA und Protein haben konstante Zerfallsraten \gamma_{m} und  \gamma_{p}
Das sind für ein einfaches Modell erstmal sinnvolle Annahmen, allerdings muss man sich bewusst sein, dass sie auch stark vereinfachend sind. Speziell die Translation ist mit einem einzelnen Parameter sehr stark vereinfacht. Sinnvoll für die hier erhobenen Daten ist es, da die Messungen alle 5 Mintuen erfolgten und man so über ein kleines Zeitfenster mittelt.
Nun haben die Autoren dieses Modell an ihre Daten mit einem Maximum Likelihood Zugang gefittet, das heisst sie haben die Wahrscheinlichkeit maximiert, dass das Modell die beobachteten Daten liefert und dazu die obigen 6 Parameter variiert. Wie solches Modelfitting genau funktioniert, werde ich sicher auch mal in einem Artikel beschreiben, denn das ist ja auch Teil meiner Arbeit.
Nun komme ich endlich zu den Ergebnissen. Das eben erwähnte Modelfitting haben die Autoren für jede ihrer beobachteten Zelllinien gemacht und so auch für jede Zelllinie einen Parametersatz erhalten durch Mittelung über viele Zellen der jeweiligen Linie. In den oberen beiden Plots der Abbildung unten sind die An-Rate (oben) und die Aus-Rate (mitte) gegen die Transkriptionsrate, d.h. die Anzahl der mRNA Moleküle pro Zeit, aufgetragen. Die unterschiedlichen Farben repräsentieren unterschiedliche Zelllinien. Die Ellipsen entstehen durch die statistischen Fehler in beide Richtungen (jeweils  \pm2 Standardabweichungen). Was sofort auffällt, ist,  dass die ‘An’-Rate eine Grössenordnung kleiner ist, als die’ Aus’-Rate. Die Gene sind also die weitaus meiste Zeit ausgeschaltet. Dann sieht man, dass die verschiedenen Zelllinien sehr unterschiedliche Raten sowohl im Schalten zwischen ‘An’ und ‘Aus’, als auch bei der Transkription haben. Die Autoren beschreiben das als Clusterbildung. Ich finde den Begriff etwas unglücklich, denn da sind nicht wirklich Cluster, sondern immer nur einzelne Zelllinien, die sich aber meist jeweils stark von den allen anderen unterscheiden..

Plot der An- und Ausraten gegen die Anzahl der mRNA Molekuele pro Burst

Der untere Plot zeigt, die relative Zeit, die das Gen aktiv ist gegen die Burst Grösse, also wie viele mRNA Moleküle pro Burst produziert werden. Hier scheint es eine positive Korrelation zu geben.

Verteilungen der Zeit, die ein Gen 'An' oder 'Aus' ist

Die obige Abbildung zeigt Histogramme der Länge der ‘An’ (links) und ‘Aus’ Phasen (rechts) für verschiedene Zelllinien. Man sieht gleich wieder an der Skalierung der x-Achsen, dass sich die beiden Zustände auf verschiedenen Grössenordnungen abspielt (Minuten vs. Stunden). Die ‘An’-Zeiten folgen einer einfachen Exponentialverteilung mit einer Zeitskale [late] \tau[/latex] (ein Kernphysiker würde Halbwertszeit sagen), was typisch ist, für zufällig verteilte Zeitintervalle. Die ‘Aus’-Zeiten sehen schon anders aus, sie zeigen ein ausgeprägtes lokales Maximum und folgen damit keiner einfachen Exponentialverteilung. Die Autoren des Papers erklären das mit einer Refraktärphase, einer Phase also, in der das Gen nicht auf neuen Input reagieren kann und führen eine Zweischrittreaktion ein (untere Gleichung)

Verteilungen der 'An'- und 'Aus' Phasen

Damit lassen sich die beobachteten Histogramme erklären. In der Abbildung unten ist das noch mal veranschaulicht.

Zwei Phasen 'Aus' Zustand

Das interessante an diesem Paper ist, dass verschiedene Gene zwar sehr unterschiedliche Verteilungen bzw Raten für die aktiven bzw inaktiven Phasen zeigen, dieses Verhalten aber wohl mit einem Modell beschrieben werden kann. Für mich ist das interessant, weil die Transkription des ps2 Gens, sicher auch so ablaufen wird. Ich kenne zwar nicht die Raten mit denen es geschaltet wird, aber der Mechanismus sollte ja ähnlich dem hier vorgeschlagenen Random Telegraph Modell sein. Die Frage ist nun, wie entstehen daraus die Transkriptionszyklen, die auf Ensembleebene beobachtet werden.

Die Idee der Refraktärphasen während der ‘Aus’-Phasen ist auch neu und sehr interessant. Es scheint also noch einen weiteren regulativen Mechanismus dahinter zu geben. Diese Phase war mit 15 bis 40 Minuten deutlich kürzer als die normal inaktive Phase mit 100 bis 300 Minuten.

In meinen Augen hat das Paper leider auch eine grosse Schwachstelle, gerade was das Modell angeht. Die Autoren haben für jeden ihrer vielen Zelllinien das Lumineszenzsignal gemessen und dann das Modell gefittet. Das ist soweit auch in Ordnung, allerdings haben sich nicht probiert den umgekehrten Weg zu gehen. Wenn man den Parametersatz für eine Zelllinie hat, dann Voraussagen zu machen, was passiert wenn wenn man die Transkription in diesen Zellen stört. Das wäre meiner Meinung nach für dieses Modell sehr spannend. Nichts desto trotz finde ich das Modell gut und ich werde mich weiter damit befassen.

In einem nächsten Artikel werde ich dann ein anderes schönes konzeptionelles Modell von Lemaire et al. beschreiben und was das mit dem hier vorgestellten zu tun hat. Aber bis dahin liegt noch einiges an Arbeit vor mir.

David M. Suter, Nacho Molina, David GAtfield, Kim Schneider, Ueli Schibler, Felix Naef; Mammalian genes are transcribed with widely different bursting kinetics; Science (April 2011)

Chromatin Immunopräzipitation (ChIP)

Nach einigen Tagen im Labor will ich heute endlich mal beschreiben, was ich eigentlich messe bzw messen will und wie das funktioniert. Oder sagen wir, funktionieren soll. Die Prozedur heisst Chromatin Immunopräzipitation (kurz ChIP). Ich interessiere mich ja dafür, in welchem zeitlichen Verlauf bestimmte Proteine (die zur Transkriptionsmachinerie gehören) an einen Promoter anbinden und sich wieder lösen um zu verstehen, wie auf diesem Wege die Gentranskription gesteuert wird.

Als erstes muss man erstmal eine Menge Zellen züchten. In meinem Fall sind das MCF-7 Zellen. Das sind Brustkrebszellen, die aus einem Tumor einer 1970 in Detroit operierten Frau gewonnen wurden und seitdem quasi unsterblich sind (faszinierende Vorstellung). HeLa Zellen sind übrigens noch länger etabliert. Sie lassen sich in einfachen Petrischalen mit Nährmedium vermehren in einem Inkubator bei gemütlichen 37 Grad und CO2 Begasung. Der Generationszyklus ist etwa ein Tag, also jeden Tag teilen sich die Zellen einmal.

MCF-7 Zellen sind sensitiv für Östrogen, genauer gesagt für 17β-Estradiol, eine Form des weiblichen Geschlechtshormons. Östrogenrezeptoren sind verantwortlich für die Regulation von bestimmten Genen und initiieren die Assemblierung der Transkriptionsmachinerie.

ChIP Schema, Bild von Wikipedia

Wenn man nun wissen will, wann welche Proteine an den interessierenden Promoter binden, gibt man Estradiol als Startsignal und misst dann in festen Zeitabständen. Das klingt erstmal nicht sonderlich schwierig, aber es klingt eben nur so. Zum ersten kann man es leider noch nicht auf Einzelzellebene messen, sondern nur für eine Gruppe von Zellen. Das heisst man muss die Zellen synchronisieren, so dass sie alle in der gleichen Phase des Zellzyklus sind, wenn man das Estradiolsignal gibt. Bevor man beginnt, muss man natürlich einen Plan haben. Zum Beispiel wie lange und in welchen Zeitabständen man messen will. Denn für jeden Messpunkt braucht man eine Zellkultur, d.h. für 3h messen alle 5 Minuten braucht man 36 Kulturen. Ganz schön viel also.

An jedem Messpunkt nach dem Estradiolsignal stellt man zwischen Promoter und den im Moment gebundenen Transkriptionsfaktoren  eine stabile also kovalente aber wieder lösbare Bindung durch Zugabe von Formaldehyd her. Wenn das getan ist, löst man die Zellwand auf. Man sagt, die Zellen werden lysiert. Das Problem dabei, eine stabile Bindung herzustellen und dann die Zellen zu lysieren dauert pro Messpunkt 15 Minuten, wobei man währenddessen noch ein paar Sachen hinzupipettieren muss. Wenn man also alle 5 Minuten einen Messpunkt haben möchte, hat man gut zu tun. Das gewonnene Lysat kann man dann zum Glück problemlos einfrieren und sich für diesen Tag erholen und am nächsten weitermachen.

Als nächsten Schritt gilt es die DNA gebundenen Proteine zu extrahieren. Die sitzen ja noch an den langen DNA Strängen, die mittels Ultraschall in Kurze Stücke (~500 bp) gebrochen werden. Parallel dazu präpariert man eine Lösung mit kleinen (~0,5µm) magnetischen Partikeln (Beads), an denen die entsprechenden Antikörper für die interessierenden Transkriptionsfaktoren binden. Natürlich für jeden Transkriptionsfaktor eine extra Lösung. Jetzt Teilt man seine Lysatproben, der eine Teil wird erstmal nicht weiter behandelt, das werden dann die Vergleichsproben. Zu dem anderen Teil gibt man nun die Beads mit den Antikörpern und schüttelt das ganze über Nacht leicht durch. Das schöne an den Beads ist, dass man einfach nur einen Magneten an das Eppendorfröhrchen halten muss und sie sind an der Wand fixiert. So kann man einfach die Flüssigkeit abpipettieren und hat nur noch die Beads übrig an denen über die Antikörper die jeweiligen Transkriptionsfaktoren hängen, die wiederum an die DNA gebunden sind. Nun kann man die Bindung zwischen Transkriptionsfaktor und DNA wieder lösen, die Beads per Magneten entfernen und man hat im Idealfall nur noch den richtigen DNA Abschnitt übrig.

Jetzt muss man noch Messen, wieviel DNA in der jeweiligen Probe ist und mit der Unbehandelten vergleichen (die wir vorhin zur Seite gestellt hatten nachdem die Proben aufgeteilt wurden), dann wissen wir den Prozentsatz der gebundenen Promotoren. Die Kontrollprobe entspricht dabei 100%, weil aus der haben wir ja keine DNA per Beads mit Antikörpern heraussortiert. Die Quantifizierung der DNA erfolgt dann mittels quantitativer PCR, welcher ich noch einen extra Artikel widmen will.

Bis hierher war man schon ein paar Tage beschäftigt, es galt genug Zellen zu züchten (ca 2 Wochen), diese zu synchronisieren (3 Tage), die Lysate mit der DNA herzustellen ( 1 Tag) und die interessierenden DNA Abschnitte mittels Beads und Antikörpern heraus zu sortieren (auch 1 Tag). Die PCR als solche dauert dann nicht so lange, allerdings ist die Vorbereitung recht aufwändig und man muss sehr genau arbeiten, sonst muss man sie gleich nochmal machen.

Die ganze Prozedur ist für mich ja erstmal komplettes Neuland und ich muss quasi alles neu lernen. Zum Glück hat Iryna viel Geduld mit mir und hilft mir recht viel. Der erste Durchlauf war jetzt natürlich auch entsprechend für mich zum lernen und üben mit noch nicht so vielen Proben. Der nächste wird es dann aber und wird mich sicher ganz gut beschäftigen. Ich bin gespannt und halte euch auf dem Laufenden. Ziel ist es so die Zyklen von ER\alpha, RNA Polymerase II, einer Histon Acetyltransferase und einer Histondeacetylase zu messen und zu schauen, was passiert, wenn man die Estradiolkonzentration zur Stimulierung ändert. Zum anderen wollen wir noch wissen, wie lange die Zyklen überhaupt anhalten, d.h. wie schnell werden sie gedämpft. Dazu werde ich dann einige Stunden nach dem E2 Signal messen. Da allerdings nächste Woche Weihnachten ist und ich deshalb nicht mehr genug Zeit habe genug Zellen zu züchten, werden meine laufenden Kulturen bis Januar eingefroren und dann gehts weiter.

Östrogenrezeptor Transkriptionszyklen oder das eigentliche Thema

Ich hatte es ja schon länger versprochen, dass ich mich daran mache, das eigentliche Thema meiner Arbeit genauer zu Erläutern. Der Arbeitstitel lautet erstmal:

‘Experimental and theoretical analysis of estrogen receptor transcriptional cycling’

Zur Gentranskription habe ich ja kürzlich schon einen allgemeinen Artikel geschrieben. In meiner Arbeit soll es nun um einen Teilaspekt dessen gehen. Nämlich die Regulation des ps2 Genes, das über Östrogenrezeptoren reguliert wird. Um diese Regulation zu erfassen, schaut man sich an, zu welchem Zeitpunkt welche Transkriptionsfaktoren an den ps2 Promoter gebunden sind.

Östrogene sind die weiblichen Gechlechtshormone und bestimmte Gewebe sind sensitiv für Östrogen, d.h. sie ändern ihr Verhalten, wenn damit stimuliert. Die Brustdrüsen sind ein solches Gewebe. MCF7 Zellen sind Brustkrebszellen und Estradiol-sensitiv, d.h. sie reagieren auf Estradiol (E2, eine Östrogenform). Dazu haben sie Östrogenrezeptoren, an die E2 binden kann und in gebundener Form fungieren die Rezeptoren als Transkriptionsfaktoren, genauer als Aktivatoren der Transkription des ps2 Gens. Rezeptoren für E2 sind ERalpha und ERbeta aus der Klasse der Nuklear- oder Kernrezeptoren. Kernrezeptoren deshalb, weil sie im Zellkern vorkommen. Diese Rezeptoren agieren als Transkriptionsfaktoren. ERalpha ist interessant für meinen Fall, da er, wenn E2 gebunden, die Transkription des ps2 Gens aktiviert. Allerdings sind dafür noch eine ganze Menge andere Proteine nötig, wie ich vorher schon beschrieben habe.

Die Transkription selber erfolgt dann in einem zyklischen Muster (siehe Bild) mit einer Periodendauer von etwa 40 Minuten. Dargestellt sind der Prozentsatz der Promoter, die vom jeweiligen Protein gebunden sind über die Zeit. Die Messungen wurden durch Chromatin Immunopräzipitationsexperimente gewonnen, denen ich einen eigenen Artikel widmen werde um euch auch an meinen Labor(miss)erfolgen teilhaben zu lassen.

Transkriptionszyklen, aus Lemaire et al.

Die schwarze Kurve stellt den Verlauf der Östrogenrezeptoren dar, die an den Promoter binden und orange repräsentiert den der RNA Polymerase II. Nur wenn letztere am Promoter gebunden ist, kann Transkription überhaupt stattfinden. Das führt dann zu Transkriptionszyklen und damit auch zum Namen meines Blogs.

Das spannende an der Geschichte ist nun, der hohe Grad von Ordnung in diesem Prozess. Métivier et al. haben für ihren Artikel von 2003 diese Zeitserien nicht nur für 4 Transkriptionsfaktoren gemessen, sondern für über 40. Das muss nicht nur wahnsinnig viel experimentelle Arbeit gewesen sein, sondern  weist auch darauf hin, dass es eine ziemlich genau festgelegte Abfolge der Ereignisse geben muss. Durch weitere Re-ChIP experimente, wo sie auf Kombinationen der Transkriptionsfaktoren testeten, konnten sie eine Reihenfolge der Bindungsereignisse postulieren. Grob könnte man es so beschreiben, dass erst die DNA aufgewickelt werden muss, sprich zugänglich gemacht werden, dann kommt die basale Transkriptionsmachinerie und dazu die RNA pol II. Am Ende des Zyklus werden die ganzen Transkriptionsfaktoren wieder vom Promoter abgeräumt und ein neuer Zyklus kann beginnen. In ihrem späteren EMBO report bezeichen sie das als eine Art ‘Transkriptionsratsche’, also einen Prozess, der nur in eine Richtung abläuft, also eine wohldefinierte Richtung hat. Allerdings hat der Zyklus nicht für alle Teilnehmer die gleiche Periode. Manche Transkriptionsfaktoren bleiben auch über zwei Zyklen der RNA pol II gebunden, sie müssen also bis mindestens zwei zählen können.

Von Métivier et al.

Die ChIP Experimente sind immer eine Ensemblemessung, d.h. sie messen die Besetzung des Promoters in sehr vielen Zellen. Man braucht also sehr viele Zellkulturen (für jeden zu messenden Zeitpunkt eine) und erhält durch jede immer eine Momentaufnahme. Allerdings ist Gentranskription ein Vorgang, der in jeder Zelle abläuft, wenn man diese Zyklen verstehen will, muss man sich überlegen, was auf Einzelzellebene abläuft und wie daraus in synchronisierten Zellen die obigen Muster entstehen können.

Sequenz der Bindungsereignisse, aus Lemaire et al.

Ein schönes konzeptionellen Paper haben dazu Lemaire et al. publiziert. Sie haben sich Gedanken gemacht, wie aus stochastischen Vorgängen in einer einzelnen Zelle diese Zyklen entstehen können. Im Prinzip ist ja jedes Binden eines Transkriptionsfaktors ein binäres Ereignis, das auch noch stochastisch erfolgt.

Simulierte (obere drei Plots) und gefittete (unterer Plot) Transkriptionszyklen, aus Lemaire et al.

Sie haben also unter bestimmten Annahmen (Anzahl der Reaktionsschritte, einzelne Reaktionsraten) simuliert, was auf Einzelebene passiert und dann geschaut, wie es aussieht, wenn man es für 10 oder 100 Zellen simuliert. Man erhält, wenn auch noch recht verrauscht, ein periodisches Muster. In einer Zellkultur sind nun allerdings etwa eine Million Zellen, was dann zu einer glatteren Kurve führen sollte. Das spannende an diesem Paper ist, dass es Einzelzellereignisse mit dem Ensembleverhalten verbindet und so eine interessante Methode aufzeigt das Verhalten zu modellieren. Denn das ist ja das Ziel meiner Arbeit, ein mechanistisches Modell der Transkriptionszyklen zu finden und am Experiment zu testen.

Einer der Autoren der zitierten Artikel, George Reid, arbeitet hier am IMB und unter anderem auch an diesen Transkriptionszyklen. Mit ihm zusammen plane ich meine Experimente und Iryna (sie ist Post Doc in Georges Gruppe) ist meine Lehrerin in Sachen Molekularbiologie und im Moment nehme ich sie mit meinen vielen Fragen ganz schön in Beschlag.

Ich möchte also für die Zukunft die oben kurz vogestellte Modellierungsmethode verfeinern und neuere experimentelle Erkenntnisse mit einbauen (wie z.B. den unproduktiven ersten Zyklus und den doppelt so langen Zyklus einzelner Transkriptionsfaktoren) und natürlich auch eigene Experimente machen. Vor allem letzteres wird sicher einige Zeit brauchen, zum einen sind diese ChIP Experimente ohnehin sehr zeitaufwändig und für den Anfänger wie mich noch mehr und zum anderen geht bei solchen Experimenten an biologischen Systemen gerne mal etwas schief. Ich werde euch auf dem laufenden halten.

Referenzen:

R. Métivier, G. Penot, M.R. Hübner, G. Reid, H. Brand, M. Kos, F. Gannon, Estrogen receptor-alpha directs ordered, cyclical, and combinatorial recruitment of cofactors on a natural target promoter, Cell (2003)

V. Lemaire, C. F. Lee, J. Lei. T. Métivier and L. Glass, Sequential recruitment and combinatoriel assembling of multiprotein complexes in transcriptional activation, Phys. Rev.Let. (2006)

R. Métivier, G. Reid, F. Gannon, Transcription in fur dimensions: nuclear receptor-directed initiation of gene expression, EMBO reports (2006)

Noch ein gutes Buch für Biophysiker

Ich habe ja schon zwei recht gute Bücher kurz vorgestellt zur mathematischen Biologie/ Systembiologie, Kürzlich bin ich aber noch über ein weiteres gutes Buch gestolpert, dass ich nur empfehlen kann: nämlich ‘Physical Biology of the Cell’ von Rob Phillips, Jane Kondev, Julie Theriot und Nigel Orme. Der Titel erinnert nicht zufällig an die Bibel der Zellbiologie. Allerdings die Perspektive ist eine andere, nämlich die der Physik. Es geht also hauptsächlich um Energie und deren Umwandlung auf molekularer Ebene in einzelnen Zellen, sprich Thermodynamik respektive statistische Physik und was man mit deren Methoden über biologische Systeme lernen kann. Das Buch gliedert sich in 4 Teile. Über die facts of life und warum es sich lohnt im physikalischen Sinne mit der Biologie zu beschäftigen geht es zu life at rest. Soll heissen Gleichgewichtssysteme werden als Modelle verwendet. Der dritte Teil befasst sich mit life in motion, also alle möglichen Transportvorgänge, molekularen Motoren biochemischen Reaktionsraten und auch Reizweiterleitungen in Axonen. Der letzte Teil kümmert sich dann um die ganz grossen Fragen, dem meaning of life. Die Antwort ist zwar nicht 42, dafür aber (Gen)Sequenzen, Evolution und Netzwerke.

Ein umfangreiches Buch (knapp 700 Seiten) aber sehr interessant und dabei gut geschrieben. Also eine absolute Empfehlung! Eine deutsche Übersetzung gibt es meines Wissens nach noch nicht.