SIMAP
- Team |
Was ist SIMAP:
SIMAP ist eine Datenbank, in der die Ähnlichkeiten aller derzeit bekannten
Proteinsequenzen untereinander sowie deren Domänen gespeichert sind. Man
kann sich das als Matrix vorstellen, die quadratisch ist bei einer Kantenlänge
von ca. 4 Mio Proteinsequenzen die wir momentan speichern. Der Inhalt der Matrix
ist symmetrisch, das heißt wenn Protein 1 dem Protein 2 ähnlich ist,
dann ist es umgekehrt genauso. SIMAP ist weltweit das einzige derartige Projekt,
bei dem wirklich alle Proteine einbezogen werden. Das "Konkurrenzprojekt"
clustr am European Bioinformatics Institute beschränkt sich derzeit auf
ca. 1/5 unserer Datenmenge.
Wem nutzt SIMAP?
Proteinähnlichkeiten geben Hinweise auf die Verwandschaftsverhältnisse
zwischen Proteinen. Verwandte Proteine haben oft gleiche oder ähnliche
Eigenschaften und Funktionen im Organismus, da sie sich im Lauf der Evolution
nur langsam verändern. Da man derzeit viel mehr Proteinsequenzen kennt
als man eingehend in Labors untersuchen kann, werden die experimentellen Erkenntnisse
über ein Protein auch auf dessen Verwandte übertragen. Ein gutes Beispiel
dafür ist die intensive Untersuchung von Mausgenen und -proteinen, deren
Ergebnisse oft auch für den Menschen gültig sind.
Proteindomänen sind die strukturellen Bausteine der Proteine und verantwortlich
für die Aktivitäten eines bestimmten Domains. So ermöglichen
sie z.B. die Bindung kleiner Moleküle, katalytische Reaktionen oder die
Zusammenlagerung von Proteinen zu groß:en Komplexen. Das Wissen über
Proteindomänen ist in großen Repositorien gespeichert, vor allem
in den InterPro-Datenbanken. Die Vorhersage von Proteindomänen in neu sequenzierten
Proteinen beruht auf diesen Datenbanken und ermöglicht eine automatische
funktionelle Annotation dieser Proteine. Daher berechnen wir die Proteindomänen
mit Hilfe der InterPro-Datenbanken für alle Proteine in SIMAP. Somit stellen
wir das weltweit umfangreichste System für die Funktionsvorhersage von
Proteinen bereit.
Darüber hinaus gibt es noch viele weitere Methoden in der Bioinformatik,
die auf Proteinähnlichkeiten basieren. Unsere Proteinähnlichkeitsdatenbank
stellt all diesen Methoden die vorberechneten Ähnlichkeiten aller bekannten
Proteine zur Verfügung. Dadurch eröffnen sich neuartige Möglichkeiten,
denn bislang würden die Ähnlichkeiten immer und immer wieder neu berechnet.
SIMAP wird regelmäßig aktualisiert und muss nur neu hinzukommende
Sequenzen in die Matrix integrieren (sogenannte inkrementelle updates). SIMAP
ist für Forschung und Lehre vollständig kostenlos verfügbar.
SIMAP ist ein Gemeinschaftsprojekt des GSF-Forschungszentrums für Gesundheit
und Umwelt in Neuherberg bei München und der Technischen Universität
München, Wissenschaftszentrum Weihenstephan. Ansprechpartner ist Thomas
Rattei vom Lehrstuhl für Genomorientierte Bioinformatik.