Matematiske metoder for repeterte mønstre i biologiske sekvenser

Eivind Coward, Inst. for matematiske fag, NTNU.

Søk etter repeterte mønstre i DNA- og proteinsekvenser er et viktig problem i molekylærbiologien. To forskjellige tilnærminger til dette problemet tas opp.

Nye kombinatoriske resultater gjør det mulig effektivt å beregne sannsynligheter for forekomster av ord i tilfeldige sekvenser. Dette er implementert på en numerisk stabil måte. En anvendelse av dette er å søke etter repeterende områder i biologiske sekvenser, og en metode basert på å telle korte ord er utviklet og implementert. Programmet er brukt til en systematisk studie av det fullstendige genomet til gjær (Saccharomyces cerevisiae).

En ny metode for å identifisere periodiske mønstre presenteres også. Den er motivert av evolusjonære metrikker (avstandsmål), og en selv-alignment med "faseskift" introduseres, noe som leder til et minimaliseringsproblem. Statistisk signifikans blir også diskutert.

back to seminar homepage