3D bioinformatika a mesterséges intelligencia korában

Hegedűs Tamás

A fehérjék 3D szerkezete kulcsfontosságú azok funkciójának, mutációk hatásának és gyógyszercélpontként való alkalmazásának megértéséhez. Nemrégiben kifejlesztették az AlphaFold2 mesterséges intelligencia alapú módszert, amely lehetővé teszi szekvencia alapján fehérjeszerkezetük pontos előrejelzését. Bár a transzmembrán (TM) fehérjék fontos gyógyszercélpontok, viszont kevés TM szerkezet ismert, ezért felmerült, hogy az AlphaFold2 által generált TM szerkezetek megbízhatósága alacsony. Ennek tanulmányozása érdekében megvizsgáltuk a generált szerkezetek minőségét genom szinten, az ABC fehérje szupercsalád szintjén és specifikus membránfehérjék esetén. Eredményeink arra utalnak, hogy az AlphaFold2 jól teljesít a TM fehérjék esetében is, a neurális hálózata nem túltanított (https://rdcu.be/dQrRQ). Megfigyeléseink mellett a módszer alapjait és a tudományos életre kifejtett hatásait is bemutatom.

A fehérjék szerkezetének és kapcsolódó tulajdonságainak előrejelzéséhez nagy fehérje nyelvi modelleket (pLM-eket) is alkalmaznak. Ezekben a bemeneti adat a fehérje szekvencia, ahol az aminosavak szavakként, a szekvenciák pedig mondatokként értelmezhetők. A neurális hálózat utolsó rétegéből kinyert vektorokat (embedding) további, specifikus tulajdonságokat előrejelző gépi tanulási modellek betanítására használhatjuk. Ezt a megközelítést a pLMMoRF prediktorunkon (https://plmmorf.hegelab.org) keresztül mutatom be, amelyet olyan fehérje régiók előrejelzésére fejlesztettünk ki, amelyek rendezetlenek, de membránlipidekkel kölcsönhatva rendeződhetnek. Ezeket a szakaszokat MemMoRF-oknak (Membrane Molecular Recognition Features; https://memmorf.hegelab.org) neveztük el, amelyek alapvető szerepet játszanak számos jelátviteli és egyéb sejtes folyamatban. Munkánk kiemeli a különböző pLM-ek és az embedding vektorok specifikus pozícióinak fontosságát, amelyek figyelembevételével a pLM-alapú prediktorok teljesítményét maximalizálni lehet.