Homologinis modeliavimas

Straipsnis iš Enciklopedijos Lietuvai ir Pasauliui (ELIP).

Įvadas

Homologinis modeliavimasbaltymo („taikinio“) tretinės struktūros sudarymas remiantis vieno ar keleto panašių baltymų žinomomis tretinėmis struktūromis (šablonais). Baltymo tretinė struktūra informatyvesnė nei jį sudarančių aminorūgščių seka, nes baltymo ir kitų molekulių tarpusavio sąveikas lemia aminorūgštys, artimos erdvėje, bet galinčios būti toli viena nuo kitos sekoje. Būtinos homologiniam modeliavimui sąlygos: pakankamas panašumas tarp „taikinio“ sekos ir šablono struktūros, galimybė sudaryti korektišką šių baltymų aminorūgščių sekų palyginį. Šis struktūros nuspėjimo būdas remiasi pastebėjimais, kad:

  • Maži pakeitimai baltymo sekoje lemia mažus tretinės struktūros pokyčius[1].
  • Baltymo aminorūgščių seka apsprendžia jo struktūrą. Žinant seką, turėtų būti įmanoma nusakyti struktūrą [2].
  • Evoliucijos metu tretinė struktūra yra stabilesnė ir keičiasi lėčiau nei seka, todėl panašios arba mažai panašios, bet giminingos sekos susisuka į panašias erdvines struktūras. Taip pat ir tolimai susiję sekos susisuka į panašias struktūras. Rost (1999)[3] šiai taisyklei išvedė apribojimus, nurodytus paveiksle. Kol dviejų sekų ilgis ir identiškų aminorūgščių procentas patenka į „saugų” regioną, abi sekos turės panašias struktūras [4].

Homol zonos.jpg

Homologijos nereikėtų painioti su panašumu. „Homologija“ reiškia „bendros evoliucinės ištakos turėjimą“ ir yra kokybinis ryšio tarp objektų aprašymas[5].


Šiuo metu didžioji dalis homologinio modeliavimo yra automatizuota. Homologinio modeliavimo pagalba galima sukurti modelius ~25 % genomo koduojamų baltymų. Likusiems 75 % genomo nėra šablonų su žinoma struktūra arba jų neaptinka paprasta BLAST[6] [7] paieška. Joms reikia naudoti sanklodos atpažinimo, ab initio metodus arba tiesiog atlikti eksperimentinį struktūros nustatymą[4].


Modelio kokybę galima apytiksliai nuspėti iš „taikinio“ ir šablono sekų panašumo. Didesnis nei 30 % sekų identiškumas dažniausiai rodo, jog bus gautas gana tikslus modelis. Jei taikinio ir matricos sekų identiškumas <30 %, sekų identiškumas tampa nebepatikimu spėjamo modelio tikslumo matu. Tokiais atvejais svarbiausia naudoti modelio įvertinimo metodus[1]. Geras būsimo modelio kokybės matas yra sekos identiškumo pasiskirstymas daugybiniame sekų palyginyje, apimantis „taikinį“, šabloną ir tarpines homologines sekas[8].

Kam naudojami modeliai?

Tokie modeliai naudingi sprendžiant įvairius biologinius uždavinius (lentelė[1][4][8]). Be to, tai vienintelis būdas gauti baltymo struktūrą, jei to nepavyksta padaryti eksperimentiškai. Dauguma baltymų tiesiog per dideli BMR analizei ir juos sunku iškristalinti rentgenostruktūrinės analizės eksperimentams.

Homologinio modeliavimo metu gautų baltymų struktūrų panaudojimo sritys
Taškinių mutantų sukūrimas hipotezėms apie funkciją patikrinti
Aktyviųjų ir susirišimo centrų nustatymas
Ligandų paieška, dizainas, patobulinimas tam tikram surišimo centrui
Racionalus baltymų su pakeistomis savybėmis dizainas
Substrato specifiškumo modeliavimas
Antigenų epitopų nuspėjimas
Baltymo-baltymo „dokinimo“ modeliavimas
Sekos-struktūros palyginio patikrinimas
Eksperimentinių duomenų paaiškinimas ir naujų eksperimentų planavimas

Homologinio modeliavimo etapai

Nežinomos struktūros baltymas modeliavimo metu vadinamas „taikiniu“. Homologinis modeliavimas yra daugiapakopis procesas ir gali būti padalintas į šiuos etapus:

  1. Šablono paieška ir parinkimas.
  2. Šablono ir taikinio palyginio koregavimas.
  3. Modelio sudarymas:
    1. Karkaso generavimas.
    2. Kilpų modeliavimas.
    3. Šoninių grandinių modeliavimas.
  4. Modelio įvertinimas.

Svarbu nustatyti struktūriškai konservatyvius ir struktūriškai variabilius regionus. Sumodeliuotų variabilių regionų kokybė labiausiai priklauso nuo regiono dydžio, palyginio tikslumo, gretimų regionų nuspėjimo tikslumo[4][8].

Šablono(-ų) paieška

Geriausios matricos parinkimas yra kritiškai svarbus pirmasis modeliavimo etapas. Sudėtingiems taikiniams matricos surandamos naudojant PSI-BLAST[9], HHPRED[10] ir kt., o nesudėtingiems (esantiems „saugioje“ zonoje) – BLAST ar FASTA[11] sekų palyginimo programas. Pirmuoju atveju labai svarbi modeliuotojo patirtis, antruoju gana tobulą struktūrą gali pateikti ir automatiniai nuspėjimo metodai. Duomenų bazėse (pvz., PDB – Protein Data Bank[12]) ieškoma žinomų baltymų struktūrų, kaip užklausą naudojant tiriamo baltymo seką. Sekų palyginimo metodai:

  • Sekos-sekos metodai (pvz., BLAST, FASTA). Lyginama užklausos („taikinio“) seka su kiekviena seka, kurios struktūra yra žinoma ir patalpinta PDB, naudojant pagrinde dvi matricas:
    • Liekanų apkeitimo matricą (angl. residue exchange matrix). Šios matricos elementai apibrėžia tikimybę, kad bet kurios dvi iš 20 aminorūgščių galėtų būti sulygintos. Didžiausios reikšmės yra įstrižainėje (atspindi konservatyvias liekanas). Pakeitimai į panašias fizikochemines savybes turinčias aminorūgštis (pvz., F→Y) duoda didesnį įvertį, nei pakeitimai į visiškai kitokiomis savybėmis pasižyminčias. Plačiausiai naudojamos BLOSUM[13][14] ir PAM [14][15] matricos.
    • Palyginimo matricą (angl. alignment matrix). Šios matricos ašys atitinka dvi lyginamas sekas, o matricos elementai yra vertės iš liekanų apkeitimo matricos duotai aminorūgščių liekanų porai. Palyginimo metu bandoma rasti geriausią kelią per matricą, pradedant nuo taško netoli viršaus kairėje ir keliaujant į apatinį dešinį kampą. Šioms matricoms panaudoti Smith-Waterman[16], Needleman-Wunsch[17] algoritmai.

Praktiškai, pateikiame seką-užklausą viename iš daugybės BLAST serverių, pasirenkame paiešką PDB ir gauname modeliuojamo „taikinio“ ir galimų šablonų palyginių sąrašą.

  • Profilio-sekos metodai (pvz., PSI-BLAST, modifikuotas PSI-BLAST variantas IMPALA[18]). PSI-BLAST naudoja pozicijai specifines įverčių matricas tolimiems evoliuciniams ryšiams tarp baltymų nustatyti[19]. Šiai kategorijai galima priskirti ir užslėptų Markovo modelių pagrindu paremtus algoritmus, pvz., HMMER[20].
  • Profilio-profilio metodai (HHPRED, COACH[21]). Jie pirma generuoja „taikinio“ sekos profilį ir jį lygina su išspręstų struktūrų sekų profiliais.


Naudinga išbandyti įvairius metodus, kad rasti kuo daugiau tinkamų šablonų. Tai ypač svarbu, kai „taikinio“ seka tik tolimai gimininga žinomoms struktūroms. Paieškas galima atlikti 1) pagal sekų panašumą; 2) naudojantis sanklodos atpažinimo (angl. threading) programomis; 3) naudojantis sanklodos atpažinimo internetiniais serveriais, sudarančiais 3D-1D palyginius.


Iš serverio ar programos pateikto galimų matricų sąrašo reikia išsirinkti potencialiai geriausią šabloną modeliavimui. Jo pasirinkimą nulemiantys veiksniai:

  • Baltymų funkcijų panašumas.
  • Kuo didesnis „taikinio“ ir šablono sekų panašumas (daugiau identiškų aminorūgščių, mažiau tarpelių palyginiuose ir jie trumpesni), tuo didesnė tikimybė, kad šablonas tiks.
  • Daugybinio palyginio ir filogenetinio medžio sudarymas gali padėti pasirinkti šabloną, priklausantį tam pačiam arba artimiausiam pošeimiui kaip ir baltymas-„taikinys“ .
  • Eksperimentinės matricos struktūros kokybė. Rentgenostruktūrinės analizės duomenyse tai nurodo skiriamoji geba ir R faktorius[22], o BMR duomenyse – suvaržymų (angl. restrains) skaičius aminorūgšties liekanai[23].Ši informacija randama PDB failuose arba struktūrą aprašančiuose straipsniuose. Reikėtų naudoti didžiausios skiriamosios gebos baltymų struktūras.

Nebūtina išsirinkti vieną šabloną. Dažnai keleto šablonų naudojimas padidina modelio tikslumą[1].

Palyginio koregavimas

Paieškos metodai skirti tolimiems ryšiams rasti, o ne generuoti optimalius palyginius, todėl, parinkus šablonus, reikalingi specialūs metodai jiems palyginti su „taikinio“ seka. Konstruojant modelį, visos homologinio modeliavimo programos nustato struktūrinius atitikimus tarp „taikinio“ ir šablono aminorūgščių liekanų. Tai atliekama palyginant „taikinio“ ir šablono sekas. Kai sekų identiškumas >40 %, standartiniai automatiniai sekos-sekos palyginimo metodai generuoja tikslius palyginius. Kai sekų identiškumas <40 %, palyginyje atsiranda tarpelių ir klaidingų sulyginimų, kuriuos reikia minimizuoti rankiniu būdu[1]. Taip pat galima panaudoti homologiškų baltymų sekas, kurios vienodai gerai sulyginamos su abiem pradinėmis sekomis – „taikinio“ ir šablono. Tai daugybinis sekų palyginimas (angl. multiple sequence alignment). Yra nemažai tam skirtų programų (pvz., Mummals[24], MAFFT[25], Muscle[26], T-Coffee[27], Kalign[28], CLUSTALW2[29].


Kai sekų identiškumas nedidelis, tikslus palyginys yra svarbiausias faktorius, nulemiantis modelio kokybę. Palyginį galima patobulinti panaudojant struktūrinę šablono informaciją. Reikia vengti tarpelių antrinės struktūros elementuose (-spiralėse ir -juostose), paslėptuose regionuose. Kai kurie palyginių sudarymo metodai atsižvelgia į šiuos kriterijus, tačiau svarbu modeliuotojui pačiam patikrinti palyginį. Blogas vienos liekanos pozicijos sulyginimas gali lemti 4 Å dydžio paklaidą modelyje, nes esami modeliavimo metodai negali ištaisyti palyginyje padarytų klaidų[1].


Detali „taikinio“ ir šablono šeimų sekų analizė, charakteringų sanklodos savybių ištyrimas bei literatūros ir bet kokių prieinamų biocheminių žinių (mutacijų, katalitinių liekanų ir t. t.) panaudojimas yra būtinas, nes net mažiausios detalės gali padėti sudaryti teisingą seka-struktūra palyginį neaiškiose dalyse. Taip pat labai patartina padalinti „taikinio“ seką į atskirus domenus, pašalinti ilgus intarpus iš sanklodos šerdies ir pakartotinai pateikti užklausas nuspėjimo serveriams[8].

Modelio sudarymas

Turint palyginį, galima konstruoti 3D modelį. Modelio sudarymas skirstomas į šiuos etapus:

  1. Karkaso generavimas.
  2. Kilpų modeliavimas.
  3. Šoninių grandinių modeliavimas.

Modelio sudarymo metodai skirstomi į tris grupes:

  1. Modeliavimas surenkant fragmentus – modelis surenkamas iš išspręstų giminingų struktūrų fragmentų[1].
  2. Modeliavimas pagal segmentų atitikimą. Metodas remiasi šablonų konservatyvių atomų pozicijų panaudojimu kitų atomų koordinatėms apskaičiuoti. „Taikinys“ padalijamas į trumpus segmentus, kurių kiekvienas sulyginamas su tam tikru šablonu iš PDB. Sekų palyginys sudaromas su segmentais, o ne su visa baltymo struktūra. Šablonai parenkami pagal sekos panašumą, C koordinačių palyginimus ir spėjamus sterinius neatitikimus tarp „taikinio“ ir šablono[1][30]
  3. Modeliavimas patenkinant erdvinius apribojimus. Iš „taikinio“ sekos ir šablonų struktūrų palyginių suskaičiuojami erdviniai apribojimai, kurie pritaikomi modeliuojamo baltymo pagrindinėms koordinatėms (karkaso atstumams, dvisieniams kampams). Gautieji apribojimai naudojami ir baltymo struktūrai optimizuoti. Šis metodas pritaikytas MODELLER programoje [1][31].

Karkaso generavimas

Turint palyginį, pradedamas modeliavimas nukopijuojant tų šablono aminorūgščių koordinates, kurios sutampa su „taikinio“ seka palyginyje. Jei sulygintos aminorūgštys skiriasi, kopijuojamos tik karkaso koordinatės (N, C, C ir O). Jei sutampa, gali būti įjungiamos ir šoninės grandinės.


Eksperimentiškai nustatytos baltymų struktūros turi paklaidas, todėl sėkmingo modelio sudarymas priklauso nuo tiksliausio šablono pasirinkimo. Padėti gali PDBREPORT duomenų bazė. Turint du šablonus su blogiau apibrėžtais, bet nesutampančiais regionais, galima panaudoti abejų šablonų gerąsias dalis. Toks modeliavimas vadinamas daugybinių šablonų modeliavimu (angl. multiple template modeling). Jis taip pat taikomas, kai palyginys tarp „taikinio“ ir šablonų gerai sutampa skirtinguose regionuose[4].

Kilpų modeliavimas

Daugumoje atvejų, modelio ir šablono sekų palyginiuose yra tarpų (angl. gaps). Jie gali būti arba modelio sekoje (delecijos), arba šablonos sekoje (insercijos). Esant delecijoms, tiesiog praleidžiamos šablono aminorūgščių liekanos sukuriant skylę modelyje, kurią reikia užpildyti. Esant insercijoms, iš šablono imamas ištisinis karkasas, perkerpamas ir įterpiamos trūkstamos liekanos. Abu atvejai reiškia konformacinius pakitimus karkase. Konformaciniai pakitimai rečiau sutinkami įprastuose antrinės struktūros elementuose, todėl dažniausiai saugu visas insercijas ir delecijas perstumti iš -lakštų ir - spiralių į kilpas ir linkius. Šiuos pokyčius kilpose sunku numatyti (tai viena didelė neišspręsta problema homologiniame modeliavime). Netgi nesant insercijų ar delecijų, dažnai randamos skirtingų konformacijų kilpos taikinyje ir šablone. Šio reiškinio priežastys gali būti kelios:

  1. Formuojantis baltymo kristalui, kilpų konformacija gali keistis, ypač jei kilpos dalyvauja sudarant kristalinius kontaktus.
  2. Kilpos pradžioje esančios mažos šoninės grandinės pakeitimas į didelę arba didelės į mažą gali pakeisti kilpos padėtį.
  3. Kilpos aminorūgšties pakeitimas į proliną arba iš glicino į bet kurią kitą aminorūgštį. Prolinas turi mažesnę prieinamų konformacijų aibę, o glicinas – didesnę, todėl nauja liekana turi tilpti į labiau suvaržytą Ramachandrano žemėlapio dalį, kas dažniausiai reikalauja kilpos konformacinių pokyčių.

Yra du galimi variantai kilpoms modeliuoti:

  1. Pagrįstas žiniomis: PDB ieškoma žinomų kilpų, kurių galai sutampa su liekanomis, tarp kurių turi būti įterpta kilpa, ir tiesiog nukopijuojama kilpos konformacija. Visos didžiosios molekulinio modeliavimo programos ir serveriai turi šią funkciją (pvz., 3D-Jigsaw, Insight, Modeller, Swiss-Model, WHAT IF).
  2. Pagrįstas jėgų laukais[32]: kilpos kokybei nustatyti naudojama energijos funkcija. Ji minimizuojama naudojant Monte Carlo metodą[33] arba molekulinės dinamikos metodą[34], kad gauti pačią geriausią kilpos konformaciją.

Trumpų kilpų (5-8 liekanų) konformacijas galima nuspėti gana patikimai. Paviršiaus kilpos linkę pakeisti savo konformaciją dėl kristalinių kontaktų. Taigi, jei modelis darytas išskirtam baltymui, o vėliau nustatyta jo struktūra, kuri nesutampa su modeliu, vistik modelis gali būti teisingas[4].

Šoninių grandinių modeliavimas

Šoninės grandinės, kurios yra konservatyvios struktūriškai panašiuose baltymuose, dažnai turi panašius 1-kampus (sukimo kampas aplink C-C ryšį). Todėl galima tiesiog nukopijuoti konservatyvias liekanas nuo šablono į modelį ir išgauti didesnį tikslumą nei vien kopijuojant karkasą ir iš naujo spėjant šoninių grandinių struktūrą. Praktikoje ši taisyklė galioja tik kai sekos labai identiškos, kai konservatyvios liekanos formuoja kontaktų tinklą. Kai sekų identiškumas <35 %, konservuotų liekanų rotamerai gali skirtis iki 45 % atvejų[4].


Visi sėkmingi šoninių grandinių talpinimo metodai bent iš dalies pagrįsti žiniomis. Jie naudoja žinomų rotamerų bibliotekas. Įvairūs rotamerai išbandomi ir įvertinami įvairiomis energijos funkcijomis. Vieno rotamero pasirinkimas įtakoja gretimų aminorūgščių rotamerus, todėl tenka perrinkti daug gretimų rotamerų kombinacijų (gresia „kombinatorinis sprogimas“), kas gali gerokai pailginti skaičiavimo laiką.


Kopijuojant konservatyvius rotamerus iš šablono, baltymas dažnai suskaidomas į atskirus regionus, kuriuose rotamerai gali būti nuspėjami nepriklausomai. „Kombinatorinį sprogimą“ suvaldyti galima pasitelkiant baltymo karkasą. Tam tikros karkaso konformacijos teikia pirmenybę tam tikriems rotamerams (pvz., leidžiantiems susidaryti vandeniliniams ryšiams tarp šoninės grandinės ir karkaso) ir taip stipriai sumažinama paieškos imtis. Tam tikrai karkaso konformacijai gali būti tik vienas priimtinas rotameras, kurį galima iš karto įmodeliuoti, taip sukuriant inkarą aplinkinėms, judresnėms šoninėms grandinėms. Vietai specifinių rotamerų bibliotekos kuriamos naudojant aukštos skiriamosios gebos struktūras ir surenkant visas iš 3-7 liekanų sudarytas atkarpėles, kurių centre yra tam tikra aminorūgštis. Nuspėjant rotamerą, atitinkama karkaso atkarpa šablone sutapatinama su visais surinktais pavyzdžiais ir galimos šoninių grandinių konformacijos parenkamos pagal geriausią karkaso atitikimą.


Nuspėjimo tikslumas gana didelis liekanoms, esančioms hidrofobinėje šerdyje, kur daugiau nei 90 % visų 1-kampų patenka į ±20° nuo eksperimentinių verčių, ir daug mažesnis paviršiuje esančioms liekanoms, kur procentas dažnai mažesnis nei 50 %. Tam yra dvi priežastys:

  1. Eksperimentinės: lanksčios paviršiaus aminorūgščių šoninės grandinės linkę išsidėlioti į įvairias konformacijas, kurias dar įtakoja kristaliniai kontaktai. Net eksperimentas negali duoti vieno vienintelio teisingo atsakymo.
  2. Teorinės: energijos funkcijos, naudojamos rotamerams įvertinti, gali lengvai susidoroti su hidrofobiniu supakavimu šerdyje (pagrinde Van der Valso sąveikomis), tačiau nėra tokios tikslios teisingoms sudėtingoms elektrostatinėms sąveikoms paviršiuje, tame tarpe ir vandeniliniams ryšiams su vandens molekulėmis ir susijusiems entropiniams efektams gauti.


Norint labai tiksliai nuspėti šoninių grandinių rotamerus, reikalingas teisingas karkasas, kuris priklauso nuo rotamerų ir jų išsidėstymo. Įprastas tokios problemos sprendimo būdas yra nuspėti rotamerus, tuomet ištaisyti atsiradusius poslinkius karkase, tuomet rotamerus naujam karkasui ir t. t. Tai sudaro ciklą rotamerų nuspėjimo ir energijos minimizavimo stadijų. Naudojami metodai, aprašyti kilpų modeliavime, tik šį kartą jie taikomi visai baltymo struktūrai[4][8].

Modelio įvertinimas

Sukurtą modelį reikia patikrinti, ar jame nėra klaidų, ar jis teisingas. Tai atliekama dviem būdais:

  1. „Vidinė“ patikra. Tikrinama, ar modelis atitinka nustatymus, naudotus jam apskaičiuoti.
  2. „Išorinė“ patikra. Remiamasi informacija, kuri nebuvo naudota modeliui apskaičiuoti. „Išorinės“ patikros metu:
    1. Tikrinama, ar modeliavimui buvo pasirinktas tinkamas šablonas. Tai ypač svarbu, jei palyginys nežymiai reikšmingas arba turi būti įvertinta keletas šablonų su skirtingomis struktūromis. Kai sekų identiškumas mažas (<30 %), palyginius sunku įvertinti teisingai ir jie turi daug klaidų, nes sunku atskirti neteisingą šabloną nuo neteisingo palyginio su teisingu šablonu. Pasirinkti teisingą šabloną galima palyginant PROSAII Z-įvertį modeliui ir šablono struktūrai. Modelio Z-įvertis yra sekos ir struktūros tarpusavio suderinamumo matas. Jis turėtų būti palyginamas su Z-įverčiu, gautu šablono struktūrai. Tačiau šis vertinimas ne visuomet pasiteisina.
    2. Nustatomi nepatikimi regionai modelyje:
      1. Skaičiuojant energijos profilius (pvz., su PROSAII) – teigiamos vadinamosios energijos pikas rodo galimą klaidą modelyje.
      2. Įvertinant modelio stereochemiją (ryšių ilgius ir kampus, atomo-atomo persiklojimus, dvisienius kampus). Tai galima atlikti programomis PROCHECK, WHATCHECK. Šios grupės klaidų santalka viename segmente rodo galimas kitas klaidas tame regione.
      3. Eksperimentinių žinių apie baltymo struktūrą ir funkciją pritaikymas modeliui[1].

Vertinant modelį, tikrinama, ar jis atitinka šiuos kriterijus (jei modelis neatitinka vieno ar keleto iš šių kriterijų, labai tikėtina, kad modelis klaidingas):

  1. Pagrindinės grandinės konformacijos yra leistinuose Ramachandrano žemėlapio regionuose.
  2. Peptidiniai ryšiai yra plokšti.
  3. Šoninių grandinių konformacijos atitinka esančias rotamerų bibliotekoje.
  4. Sudaryti vandeniliniai ryšiai tarp paslėptų polinių atomų.
  5. Tinkama aplinka hidrofobinėms ir hidrofilinėms aminorūgščių liekanoms.
  6. Nėra sterinių trukdžių.
  7. Struktūroje nėra nesumodeliuotų dalių[5].

Labiausiai modelio kokybę nulemia optimalus struktūrinės šablonų informacijos panaudojimas ir sekos-struktūros palyginių teisingumas. Modeliai tiek pat artimi „taikinio“ struktūrai, kiek ir šablonai, arba šiek tiek artimesni, jei sudarytas teisingas palyginys. Kai modeliavimui naudojama daugiau nei viena struktūra, kartais galima gauti modelį, žymiai artimesnį „taikinio“ struktūrai negu bet kuri šablono struktūra. Taip yra todėl, kad modelis paveldi geriausius kiekvieno šablono regionus. Dėl išlygiavimų klaidų modeliai dažniausiai būna blogesnės kokybės nei šablonai. Tuo atveju, kai geriausio šablono pasirinkimas ir palyginys nėra aiškūs, modelį patobulinti galima pakeičiant palyginį ir/arba šabloną ir perskaičiuojant modelį pakartotinai, kol nebestebimas joks modelio pagerinimas. Kuo nuodugnesnis šablonų ir palyginių tyrimas, tuo didesnė tikimybė, kad galutinio modelio tikslumas pagerės[1].

Modelio optimizavimas

Natyvioje būsenoje baltymo laisvoji energija yra minimume[35][36]. Energijos minimizavimą ir molekulinės dinamikos modeliavimą galima atlikti po lengvai aptinkamų klaidų ištaisymo. Optimizuojant visą baltymo struktūrą, būtina atsargiai naudoti energijos minimizavimą. Kiekvienos minimizavimo stadijos metu pašalinama keletas didelių klaidų (tokių, kaip „susidūrimai“ – per trumpi atstumai tarp atomų), bet įvedama daug smulkių. Kai didelių klaidų nebėra, pradeda kauptis smulkiosios ir modelis tolsta nuo „taikinio“. Šiuolaikinės modeliavimo programos arba apriboja atomų pozicijas ir/arba pritaiko tik keletą energijos minimizavimo stadijų. Modelio optimizavimui reikia tikslių energijos funkcijų (jėgų laukų).


Modelį optimizuoti galima paleidžiant modelio molekulinės dinamikos modeliavimą. Toks modeliavimas seka baltymo judesius femtosekundėmis (10-15 s) ir pamėgžioja tikrą susivyniojimo procesą. Tikimasi, kad modeliavimo metu modelis susivynios į galutinę tikrą struktūrą. Privalumas tas, kad molekulinės dinamikos modeliavimas įtraukia entropinius efektus, kuriuos kitu būdu sunku suvaldyti. Trūkumas tas, kad jėgos laukai nepakankamai tikslūs. Išlieka didelė tikimybė, kad modeliavimo metu modelis bus sujauktas, jo kokybė žymiai pablogės. Šiuos modeliavimus atlikti galima tik turint solvatuotas molekules. Tam dažnai panaudojamas kristalizacinis vanduo[4].

Modelio patikimumas ir paklaidos

Galimybę sudaryti tikslų modelį įtakoja keletas svarbių faktorių:

  1. Struktūrinio konservatyvumo laipsnis tarp taikinio ir šablono: Jei šablono ir „taikinio“ sekų identiškumas didesnis nei 90 %, modelio tikslumas gali būti palyginamas su kristalografiškai nustatytomis struktūromis[4]. Modeliai, sudaryti naudojant 50-90 % identišką šabloną, dažniausiai labai tikslūs – nuokrypis nuo eksperimentinės struktūros yra tik ~1 Å C atomo koordinačių standartinis nuokrypis (RMSD, angl. root mean square deviation[37]) su žymiai didesnėmis vietinėmis paklaidomis. RMSD naudojamas norint įvertinti pagrindinius atstumus tarp atitinkamų atomų sutapatintose struktūrose. Baltymų su 30-50 % sekų identiškumu, sutampa bent 80 % struktūros, o gaunamų modelių nuokrypis nuo natyvių struktūrų neperžengia 4 Å RMSD (vidutiniškai 2-3 Å). Klaidos dažniausiai randamos kilpų regionuose. Baltymų, kurių sekų identiškumas 20-30 %, struktūrinis konservatyvumas yra tik apie 55 %, ir dar mažesnis, kai sekų identiškumas nukrenta žemiau 20 %. Šiuo atveju palyginys tampa pagrindine silpna vieta homologiniame modeliavime, dažnai lemiančia labai dideles paklaidas.
  2. Palyginio tikslumas/teisingumas: palyginiai dažniausiai artimi optimaliems, kai „taikinio“ seka daugiau nei 30 % identiška šablono struktūrai. Kai sekų identiškumas mažesnis nei 20 %, palyginio kokybė stipriai krenta ‒ daugiau nei pusė visų liekanų gali būti neteisingai išlygiuotos[4][8].
  3. Klaidų kiekis šablone ir koordinačių paklaidos[4].

Modelio klaidos

Kiekvienas homologinis modelis turi paklaidų ir gali turėti klaidų. Klaidos, įtakojančios modelio kokybę, gali įsivelti kiekviename žingsnyje. Mažėjant panašumui tarp šablono ir „taikinio“, klaidų modelyje daugėja. Tipiškos klaidos palyginamuosiuose modeliuose:

  1. Klaidos šoninių grandinių supakavime: kai sekos skiriasi, šoninių grandinių pakavimas į baltymo šerdį keičiasi. Kartais netgi identiškų šoninių grandinių konformacija yra nekonservatyvi. Šio tipo klaidos nėra svarbios, nebent jos yra regionuose, svarbiuose baltymo funkcijoms, pvz., aktyviajame centre arba ligandų surišimo vietose.
  2. Iškraipymai ir poslinkiai teisingai sulygintuose regionuose: dėl sekų skirtumų pagrindinės grandinės konformacija taip pat keičiasi, net jei bendra sankloda išlieka tokia pati. Kai kuriuose teisingai sulygintuose modelio segmentuose šablonas gali lokaliai (<3 Å) skirtis nuo „taikinio” ir todėl tame regione gaunamas neteisingas modelis. Kartais „taikinio“- šablono skirtumai yra pasekmė artefaktų, gautų nustatant struktūras (pvz., kristalų susipakavimo) arba struktūras nustatant skirtingose aplinkose. Keleto šablonų naudojimas tuo pačiu metu sumažina tokių klaidų kiekį.
  3. Klaidos regionuose, neturinčiuose šablono: taikinio sekos segmentus, neturinčius atitinkamo regiono šablono struktūroje (insercijas) yra sunkiausia modeliuoti. Jei insercija trumpa (<8 liekanos), kai kuriais metodais galima patikimai nuspėti karkaso struktūrą. Tam būtinas teisingas palyginys ir tiksliai sumodeliuota aplinka aplink inserciją. Didesnių nei 8 liekanų insercijų turimais metodais dažniausiai neįmanoma teisingai sumodeliuoti.
  4. Klaidos dėl neteisingų palyginių: neteisingi palyginiai yra didžiausias klaidų šaltinis, ypač kai „taikinio“- šablono panašumas <40 %. Pvz., esant 30 % sekų identiškumui, vidutiniškai 20 % liekanų yra išlygiuojamos neteisingai. Vienos liekanos neteisingas išlygiavimas reiškia apie 4 Å pozicinę klaidą modelyje. Dabartinės palyginamojo modeliavimo programos negali ištaisyti klaidų palyginyje. Šios klaidos gali būti ištaisytos arba jų išvengta dviem būdais: 1) galima sudaryti daugybinį palyginį naudojant daugiau homologinių baltymų sekų, net jei dauguma ir neturi žinomų struktūrų. Daugybiniai palyginiai paprastai yra patikimesni nei poriniai. 2) pakeisti tuos palyginio regionus, kurie atitinka nuspėtas klaidas modelyje, aptiktas modelio tikrinimo metu.
  5. Neteisingi šablonai: tai potenciali problema, kuomet kaip šablonai naudojami tolimai susiję baltymai (sekų identiškumas <30 %). Modeliai, gauti naudojant neteisingus šablonus, gali būti aptikti įvertinimo etape. Didžiausia praktinė problema yra atskirti modelį, gautą naudojant neteisingą šabloną, nuo modelio, gauto sudarius neteisingą palyginį su teisingu šablonu. Abiem atvejais, įvertinimo metodai nustatys nepatikimą modelį. Svarbiausia patikrinti šabloną prieš pradedant modeliuoti[1].

Metodų kokybės įvertinimas

Kas du metus vyksta tarptautinis homologinio modeliavimo eksperimentas CASP – Critical Assessment of Technicues for Protein Structure Prediction. Jo metu išsiaiškinami naujausi pasiekimai baltymų struktūrų nuspėjimo srityje. Yra sukurta duomenų bazė ModBase[38], talpinanti homologinio modeliavimo pagalba gautas struktūras. Taip pat kuriama duomenų bazė 3Dcrunch, skirta talpinti struktūras, generuotas naudojant Swiss-Model programinę įrangą[5][39].

Programos ir serveriai homologiniam modeliavimui

Programa/serveris (P/S) Pavadinimas Adresas
S Swiss-Model http://swissmodel.expasy.org//SWISS-MODEL.html
S CPHmodels http://www.cbs.dtu.dk/services/CPHmodels/
S 3D-JIGSAW http://bmm.cancerresearchuk.org/~3djigsaw/
S WHATIF http://swift.cmbi.ru.nl/servers/html/index.html
S ROBETTA http://robetta.bakerlab.org/
S ESyPred3D http://www.fundp.ac.be/sciences/biologie/urbm/bioinfo/esypred/
S WLoop http://smi.snv.jussieu.fr/wloop/
S MODLOOP http://modbase.compbio.ucsf.edu/modloop/modloop.html
S I-TASSER http://zhang.bioinformatics.ku.edu/I-TASSER/
P MODELLER http://salilab.org/modeller/
P Swiss-PDBViewer http://spdbv.vital-it.ch/
P INSIGHTII http://www.eeg-persyst.com/web/Insight_overview.html
P QUANTA http://accelrys.com/products/quanta/

Nuorodos

  1. 1,00 1,01 1,02 1,03 1,04 1,05 1,06 1,07 1,08 1,09 1,10 1,11 Protein Structure Prediction. Methods and Protocols. Edited by David M. Webster. Humana Press. Methods in Molecular Biology. (2000). Volume 143. Comparative Protein Structure Modeling. Introduction and practical examples with Modeller. Roberto Sanchez and Andrej Šali. p.97-129.
  2. Epstein CJ, Goldberger RF, Anfinsen CB (1963). The genetic control of tertiary protein structure: studies with model systems. Cold Spring Harb Symp Quant Biol 28:439.
  3. Rost B. Twilight zone of protein sequence alignments. Protein Engineering. 1999; 12;2:85-94.
  4. 4,00 4,01 4,02 4,03 4,04 4,05 4,06 4,07 4,08 4,09 4,10 4,11 Structural Bioinformatics. Edited by Bourne Pe and Weissig H. (2003); Wiley-Liss, Inc. Homology modeling. Krieger E. Nabuurs SB, Vriend G. 25 skyrius.
  5. 5,0 5,1 5,2 http://www.biochem.vt.edu/modeling/homology.html.
  6. http://blast.ncbi.nlm.nih.gov/Blast.cgi.
  7. http://en.wikipedia.org/wiki/BLAST
  8. 8,0 8,1 8,2 8,3 8,4 8,5 Ginalski K. Comparative modeling for protein structure prediction. Current Opinion in Structural Biology. 2006; 16:1-6.
  9. http://www.ebi.ac.uk/Tools/blastpgp/.
  10. http://toolkit.tuebingen.mpg.de/hhpred/help_ov.
  11. http://www.ebi.ac.uk/Tools/fasta/index.html.
  12. http://www.pdb.org/pdb/home/home.do.
  13. http://helix.mcmaster.ca/721/distance/node10.html.
  14. 14,0 14,1 http://en.wikipedia.org/wiki/Substitution_matrix.
  15. http://helix.mcmaster.ca/721/distance/node9.html.
  16. http://en.wikipedia.org/wiki/Smith-Waterman_algorithm.
  17. http://en.wikipedia.org/wiki/Needleman-Wunsch_algorithm.
  18. Schäffer AA, Wolf YI, Ponting CP, Koonin EV, Aravind L, Altschul SF. IMPALA: matching a protein sequence against a collection of PSI-BLAST-constructed position-specific score matrices. Bioinformatics. 1999;15:1000–1011.
  19. Edgar RC, Sjölander K. A comparison of scoring functions for protein sequence profile alignment. Bioinformatics. 2004; 20;8:1301-1308.
  20. http://en.wikipedia.org/wiki/HMMER.
  21. Edgar RC, Sjölander K. COACH: profile-profile alignment of protein families using hidden Markov models. 2004; 20;8:1309-1318.
  22. http://en.wikipedia.org/wiki/R-factor_%28crystallography%29.
  23. http://en.wikipedia.org/wiki/Protein_NMR.
  24. http://prodata.swmed.edu/mummals/mummals.php.
  25. http://www.ebi.ac.uk/Tools/mafft/.
  26. http://www.ebi.ac.uk/Tools/muscle/.
  27. http://www.ebi.ac.uk/Tools/t-coffee/.
  28. http://www.ebi.ac.uk/Tools/kalign/.
  29. http://www.ebi.ac.uk/Tools/clustalw2/index.html.
  30. Levitt M. (1992). Accurate modeling of protein conformation by automatic segment matching. J Mol Biol 226(2): 507-33.
  31. Sali A, Blundell TL. (1993). Comparative protein modelling by satisfaction of spatial restraints. J Mol Biol 234(3):779-815.
  32. http://en.wikipedia.org/wiki/Force_field_%28chemistry%29.
  33. http://en.wikipedia.org/wiki/Monte_Carlo_molecular_modeling.
  34. http://en.wikipedia.org/wiki/Molecular_dynamics.
  35. Anfinsen, C. (1973). Principles that govern protein folding into chains. Science; 181:223–230.
  36. Govindarajan S, Goldstein RA (1998). On the thermodynamic hypothesis of protein folding. Proc. Natl. Acad. Sci. USA; 95:5545–5549.
  37. http://en.wikipedia.org/wiki/Root_mean_square_deviation.
  38. http://modbase.compbio.ucsf.edu/modbase-cgi/index.cgi.
  39. Schwede T, Kopp J, Guex N, Peitsch MC (2003). SWISS-MODEL: an automated protein homology-modeling server. NAR; 31 (13):3381-3385.


Sudarytojai, rašytojai ir redaktoriai

Kitur naudojant ar cituojant šį straipsnį, būtina nurodyti jo sumanytojus, sudarytojus, rašytojus ir redaktorius.
  • Vitas Povilaitis – autorius – 100% (+39938-0=39938 wiki spaudos ženklai).