Miert nem illeszkedik minden genotipus?

  • alapproblema
    • felhasznalva az illesztest, szamolunk minden genotipushoz atlagtumormeret erteket (sulyozott integralos algoritmus)
    • ha megnezzuk hogy mi lenne a vart a duplaknal, akkor azt latjuk hogy nagyon keves (pontosan 1, az Rb1_p53) jon ki pozitiv interakcionak (ez szignifikans is amugy)
  • mitol lehet?
    • nezzuk meg melyek azok a genotipusok amik mas meroszamokkal erosek
      • ezeket az illesztesunk "alulbecsuli" (kisebb erteket mond adott percentilishez - foleg a magas percentiliseknel)
      • --> Rb1_p53-nel pont forditva van, annal felulbecsuli az algoritmus, emiatt lesz ennyire eros
  • mit akarunk ezzel kezdeni?
    • opcio
      • ugy modositani az algoritmust hogy megkapjuk pozitivnak azokat amikrol tudjuk hogy azok -> nem ez a cel
      • az alul- es felulbecsulest valahogyan megprobalhatjuk kezelni, de ne az legyen a cel, hogy olyan sulyozast vagy hibafuggvenyt keressunk amivel mukodni fog
    • opcio
      • megerteni hogy miert becsuli alul vagy felul
  • tervek es ahhoz otletek (ha gyorsan lehetett checkolni akkor ott van mar a valasz is)
    • alul- es felulbecsulest kezelese -> ha van ra valami egyszeru mod, nem az a lenyeg hogy megkapjuk erosnek az eroseket, hanem hogy ne legyen ez a gond
      • bootstrappelni az egereket es ugy illeszteni, mindig felulbecsuli?
      • keves egeren mulik? ha kihagyjuk azokat akkor mukodik?
        • van egy fura eger, de nem valtoztat semmit
      • normalizalni egerenekent, azonos vagasokkal valtozik az alak?
        • nem
      • nehany nagyon nagy tumor huzza el az illesztest?
        • nem
    • megerteni hogy miert becsuli alul
      • megerteni hogy miert becsuli alul
      • alapbol "fura" az alak, sok mutansra mukodik, ezekre miert nem?
      • fugg az egerektol? mindegyikben fura? vagy csak nehanyban?
      • az is informacio lenne hogy vannak olyanok amikre nem illeszkedik az alak
      • lognormal eloszlas jobban illeszkedik ezekre? (growth rate normal)
        • osszessegeben nem, Rb1_p53-re viszont igen!
    • (ez a ketto valamennyire osszefugg, nem fuggetlen vizsgalodas a ketto)
jegyzetek, haladas
  • a rosszul illeszkedo genotipusok csak olyanok ahol a real es az expected parametric mean is a legmagasabbak kozott van (es nincs olyan magas fitnessu genotipus amire jol illeszkedne)
  • van egy olyan eger aminek teljesen mas az eloszlasa (sokkal nagyobbak a tumorok)
    • ha csak ezt kihagyjuk nem tortenik semmi
    • de ettol meg kicsit fura
  • keves van azokbol a genotipusbol (marmint adat) amikre rosszul illesztek -> de masbol is keves van, nem ezen mulik, nem fugg ossze a ketto
  • teljesen fuggetlen de akar fontos is lehet
    • ha azt mondom hogy ne legyen a mereteknel minimum cutoff -> az Lkb1-ra azt mondja az algoritmus, hogy szerinte az adatok ~80%-at latja
      • ilyenkor a cutoff nehany egerben 50, nehanynal 70, van olyan amelyiknel 100
    • de ha azt mondom hogy legyen 100 akkor -> akkor azt mondja hogy az adatoknak csak a 4%-at latja
    • tehat azon az 50 hosszu reszen van az adatok 76%-a, ez nyilvan brutalis es nem igaz, igazabol az adatok 30%-a van ott
    • SOT
      • ha a minimum cutoff 88 -> kb 40%-ot lat
      • ha a minimum cutoff 93 -> kb 3%-ot lat
        • (szoval 5 hosszu reszen van 37%, valojaban 0)
        • ha kivesszuk azt az egeret amelyiknek a cutoffja 100, akkor kicsit mas a helyzet, de meg mindig lesz egy nagy ugras
    • ez nagyon fura es nem annyira jo ha az algoritmus ennyire instabil, de ez magyarazhato azzal, hogy az adat nem normalis eloszlasu
    • ezt az instabilitast teszteltem mas genotipusokra es nehany teljesen stabil, nehany kevesbe
      • pl a Keap1 nagyon jol illeszkedik de az is instabil
      • pl a Apc_Rasa1 nagyon jol illeszkedik, de egeszen stabil
      • -->> instabilabb a rosszul illeszkedoeknel, de ezzel nem szetvalaszthatoak
  • nagyon erosen osszefugg az error azzal hogy az algoritmus mit tippel arra, hogy az adatnak mekkora resze hianyzik
    • sok (15-30%) hianyzik ~ magas a hiba
    • itt ugy illesztek hogy kihagyom azt az egeret aminek magas a cutoffja, es amugy nincsen cutoffom
  • nem szamit hogy normalizalunk-e egerenkent, nem segit ezen





talan fontos resz
  • olyan plot amin megneztem hogy adott merethez milyen percentilis tartozik (valasztok sok pontot a legkisebb es legnagyobb meret kozott, mindegyik genotipusra megnezem az osszes pontnal hogy az a meret hanyadik percentilis lenne; tehat olyan plotot kapok aminek az x tengelyen a meret van, y tengelyen az hogy hanyadik percentilishez tartozik ~ cdf plot valos adatokra)
    • harom csoport
      • (A) - szurke - sok eloszlas nagyon hasonlo, egy adagban vannak
      • (B)  - zold - van egy nagyon fura, ami teljesen kulon van
      • (C) - piros - van sok hasonloan fura, amik egeszen egyutt vannak, de elkulonitve az elso csoporttol
  • (C) - (ez ezen az abran is latszodnak a dolgok amikrol irni fogok, de ha kulon-kulon abrazolom akkor konnyebb latni, nem akarok ide berakni sok kepet)
    • nem szepen lassan kisimul hanem egyszercsak elvagodik
    • 10^3-nal lapos lesz, de aztan 10^4 es 10^5 kozott nagyon meredek
      • ha meredek a plot, akkor az azt jelenti hogy annal a meretnel sok adat van
        • (mivel ha ezt derivalom akkor kapom meg a surusegfuggvenyt, pdf-t)
    • olyan mintha 95. felett es a 80. alatt teljesen jol illeszkedne, de van egy dusulas a 80% es 95% kozott, ahol nagyon mas
      • normal eloszlas ezt sosem fogja elkapni, foleg azert mert kezzel is ilyet rajzolnek ra, az adatok tobbsegere ez fog illeszkedni
    • de kozben meg nagyon fontos informacio hogy a 80. es 95. percentilis kozott milyen eloszlasban vannak az adatok, mert lasd a rajzon
      • ez csak sejtes, szamok nagyon hasrautott tippek
  • ez az abra alatamasztja amit probaltam lerajzolni (azert nincsen 31x kulonbseg, de akkor is)
    • minden pont egy genotipus (szimplak, duplak, inert)
    • x tengelyen az van hogy az adatok hany szazaleka van az 1e3-1e4 intervallumon (valos adatok, itt most nincs illesztes!)
    • y tengelyen az van hogy az adatok hany szazaleka van az 1e4-1e6 intevallumon (valos adatok, itt most nincs illesztes!)
    • a pontok merete a hiba nagysagat mutatja
    • azok vannak kekkel (True), amiknel rossz az illesztes (adott vagasnal nagyobb a hiba)
      • tehat a bal felso sarokban azok vannak, akiknek alapbol kevesebb van a kisebb mereteknel, de sokkal tobb a nagyobb meretnel
      • az algoritmus ezt nem tudja kezelni, ennel tortenik az amit lerajzoltam
    • a tobbi van pirossal
    • !!!! nekem elsore fel se tunt a jobb felso sarokban az az egyeduli kek potty (mert oda rakta eloszor a legendet a python...)
      • annal is rossz az illesztes, de nem az a tipus amit a tobbinel latunk
      • hat ez az Rb1-p53 amit meg tulsagosan felulbecsultunk!!
        • fura az eloszlasa az eredeti adatoknak, ezert nem tudjuk jol becsulni
    • tehat ez az abra mindket fura viselkedest magyarazza
  • ha hozzaadom az abrahoz azt hogy az illeszteseknek (tokeletes normal eloszlasok) hogyan nez ki ez az aranya akkor...
    • tehat lesznek uj (zold) pontok, annyi ahany genotipus van
    • illesztek a genotipusra, adott parameterekkel kiszamolom szimulalt adatokon hogy mennyi van az a-b es a b-c intervallumon (aranykent)
    • ha ezeket rarakom az abrara akkor:
  • latjuk hogy abban a nagy bolyban vannak a normal eloszlasok
    • van egy pont jobb felul megint, aminek nagyon mas az eloszlasa -> ez az Rb1-p53 illesztettje, itt is latjuk hogy ez teljesen elkulonul a tobbitol
  • (B)
    • teljesen masmilyen eloszlas, egyikre sem hasonlit
    • ez az Rb1-p53
    • ha megnezzuk, 40. es 90. percentilis kozott, ennek a legnagyobb a merete
    • a scatterplotokon mar lattuk hogy tenyleg furan viselkedik, 
    • hasonlo abraval mint az elobb, itt is latjuk hogy logikus amit latunk
    • de ezt miert nem tudja elkapni az illesztes?
      • ennek nincs fura alakja mint a (C) csoportban levoknek (erre kezzel tudnek valamit rajzolni)
      • erre sokkal jobban illeszkedik a lognormal eloszlas, tehat a growth rate normal eloszlasu
      • attol hogy "sima" az alakja, nem lesz normal eloszlas -> sokkal meredekebb a "cdf" plotja, lehet ezt nem tudja leirni egy normal eloszlas
      • de amugy meg a zold pottyos abran latszodik hogy valamennyire el tudjuk kapni, sokkal kozelebb vagyunk hozza mint a (C) esetnel
      • ugy nez ki, mintha nagyon bele lennenk zoomolva, tehat csak nagyon keveset latunk belole
        • --> ezt valamiert a DT normal nem talalja meg, de a GR igen, ezert illeszkedik jobban
        • probaltam kezzel valtoztatni a parametereken (mean, sd), de valahogyan tenyleg nem lehet a DT normallal leirni ezt



osszefoglalas

  • nehany illesztesnel nagy a hiba
  • ezeknek masmilyen az eloszlasa, elkulonulnek
  • hasonlitsuk ossze az eloszlasokat az eredeti adatokon, ugy hogy:
    • megnezzuk hogy az adatok hany szazaleka van a es b kozott
    • megnezzuk hogy az adatok hany szazaleka van b es c kozott
    • ezt a ket meroszamot abrazoljuk
    • legend
      • meret -> mekkora a hiba
      • kek/piros -> nagy hiba/alacsony hiba (csak egy vagas alapjan)
      • zold -> illesztett eloszlasokbol szamolt meroszamok -> tehat ezek tokeletes normal eloszlasbol jonnek
      • azaz
        • kekek teljesen kulon egy csoportban, zold ott nincsen
        • rb1-p53 egyedul jobb felul, de ahhoz kozeledik az illesztett zold









Megjegyzések

Népszerű bejegyzések ezen a blogon

steepness, hill - different parameters

alak leirasa, normal eloszlas p ertekkel, egyebek