Miert nem illeszkedik minden genotipus?
- alapproblema
- felhasznalva az illesztest, szamolunk minden genotipushoz atlagtumormeret erteket (sulyozott integralos algoritmus)
- ha megnezzuk hogy mi lenne a vart a duplaknal, akkor azt latjuk hogy nagyon keves (pontosan 1, az Rb1_p53) jon ki pozitiv interakcionak (ez szignifikans is amugy)
- mitol lehet?
- nezzuk meg melyek azok a genotipusok amik mas meroszamokkal erosek
- ezeket az illesztesunk "alulbecsuli" (kisebb erteket mond adott percentilishez - foleg a magas percentiliseknel)
- --> Rb1_p53-nel pont forditva van, annal felulbecsuli az algoritmus, emiatt lesz ennyire eros
- mit akarunk ezzel kezdeni?
- opcio
- ugy modositani az algoritmust hogy megkapjuk pozitivnak azokat amikrol tudjuk hogy azok -> nem ez a cel
- az alul- es felulbecsulest valahogyan megprobalhatjuk kezelni, de ne az legyen a cel, hogy olyan sulyozast vagy hibafuggvenyt keressunk amivel mukodni fog
- opcio
- megerteni hogy miert becsuli alul vagy felul
- tervek es ahhoz otletek (ha gyorsan lehetett checkolni akkor ott van mar a valasz is)
- alul- es felulbecsulest kezelese -> ha van ra valami egyszeru mod, nem az a lenyeg hogy megkapjuk erosnek az eroseket, hanem hogy ne legyen ez a gond
- bootstrappelni az egereket es ugy illeszteni, mindig felulbecsuli?
- keves egeren mulik? ha kihagyjuk azokat akkor mukodik?
- van egy fura eger, de nem valtoztat semmit
- normalizalni egerenekent, azonos vagasokkal valtozik az alak?
- nem
- nehany nagyon nagy tumor huzza el az illesztest?
- nem
- megerteni hogy miert becsuli alul
- megerteni hogy miert becsuli alul
- alapbol "fura" az alak, sok mutansra mukodik, ezekre miert nem?
- fugg az egerektol? mindegyikben fura? vagy csak nehanyban?
- az is informacio lenne hogy vannak olyanok amikre nem illeszkedik az alak
- lognormal eloszlas jobban illeszkedik ezekre? (growth rate normal)
- osszessegeben nem, Rb1_p53-re viszont igen!
- (ez a ketto valamennyire osszefugg, nem fuggetlen vizsgalodas a ketto)
jegyzetek, haladas
- a rosszul illeszkedo genotipusok csak olyanok ahol a real es az expected parametric mean is a legmagasabbak kozott van (es nincs olyan magas fitnessu genotipus amire jol illeszkedne)
- van egy olyan eger aminek teljesen mas az eloszlasa (sokkal nagyobbak a tumorok)
- ha csak ezt kihagyjuk nem tortenik semmi
- de ettol meg kicsit fura
- keves van azokbol a genotipusbol (marmint adat) amikre rosszul illesztek -> de masbol is keves van, nem ezen mulik, nem fugg ossze a ketto
- teljesen fuggetlen de akar fontos is lehet
- ha azt mondom hogy ne legyen a mereteknel minimum cutoff -> az Lkb1-ra azt mondja az algoritmus, hogy szerinte az adatok ~80%-at latja
- ilyenkor a cutoff nehany egerben 50, nehanynal 70, van olyan amelyiknel 100
- de ha azt mondom hogy legyen 100 akkor -> akkor azt mondja hogy az adatoknak csak a 4%-at latja
- tehat azon az 50 hosszu reszen van az adatok 76%-a, ez nyilvan brutalis es nem igaz, igazabol az adatok 30%-a van ott
- SOT
- ha a minimum cutoff 88 -> kb 40%-ot lat
- ha a minimum cutoff 93 -> kb 3%-ot lat
- (szoval 5 hosszu reszen van 37%, valojaban 0)
- ha kivesszuk azt az egeret amelyiknek a cutoffja 100, akkor kicsit mas a helyzet, de meg mindig lesz egy nagy ugras
- ez nagyon fura es nem annyira jo ha az algoritmus ennyire instabil, de ez magyarazhato azzal, hogy az adat nem normalis eloszlasu
- ezt az instabilitast teszteltem mas genotipusokra es nehany teljesen stabil, nehany kevesbe
- pl a Keap1 nagyon jol illeszkedik de az is instabil
- pl a Apc_Rasa1 nagyon jol illeszkedik, de egeszen stabil
- -->> instabilabb a rosszul illeszkedoeknel, de ezzel nem szetvalaszthatoak
- nagyon erosen osszefugg az error azzal hogy az algoritmus mit tippel arra, hogy az adatnak mekkora resze hianyzik
- sok (15-30%) hianyzik ~ magas a hiba
- itt ugy illesztek hogy kihagyom azt az egeret aminek magas a cutoffja, es amugy nincsen cutoffom
- nem szamit hogy normalizalunk-e egerenkent, nem segit ezen
talan fontos resz
- olyan plot amin megneztem hogy adott merethez milyen percentilis tartozik (valasztok sok pontot a legkisebb es legnagyobb meret kozott, mindegyik genotipusra megnezem az osszes pontnal hogy az a meret hanyadik percentilis lenne; tehat olyan plotot kapok aminek az x tengelyen a meret van, y tengelyen az hogy hanyadik percentilishez tartozik ~ cdf plot valos adatokra)
- harom csoport
- (A) - szurke - sok eloszlas nagyon hasonlo, egy adagban vannak
- (B) - zold - van egy nagyon fura, ami teljesen kulon van
- (C) - piros - van sok hasonloan fura, amik egeszen egyutt vannak, de elkulonitve az elso csoporttol
- (C) - (ez ezen az abran is latszodnak a dolgok amikrol irni fogok, de ha kulon-kulon abrazolom akkor konnyebb latni, nem akarok ide berakni sok kepet)
- nem szepen lassan kisimul hanem egyszercsak elvagodik
- 10^3-nal lapos lesz, de aztan 10^4 es 10^5 kozott nagyon meredek
- ha meredek a plot, akkor az azt jelenti hogy annal a meretnel sok adat van
- (mivel ha ezt derivalom akkor kapom meg a surusegfuggvenyt, pdf-t)
- olyan mintha 95. felett es a 80. alatt teljesen jol illeszkedne, de van egy dusulas a 80% es 95% kozott, ahol nagyon mas
- normal eloszlas ezt sosem fogja elkapni, foleg azert mert kezzel is ilyet rajzolnek ra, az adatok tobbsegere ez fog illeszkedni
- de kozben meg nagyon fontos informacio hogy a 80. es 95. percentilis kozott milyen eloszlasban vannak az adatok, mert lasd a rajzon
- ez csak sejtes, szamok nagyon hasrautott tippek
- ez az abra alatamasztja amit probaltam lerajzolni (azert nincsen 31x kulonbseg, de akkor is)
- minden pont egy genotipus (szimplak, duplak, inert)
- x tengelyen az van hogy az adatok hany szazaleka van az 1e3-1e4 intervallumon (valos adatok, itt most nincs illesztes!)
- y tengelyen az van hogy az adatok hany szazaleka van az 1e4-1e6 intevallumon (valos adatok, itt most nincs illesztes!)
- a pontok merete a hiba nagysagat mutatja
- azok vannak kekkel (True), amiknel rossz az illesztes (adott vagasnal nagyobb a hiba)
- tehat a bal felso sarokban azok vannak, akiknek alapbol kevesebb van a kisebb mereteknel, de sokkal tobb a nagyobb meretnel
- az algoritmus ezt nem tudja kezelni, ennel tortenik az amit lerajzoltam
- a tobbi van pirossal
- !!!! nekem elsore fel se tunt a jobb felso sarokban az az egyeduli kek potty (mert oda rakta eloszor a legendet a python...)
- annal is rossz az illesztes, de nem az a tipus amit a tobbinel latunk
- hat ez az Rb1-p53 amit meg tulsagosan felulbecsultunk!!
- fura az eloszlasa az eredeti adatoknak, ezert nem tudjuk jol becsulni
- tehat ez az abra mindket fura viselkedest magyarazza
- ha hozzaadom az abrahoz azt hogy az illeszteseknek (tokeletes normal eloszlasok) hogyan nez ki ez az aranya akkor...
- tehat lesznek uj (zold) pontok, annyi ahany genotipus van
- illesztek a genotipusra, adott parameterekkel kiszamolom szimulalt adatokon hogy mennyi van az a-b es a b-c intervallumon (aranykent)
- ha ezeket rarakom az abrara akkor:
- latjuk hogy abban a nagy bolyban vannak a normal eloszlasok
- van egy pont jobb felul megint, aminek nagyon mas az eloszlasa -> ez az Rb1-p53 illesztettje, itt is latjuk hogy ez teljesen elkulonul a tobbitol
- (B)
- teljesen masmilyen eloszlas, egyikre sem hasonlit
- ez az Rb1-p53
- ha megnezzuk, 40. es 90. percentilis kozott, ennek a legnagyobb a merete
- a scatterplotokon mar lattuk hogy tenyleg furan viselkedik,
- hasonlo abraval mint az elobb, itt is latjuk hogy logikus amit latunk
- de ezt miert nem tudja elkapni az illesztes?
- ennek nincs fura alakja mint a (C) csoportban levoknek (erre kezzel tudnek valamit rajzolni)
- erre sokkal jobban illeszkedik a lognormal eloszlas, tehat a growth rate normal eloszlasu
- attol hogy "sima" az alakja, nem lesz normal eloszlas -> sokkal meredekebb a "cdf" plotja, lehet ezt nem tudja leirni egy normal eloszlas
- de amugy meg a zold pottyos abran latszodik hogy valamennyire el tudjuk kapni, sokkal kozelebb vagyunk hozza mint a (C) esetnel
- ugy nez ki, mintha nagyon bele lennenk zoomolva, tehat csak nagyon keveset latunk belole
- --> ezt valamiert a DT normal nem talalja meg, de a GR igen, ezert illeszkedik jobban
- probaltam kezzel valtoztatni a parametereken (mean, sd), de valahogyan tenyleg nem lehet a DT normallal leirni ezt
osszefoglalas
- legend
- meret -> mekkora a hiba
- kek/piros -> nagy hiba/alacsony hiba (csak egy vagas alapjan)
- zold -> illesztett eloszlasokbol szamolt meroszamok -> tehat ezek tokeletes normal eloszlasbol jonnek
- azaz
- kekek teljesen kulon egy csoportban, zold ott nincsen
- rb1-p53 egyedul jobb felul, de ahhoz kozeledik az illesztett zold
Megjegyzések
Megjegyzés küldése