Miert nem illeszkedik minden genotipus?

alapproblema

felhasznalva az illesztest, szamolunk minden genotipushoz atlagtumormeret erteket (sulyozott integralos algoritmus)
ha megnezzuk hogy mi lenne a vart a duplaknal, akkor azt latjuk hogy nagyon keves (pontosan 1, az Rb1_p53) jon ki pozitiv interakcionak (ez szignifikans is amugy)

mitol lehet?

nezzuk meg melyek azok a genotipusok amik mas meroszamokkal erosek

ezeket az illesztesunk "alulbecsuli" (kisebb erteket mond adott percentilishez - foleg a magas percentiliseknel)
--> Rb1_p53-nel pont forditva van, annal felulbecsuli az algoritmus, emiatt lesz ennyire eros

mit akarunk ezzel kezdeni?

opcio

ugy modositani az algoritmust hogy megkapjuk pozitivnak azokat amikrol tudjuk hogy azok -> nem ez a cel
az alul- es felulbecsulest valahogyan megprobalhatjuk kezelni, de ne az legyen a cel, hogy olyan sulyozast vagy hibafuggvenyt keressunk amivel mukodni fog

opcio

megerteni hogy miert becsuli alul vagy felul

tervek es ahhoz otletek (ha gyorsan lehetett checkolni akkor ott van mar a valasz is)

alul- es felulbecsulest kezelese -> ha van ra valami egyszeru mod, nem az a lenyeg hogy megkapjuk erosnek az eroseket, hanem hogy ne legyen ez a gond

bootstrappelni az egereket es ugy illeszteni, mindig felulbecsuli?
keves egeren mulik? ha kihagyjuk azokat akkor mukodik?

van egy fura eger, de nem valtoztat semmit

normalizalni egerenekent, azonos vagasokkal valtozik az alak?

nehany nagyon nagy tumor huzza el az illesztest?

megerteni hogy miert becsuli alul

megerteni hogy miert becsuli alul
alapbol "fura" az alak, sok mutansra mukodik, ezekre miert nem?
fugg az egerektol? mindegyikben fura? vagy csak nehanyban?
az is informacio lenne hogy vannak olyanok amikre nem illeszkedik az alak
lognormal eloszlas jobban illeszkedik ezekre? (growth rate normal)

osszessegeben nem, Rb1_p53-re viszont igen!

(ez a ketto valamennyire osszefugg, nem fuggetlen vizsgalodas a ketto)

jegyzetek, haladas

a rosszul illeszkedo genotipusok csak olyanok ahol a real es az expected parametric mean is a legmagasabbak kozott van (es nincs olyan magas fitnessu genotipus amire jol illeszkedne)
van egy olyan eger aminek teljesen mas az eloszlasa (sokkal nagyobbak a tumorok)

ha csak ezt kihagyjuk nem tortenik semmi
de ettol meg kicsit fura

keves van azokbol a genotipusbol (marmint adat) amikre rosszul illesztek -> de masbol is keves van, nem ezen mulik, nem fugg ossze a ketto
teljesen fuggetlen de akar fontos is lehet

ha azt mondom hogy ne legyen a mereteknel minimum cutoff -> az Lkb1-ra azt mondja az algoritmus, hogy szerinte az adatok ~80%-at latja

ilyenkor a cutoff nehany egerben 50, nehanynal 70, van olyan amelyiknel 100

de ha azt mondom hogy legyen 100 akkor -> akkor azt mondja hogy az adatoknak csak a 4%-at latja
tehat azon az 50 hosszu reszen van az adatok 76%-a, ez nyilvan brutalis es nem igaz, igazabol az adatok 30%-a van ott
SOT

ha a minimum cutoff 88 -> kb 40%-ot lat
ha a minimum cutoff 93 -> kb 3%-ot lat

(szoval 5 hosszu reszen van 37%, valojaban 0)
ha kivesszuk azt az egeret amelyiknek a cutoffja 100, akkor kicsit mas a helyzet, de meg mindig lesz egy nagy ugras

ez nagyon fura es nem annyira jo ha az algoritmus ennyire instabil, de ez magyarazhato azzal, hogy az adat nem normalis eloszlasu
ezt az instabilitast teszteltem mas genotipusokra es nehany teljesen stabil, nehany kevesbe

pl a Keap1 nagyon jol illeszkedik de az is instabil
pl a Apc_Rasa1 nagyon jol illeszkedik, de egeszen stabil
-->> instabilabb a rosszul illeszkedoeknel, de ezzel nem szetvalaszthatoak

nagyon erosen osszefugg az error azzal hogy az algoritmus mit tippel arra, hogy az adatnak mekkora resze hianyzik

sok (15-30%) hianyzik ~ magas a hiba
itt ugy illesztek hogy kihagyom azt az egeret aminek magas a cutoffja, es amugy nincsen cutoffom

nem szamit hogy normalizalunk-e egerenkent, nem segit ezen

talan fontos resz

olyan plot amin megneztem hogy adott merethez milyen percentilis tartozik (valasztok sok pontot a legkisebb es legnagyobb meret kozott, mindegyik genotipusra megnezem az osszes pontnal hogy az a meret hanyadik percentilis lenne; tehat olyan plotot kapok aminek az x tengelyen a meret van, y tengelyen az hogy hanyadik percentilishez tartozik ~ cdf plot valos adatokra)

harom csoport

(A) - szurke - sok eloszlas nagyon hasonlo, egy adagban vannak
(B) - zold - van egy nagyon fura, ami teljesen kulon van
(C) - piros - van sok hasonloan fura, amik egeszen egyutt vannak, de elkulonitve az elso csoporttol

(C) - (ez ezen az abran is latszodnak a dolgok amikrol irni fogok, de ha kulon-kulon abrazolom akkor konnyebb latni, nem akarok ide berakni sok kepet)

nem szepen lassan kisimul hanem egyszercsak elvagodik
10^3-nal lapos lesz, de aztan 10^4 es 10^5 kozott nagyon meredek

ha meredek a plot, akkor az azt jelenti hogy annal a meretnel sok adat van

(mivel ha ezt derivalom akkor kapom meg a surusegfuggvenyt, pdf-t)

olyan mintha 95. felett es a 80. alatt teljesen jol illeszkedne, de van egy dusulas a 80% es 95% kozott, ahol nagyon mas

normal eloszlas ezt sosem fogja elkapni, foleg azert mert kezzel is ilyet rajzolnek ra, az adatok tobbsegere ez fog illeszkedni

de kozben meg nagyon fontos informacio hogy a 80. es 95. percentilis kozott milyen eloszlasban vannak az adatok, mert lasd a rajzon

ez csak sejtes, szamok nagyon hasrautott tippek

ez az abra alatamasztja amit probaltam lerajzolni (azert nincsen 31x kulonbseg, de akkor is)

minden pont egy genotipus (szimplak, duplak, inert)
x tengelyen az van hogy az adatok hany szazaleka van az 1e3-1e4 intervallumon (valos adatok, itt most nincs illesztes!)
y tengelyen az van hogy az adatok hany szazaleka van az 1e4-1e6 intevallumon (valos adatok, itt most nincs illesztes!)
a pontok merete a hiba nagysagat mutatja
azok vannak kekkel (True), amiknel rossz az illesztes (adott vagasnal nagyobb a hiba)

tehat a bal felso sarokban azok vannak, akiknek alapbol kevesebb van a kisebb mereteknel, de sokkal tobb a nagyobb meretnel
az algoritmus ezt nem tudja kezelni, ennel tortenik az amit lerajzoltam

a tobbi van pirossal
!!!! nekem elsore fel se tunt a jobb felso sarokban az az egyeduli kek potty (mert oda rakta eloszor a legendet a python...)

annal is rossz az illesztes, de nem az a tipus amit a tobbinel latunk
hat ez az Rb1-p53 amit meg tulsagosan felulbecsultunk!!

fura az eloszlasa az eredeti adatoknak, ezert nem tudjuk jol becsulni

tehat ez az abra mindket fura viselkedest magyarazza

ha hozzaadom az abrahoz azt hogy az illeszteseknek (tokeletes normal eloszlasok) hogyan nez ki ez az aranya akkor...

tehat lesznek uj (zold) pontok, annyi ahany genotipus van
illesztek a genotipusra, adott parameterekkel kiszamolom szimulalt adatokon hogy mennyi van az a-b es a b-c intervallumon (aranykent)
ha ezeket rarakom az abrara akkor:

latjuk hogy abban a nagy bolyban vannak a normal eloszlasok

van egy pont jobb felul megint, aminek nagyon mas az eloszlasa -> ez az Rb1-p53 illesztettje, itt is latjuk hogy ez teljesen elkulonul a tobbitol

teljesen masmilyen eloszlas, egyikre sem hasonlit
ez az Rb1-p53
ha megnezzuk, 40. es 90. percentilis kozott, ennek a legnagyobb a merete
a scatterplotokon mar lattuk hogy tenyleg furan viselkedik,
hasonlo abraval mint az elobb, itt is latjuk hogy logikus amit latunk
de ezt miert nem tudja elkapni az illesztes?

ennek nincs fura alakja mint a (C) csoportban levoknek (erre kezzel tudnek valamit rajzolni)
erre sokkal jobban illeszkedik a lognormal eloszlas, tehat a growth rate normal eloszlasu
attol hogy "sima" az alakja, nem lesz normal eloszlas -> sokkal meredekebb a "cdf" plotja, lehet ezt nem tudja leirni egy normal eloszlas
de amugy meg a zold pottyos abran latszodik hogy valamennyire el tudjuk kapni, sokkal kozelebb vagyunk hozza mint a (C) esetnel
ugy nez ki, mintha nagyon bele lennenk zoomolva, tehat csak nagyon keveset latunk belole

--> ezt valamiert a DT normal nem talalja meg, de a GR igen, ezert illeszkedik jobban
probaltam kezzel valtoztatni a parametereken (mean, sd), de valahogyan tenyleg nem lehet a DT normallal leirni ezt

osszefoglalas

nehany illesztesnel nagy a hiba

ezeknek masmilyen az eloszlasa, elkulonulnek

hasonlitsuk ossze az eloszlasokat az eredeti adatokon, ugy hogy:

megnezzuk hogy az adatok hany szazaleka van a es b kozott
megnezzuk hogy az adatok hany szazaleka van b es c kozott
ezt a ket meroszamot abrazoljuk

legend

meret -> mekkora a hiba
kek/piros -> nagy hiba/alacsony hiba (csak egy vagas alapjan)
zold -> illesztett eloszlasokbol szamolt meroszamok -> tehat ezek tokeletes normal eloszlasbol jonnek
azaz

kekek teljesen kulon egy csoportban, zold ott nincsen
rb1-p53 egyedul jobb felul, de ahhoz kozeledik az illesztett zold

Keresés ebben a blogban

modelling tumor growth - dual guides

Miert nem illeszkedik minden genotipus?

Megjegyzések

Megjegyzés küldése

Népszerű bejegyzések ezen a blogon

alak leirasa, normal eloszlas p ertekkel, egyebek

steepness, hill - different parameters