alak leirasa, normal eloszlas p ertekkel, egyebek

alak leirasa, normal eloszlas p ertekkel, egyebek

május 03, 2024

alak leirasa, hibafv, normal eloszlashoz p ertek

cel:

ne csak szemmel lassuk, hogy rossz az illesztes, valahogyan jo lenne ket dolog

egyik

objektiven latni hogy rossz egy illesztes

ehhez az kell hogy a hibak osszehasonlithatoak legyenek kulonbozo adatokra (most is azok? nem!)

masik

egy meroszam arra, hogy tenyleg "olyan" alaku az eloszlas

ez nehez, szerintem nagyon bonyolult ezt okosan megcsinalni, mindig egyszerubb lesz azt csinalni hogy:

megnezzuk mik a rosszak
kirajzoljuk azoknak az alakjat

hibafv normalizalasa

kesz, le kell osztani az atlagmeret logaritmusaval (tesztelve, matematikailag is kb bizonyitva)

objektiven latni hogy rossz egy illesztes

tegyuk fel hogy az illesztes sose romlik el

ez nyilvan nem igaz, de azert azt latjuk hogy legtobbszor tenyleg nagyon jol mukodik, ha jo az adat akkor megtalalja az optimalisat

ekkor eleg azt nezni hogy normal eloszlasuak-e az ertekeink: valamilyen p ertek vagy valoszinuseg

ket otlet

elso: illesztesek hibaja

illesztjuk az adatunkat, annak a parametereivel csinalunk normaleloszlasu adatokat, szurjuk az eredeti merettartomannyal
ezekre az adatokra ujra illesztunk, megnezzuk mekkora ez a hiba

ha nagyobb a hiba akkor gondolhatjuk hogy az eredetink is eleg jo
ha kisebb akkor nem normaleloszlas

ezt megcsinaljuk sokszor, lesz egy "p ertekunk"

(ez itt egy kicsit zavaros, egy tokeletes normal eloszlasnak is 0.5 lenne a p erteke ezzel)

azt latjuk hogy nagyon kevesnek lesz kicsi a p erteke

rakjunk egy kis zajt az adatokra

mennyit?
valtoztassuk hogy mennyit rakunk ra, nezzuk meg melyik genotipusnal milyen zajra lesz mar jobb mint az eredeti
es akkor ez lesz a meroszam, nem az eredeti p ertek es akkor nem akkora gond az hogy tokeletesre is 0.5-t kapunk

*abra* ami mutatja a "drop"-ot p ertekekben
*abra* ami mutatja a zajt ahol mar 0.5 alatt van a "p-ertek"
*abra* ami mutatja a drop es az error kozti osszefuggest

masodik: hasznalni mas algoritmust (mar elore megirt normaleloszlas tesztelo algoritmusok)

teljes tartomany kellene
csinaljunk teljes tartomanyt!

illesztjuk, szimulalunk, vesszuk a "hianyzo" reszt a szimulaltbol es hozzarakjuk

mindegyikre nagyon rossz ertekeket kapunk
nagyon sok mulik az ujrasizmulalason

itt is lehetne sokszor ujracsinalni az egeszet, de nem adna tobbet mint a masik

otlet hibafv-hez

legyen egy kis turese a hibafv-nek

ha a hiba pl 10%-nal kisebb, akkor ne szamitson
hatha igy nehany rossz illesztesnel jobban az alakot fogja meg

mas illesztest kapunk, de nem mondanam hogy jobbat
el lehet ezen picit gondolkodni

valami egyszer jol illeszkedik egyszer rosszul

meg egyszer osszeszedve:

setd2-dualguide (jo) vs setd2-hongchen (rossz)
pten-dualguide (jo) vs pten-hongchen (rossz)
nf1-dualguide (jo) vs nf1-hongchen (rossz)
p53-lkb1-dualguide (rossz) vs kptc-lkb1-rogers (jo) (kltc-p53 rogersben is rossz)
p53-rb1-dualguide (rossz) vs kptc-rb1-rogers (jo)

fontos megjegyezni hogy ez fuggetlen az illesztol, szemmel latjuk az alakbeli kulonbsegeket
milyen valaszt varunk?

nem az egyes genotipusoknak a mereteit kell vizsgalni, mert latjuk hogy azok masok
az a kerdes, hogy miert mas?
minden genotipus mas azokban az adatokban?

illesztesek:

sokkal kisebb a range-e az sdnek meg a meannek a hongchenes adatokban
pont forditva tartanam logikusnak: dualguidenal kisebb a range - valamiert - emiatt nem tudja leirni annyira jol az eloszlasokat emiatt nagy lesz a hiba

mas kerdes hogy mi lehet a valamiert, meg itt latjuk hogy nem az illesztesnel van gond/furasag, mert latjuk hogy a nyers adatoknal van a problema

tokre mas eloszlasa van a mereteknek, akar a pdf akar a cdf (ha van mellette control akkor foleg latszodik)

(lehet teljes hulyeseg, de:)
mintha a hongchenes adatokban egyre jobban feltoltodne az eloszlas, azaz ha gyorsabban nonek a tumorok, vagy tovabb tart a kiserlet akkor a "felso korlat" nem valtozik, hanem inkabb az hogy a merettartomany felso x szazalekaban egyre tobb tumor lesz
ez olyan mintha azt mondanam, es ezert tartom picit hulyesegnek, hogy nem lehet 100 sejtes tumor de ket 50es lehet
masik dolog

alapbol fura volt, hogy a dualguideos adatokban az inertnek alacsony a max tumormerete, 23 ezer
hongchennel 326 ezer, lehet, hogy bezavar valahogy a koinfekcio?
a setd2, pten, nf1 nem annyira eros hogy koinfekcio nelkul erosnek lassuk (dualguide, normalis az illesztes), de ha van koinfekcio akkor letezik olyan parositas amitol fura lesz? az inert alacsony maximuma mutathatja hogy a dualguideban kevesebb koinfekcio van?

valamilyen biologiai valasz esetleg?

dualguideban kthc vagy, hongchen ktc

lehet ez?

rogersnel kptc-ket nezunk, lehet nem annyira eros interakciok mintha dualguide-al neznenk?

Megjegyzések