tn effect korrigalasa az eloszlassal
- feladat
- tumor number effect korrigalasa az eloszlassal
- amit latunk: A genotipusbol van 8000 tumor, B genotipusbol van 2000 tumor - de ezek valojaban csak az 50-nel nagyobb tumorok
- emiatt ez a meroszam nem feltetlenul a tumor numbert jelenti
- de ha van illesztett eloszlasunk, lathatjuk hogy A genotipusnak a 80%-at latjuk, a B genotipusnak meg csak a 20%-at
- korrigalhatjuk a tumor numbert -> A is 10000 es B is 10000
- ekkor azt gondolhatjuk hogy nincs is tumor number effect
- "problema"
- ha elvegezzuk a korrekciot, azt latjuk hogy nincs nagy valtozas, nem tunik el az effect
- mibol jon a problema?
- nagyon kulonbozo range-e van az illesztes altal szamolt szazaleknak es a latott darabszamoknak (akkor is ha valahogyan normalunk a KT-val)
- tehat: 70% - 96% es 500-3500
- de kozben meg nagyon eros a korrelacio a ketto kozott
- miert problema?
- ha eros a korrelacio -> miert nem hasonlo a range?
- nem hasonlo a range -> miert korrelalnak?
- van valami harmadik valtozo?
- otletek:
- GR - DT helyett
- ha GR-re illesztek normal eloszlast akkor nem latjuk ezt, eltunik a tn effect, jo a range is
- tehat nem az algoritmussal van gond?
- adatokban valami fura?
- megneztem egerenkent kulon az also cutoffot, mediant, darabszamot
- van nehany kicsit fura adat
- ha igy-ugy szurok akkor talan javul, de nem annyira egyertelmu (ertsd: nem ertunk meg mindent attol hogy egy egeret kiveszek)
- kulon egerenkent - genotipusonkent nem lehetne illeszteni, tul keves az adat
- mennyire mulik az also cutoffon ez?
- ha emelem az also cutoffot akkor emelkedik a hianyzo resz is, a DT nem eri utol hirtelen a GR-t, semmi kulonos
- mennyire robuszt az egesz az also cutoff emelesere
- tokeletes eloszlast feltetelezunk
- DT eloszlas DT illesztes
- nagyon szepen becsuljuk
- GR eloszlas GR illesztes
- nagyon szepen becsuljuk
- GR eloszlas DT illesztes
- novekszik, de sokkal lassabban?
- hasonlo mint az eredeti adatoknal, de az tudjuk hogy nem GR az eredeti eloszlas, hiszen mar a DT is jobban illeszkedik
- DT eloszlas GR illesztes
- nagyon rossz, rosszabb mint az eredeti adatokon
- 4., es 5., miatt azt gondolhatjuk hogy az eredeti eloszlas inkabb DT mint GR, de biztosan nem tokeletes a modell, mert akkor rosszabbul teljesit
- DT-re illesztek rogton
- eddigi hibafuggveny a mereten szamolja a hibat, lehet van benne valami bias?
- nincs, nem valtozik semmi
- GR es DT kdeplot/histplot
- ha kirajzoljuk nehany genotipus eloszlasat, latjuk hogy a hianyzo oldal sokkal hianyosabb GR-nel, mig DT-nel "nagyobb reszt latunk" (itt kiszamoltam az adott oldalak sd-jet, tenyleg azt kapjuk amit latunk)
- kozben eszrevehetjuk hogy a DT-nel a mediantol jobbra (tehat nagyobb dt, kisebb meret) van egy pup az eloszlasban, mintha ott feltorlodna egy kicsit
- ezt a normal eloszlas "nem tudja lekovetni", lehet ebbol jon a hiba?
- nem tudom hogyan johet belole es nem tudom hogyan lehetne ezt nezni, kovetkezo pontban ezt probaltam talan vizsgalni
- csak a median feletti (ha meret akkor feletti, ha dt akkor alatti) reszre illesztek
- sulyokkal ezt konnyu megoldani
- esetleg ha azt talalnank, hogy van valamilyen szisztematikus hiba (vagy legalabbis elteres), akkor az erdekes lenne
- nagyobb lesz a range, de nem sokkal

- hianyzo resz vs megmaradt resz
- ha azt neznenk hogy mennyi hianyzik akkor azt latnank hogy:
- 4% - 30%
- mig ha kiszamolnank hogy akkor mennyi tumor (db) hianyzik akkor:
- 150-200
- itt pont a forditottja van a range-nel
- oszinten ez nem tudom mit jelent, lehet csak annyit hogy van valami matek emogott amit nem ertek
Megjegyzések
Megjegyzés küldése