alak leirasa, normal eloszlas p ertekkel, egyebek

  • alak leirasa, hibafv, normal eloszlashoz p ertek
    •  cel:
      • ne csak szemmel lassuk, hogy rossz az illesztes, valahogyan jo lenne ket dolog
        • egyik
          • objektiven latni hogy rossz egy illesztes
            • ehhez az kell hogy a hibak osszehasonlithatoak legyenek kulonbozo adatokra (most is azok? nem!)
        • masik
          • egy meroszam arra, hogy tenyleg "olyan" alaku az eloszlas
            • ez nehez, szerintem nagyon bonyolult ezt okosan megcsinalni, mindig egyszerubb lesz azt csinalni hogy:
              • megnezzuk mik a rosszak
              • kirajzoljuk azoknak az alakjat
    • hibafv normalizalasa
      • kesz, le kell osztani az atlagmeret logaritmusaval (tesztelve, matematikailag is kb bizonyitva)
    • objektiven latni hogy rossz egy illesztes
      • tegyuk fel hogy az illesztes sose romlik el
        • ez nyilvan nem igaz, de azert azt latjuk hogy legtobbszor tenyleg nagyon jol mukodik, ha jo az adat akkor megtalalja az optimalisat
      • ekkor eleg azt nezni hogy normal eloszlasuak-e az ertekeink: valamilyen p ertek vagy valoszinuseg
    • ket otlet
      • elso: illesztesek hibaja
        • illesztjuk az adatunkat, annak a parametereivel csinalunk normaleloszlasu adatokat, szurjuk az eredeti merettartomannyal
        • ezekre az adatokra ujra illesztunk, megnezzuk mekkora ez a hiba
          • ha nagyobb a hiba akkor gondolhatjuk hogy az eredetink is eleg jo
          • ha kisebb akkor nem normaleloszlas
        • ezt megcsinaljuk sokszor, lesz egy "p ertekunk"
          • (ez itt egy kicsit zavaros, egy tokeletes normal eloszlasnak is 0.5 lenne a p erteke ezzel)
        • azt latjuk hogy nagyon kevesnek lesz kicsi a p erteke
          • rakjunk egy kis zajt az adatokra
            • mennyit?
            • valtoztassuk hogy mennyit rakunk ra, nezzuk meg melyik genotipusnal milyen zajra lesz mar jobb mint az eredeti
            • es akkor ez lesz a meroszam, nem az eredeti p ertek es akkor nem akkora gond az hogy tokeletesre is 0.5-t kapunk
        • *abra* ami mutatja a "drop"-ot p ertekekben
        • *abra* ami mutatja a zajt ahol mar 0.5 alatt van a "p-ertek"


        • *abra* ami mutatja a drop es az error kozti osszefuggest
      • masodik: hasznalni mas algoritmust (mar elore megirt normaleloszlas tesztelo algoritmusok)
        • teljes tartomany kellene
        • csinaljunk teljes tartomanyt!
          • illesztjuk, szimulalunk, vesszuk a "hianyzo" reszt a szimulaltbol es hozzarakjuk
        • mindegyikre nagyon rossz ertekeket kapunk
        • nagyon sok mulik az ujrasizmulalason
          • itt is lehetne sokszor ujracsinalni az egeszet, de nem adna tobbet mint a masik
  • otlet hibafv-hez
    • legyen egy kis turese a hibafv-nek
      • ha a hiba pl 10%-nal kisebb, akkor ne szamitson
      • hatha igy nehany rossz illesztesnel jobban az alakot fogja meg
    • mas illesztest kapunk, de nem mondanam hogy jobbat
    • el lehet ezen picit gondolkodni
  • valami egyszer jol illeszkedik egyszer rosszul
    • meg egyszer osszeszedve:
      • setd2-dualguide (jo) vs setd2-hongchen (rossz)
      • pten-dualguide (jo) vs pten-hongchen (rossz)
      • nf1-dualguide (jo) vs nf1-hongchen (rossz)
      • p53-lkb1-dualguide (rossz) vs kptc-lkb1-rogers (jo) (kltc-p53 rogersben is rossz)
      • p53-rb1-dualguide (rossz) vs kptc-rb1-rogers (jo)
    • fontos megjegyezni hogy ez fuggetlen az illesztol, szemmel latjuk az alakbeli kulonbsegeket
    • milyen valaszt varunk?
      • nem az egyes genotipusoknak a mereteit kell vizsgalni, mert latjuk hogy azok masok
      • az a kerdes, hogy miert mas?
      • minden genotipus mas azokban az adatokban?
    • illesztesek:
      • sokkal kisebb a range-e az sdnek meg a meannek a hongchenes adatokban
      • pont forditva tartanam logikusnak: dualguidenal kisebb a range - valamiert - emiatt nem tudja leirni annyira jol az eloszlasokat emiatt nagy lesz a hiba
        • mas kerdes hogy mi lehet a valamiert, meg itt latjuk hogy nem az illesztesnel van gond/furasag, mert latjuk hogy a nyers adatoknal van a problema
    • tokre mas eloszlasa van a mereteknek, akar a pdf akar a cdf (ha van mellette control akkor foleg latszodik)
      • (lehet teljes hulyeseg, de:)
      • mintha a hongchenes adatokban egyre jobban feltoltodne az eloszlas, azaz ha gyorsabban nonek a tumorok, vagy tovabb tart a kiserlet akkor a "felso korlat" nem valtozik, hanem inkabb az hogy a merettartomany felso x szazalekaban egyre tobb tumor lesz
      • ez olyan mintha azt mondanam, es ezert tartom picit hulyesegnek, hogy nem lehet 100 sejtes tumor de ket 50es lehet
      • masik dolog
        • alapbol fura volt, hogy a dualguideos adatokban az inertnek alacsony a max tumormerete, 23 ezer
        • hongchennel 326 ezer, lehet, hogy bezavar valahogy a koinfekcio?
        • a setd2, pten, nf1 nem annyira eros hogy koinfekcio nelkul erosnek lassuk (dualguide, normalis az illesztes), de ha van koinfekcio akkor letezik olyan parositas amitol fura lesz? az inert alacsony maximuma mutathatja hogy a dualguideban kevesebb koinfekcio van?
    • valamilyen biologiai valasz esetleg?
      • dualguideban kthc vagy, hongchen ktc
        • lehet ez?
      • rogersnel kptc-ket nezunk, lehet nem annyira eros interakciok mintha dualguide-al neznenk?

Megjegyzések

Népszerű bejegyzések ezen a blogon

steepness, hill - different parameters

Miert nem illeszkedik minden genotipus?