význam tabulek
popis tabulek, platné do 081002
acembly | 258618 řádků, formát tabulky i data z databáze ucsc, informace k jednotlivým proteinům z AceView |
acemblyPep | 210003 řádků, formát tabulky i data z databáze ucsc, názvy a sekvence jednotlivých proteinů |
acemblyPep_v2 |
210003 řádků, viz acemblyPep + přidán id_p jakou autoincrement |
allmd5 |
průnik tabulek ensTmp2, hsProt2Tmp2, KnownGeneTmp2 - md5 suma ke každé sekvenci proteinu, zjištění výskytu v databazích ncbi, ucsc, ensemble současně |
count_elm | 863458 řádek, počet jednotlivých elm motivů v jednom proteinů, řazeno dle id_mot |
count_tyr | 226541 řádek, to samé jako count_elm, jen pro tyrosinove motivy, zřejmě vyhledáno na hs_prot |
count_tyr_aceview |
741143 řádek, to samé, na setu proteinů z aceview |
count_tyr_ens | 323301 řádek, to samé, vyhledávano na setu proteinů z ensemblu |
count_tyr_ncbi |
230080 řádek, to samé, vyhledáno na novém setu z ncbi (hs_prot_v2) |
count_tyr_ucsc | 322693 řádek, to samé, vyhledávano na setu proteinů z ucsc |
delka2 | 34180 řádek, tabulka s gi a delkou proteinů ze setu hs_prot, získána naloadováním dat z txt vzniklém po proběhnutí programu na počítání délky |
delka_v2 |
37742 řádek, to samé, jen na hs_prot_v2 |
ensGene | 55906 řádek, formát tabulky i data z databáze ucsc, informace k jednotlivým proteinům z ensemblu |
ensPep | 46591 řádek, formát tabulky i data z databáze ucsc, názvy a sekvence jednotlivých proteinů |
ensPep_v2 | 46591 řádek, jako ensPep, ale přidáno id_p jako auto_increment pro rychlejší vyhledávání |
ensTmp |
46591 řádek, md5 sumy proteinů z ensemblu |
ensTmp2 |
41021 řádek, jako ensTmp ale kratší (proč?) |
ens_ncbi |
28654 řádek, provázání ens a NP přes md5 sumy jednotlivých proteinů |
hsProt2Tmp2 |
30552 řádek, md5 sumy hs protu |
hs_prot | 34180 řádek, informace k proteinům z ncbi, vyznačeny kontroly a delka poteinů |
hs_prot_v2 |
37742 řádek, nový ncbi proteom |
hs_prot_v2_seq |
37742, gi a sekvence proteinů z hs_prot_v2 |
hs_prot_v2_tmp |
37742 řádek, id_p a md5 sumy z hs_prot_v2 |
hs_prot_zaloha | 34180 řádek, záloha tabulky hs_prot |
id_data | 34180 řádek, webové odkazy pro každý protein z hs_prot na několik databází |
id_data_aceview | 209999 řádek, webové odkazy pro každý protein z acemblyPep na databázi ucsc |
id_data_ensemble | 46591 řádek, webové odkazy pro každý protein z ensPep na databázi ucsc |
id_data_ncbi |
37742 řádek, webové odkazy pro každý protein na databáze NCBI, Ensembl, UCSC, Swissprot, Uniprot |
id_data_ucsc | 45480 řádek, webové odkazy pro každý protein z ensPep na databázi ucsc |
jo_elm | 186472 řádek, uvodní tabulka ze které se dělal celkový join přidáváním sloupců, tady jsou jen id_p, ft_tm, ft_sig, id_mot a jeho cnt |
jo_elm2 | 186472 řádek, už hotová tabulka s vyhledanými elm motivy, nejsou odfiltrovány ty, které se nacházejí před TM doménou |
jo_elm2_bez_extracel | 100562 řádek, vyfiltrovány proteiny s extracel doménou |
jo_tyr | 53567 řádek, uvodní tabulka jako jo_elm, jen trochu jiné názvy sloupců |
jo_tyr_080604 | 2497 řádek, vysledky vyhledávání, jen pár sloupců ve výstupu (nevím podle jakých kritérií) |
jo_tyr_1 | 53567 řádek, nějaký výstup, všechny sloupce, ale neznámé datum i kritéria |
jo_tyr_pokus2 | 53567 řádek, kompletní výstup někdy z počátku května, jeho výsledky jsou platné tehdy aktuálnímu skorování |
jo_tyr_aceview_080616 |
12843 řádek, proteiny z aceview se signálním peptidem či 1x TM seřazené podle normované sumy z tyr motivů |
jo_tyr_ens_080616 |
3316 řádek, proteiny z ensemble se signálním peptidem či 1x TM seřazené podle normované sumy z tyr motivů |
jo_tyr_ens_d_080616 |
368649 řádek, ?? rozepsané jednotlivé motivy a jejich pozice |
jo_tyr_ncbi_080626 |
2635 řádek, proteiny odpovídající výběru seřazené podle normované sumy |
jo_tyr_ncbi_d_080626 |
270698 řádek, rozepsané jednotlivé motivy a jejich pozice |
jo_tyr_pokus2_bez_extracel | 26677 řádek, výstup filtrovaný na extracelulární domény, pokles řádek na polovinu (53tis -- 26tis) |
jo_tyr_ucsc_080616 | 3230 řádek, výstup z vyhledávání na ucsc, jelikož počítání trvalo delší dobu, udělali jsme ho jako tabulku |
jo_tyr_ucsc_d_080616 |
354925 řádků, rozepsané jednotlivé motivy v daných proteinech a jejich pozice |
knownGene | 56722 řádek, formát tabulky i data z databáze ucsc, informace k jednotlivým proteinům z ucsc |
knownGenePep | 45480 řádků, formát tabulky i data z databáze ucsc, názvy a sekvence jednotlivých proteinů |
knownGenePep_v2 | 45480 řádků, jako knownGenePep + přidaný id_p pro rychlejší vyhledávání |
knownGeneTmp |
45480 řádků, md5 sumy |
knownGeneTmp2 |
39941 řádků, md5 sumy |
knownToEnsembl |
50584 řádků, převod mezi ucsc a ens čísly |
knownToRefSeq |
47080 řádek, převod mezi ucsc a NM čísly |
motif_elm | 110 řádek, původní seznam motivů s elmu se skóre |
motif_elm_080528 | 110 řádek, seznam motivů z elmu se změněným skórováním (prozatím poslední platná verze) |
motif_elm_update | 110 řádekseznam motivů s elmu s druhým skórováním, nyní neplatné |
motif_pal |
dva motivy, nepoužívané |
motif_search_ITAM |
1751 řádek, vyhledané ITAMy z původního pokusu hledání |
motif_search_elm |
3620998 řádek, vyhledané elm motivy na hs_prot |
motif_search_pal |
jeden řádek, nepodstatná tabulka |
motif_search_tyr_080603 | 375624 řádek, vyhledané tyr motivy na hs_prot |
motif_search_tyr_aceview |
1062742 řádků, tyr motivy vyhledané na databázi aceview |
motif_search_tyr_ens |
557893 řádků, vyhledání na ensemblu |
motif_search_tyr_ncbi |
404489 řádků na hs_prot_v2 |
motif_search_tyr_ucsc |
543619 řádků, vyhledáno na ucsc |
motif_tyr |
76 řádek, seznam tyr motivů, skore u všech motivů 5 |
motif_tyr_080603 |
72 motivů, upraveno skorování - max 20, min 1 |
motif_tyr_update |
76 řádek, skorování v rozmezí 1-5 |
phobius |
34180 řádek, ke každému proteinu z hs_prot vypsán počet ft, ft_tm, ft_sig |
phobius_aceview |
209999 řádek, ke každému proteinu vypsán počet ft, ft_tm, ft_sig |
phobius_aceview_ft |
446507 řádek, rozepsané domény nalezené při predikci phobiem |
phobius_ens |
46591 řádek, ke každému proteinu vypsán počet ft, ft_tm, ft_sig |
phobius_ens_ft |
157102 řádků, rozepsané domény |
phobius_ft |
109274 řádků, vypsány pozice o, TM, i pro všechny proteiny z hs_prot |
phobius_ft_080523 |
32062 řádek, vybrány z phobius_ft jen ty řádky, které jsou TRANSMEM nebo SIGNAL |
phobius_ft_080523_vyber | 8637 řádek, vybrány jen ty, které jsou jen jednou TM a nebo mají SIGNAL |
phobius_ft_080613_aceview |
97795 řádek, vybrány z phobius_aceview_ft jen ty řádky, které jsou TRANSMEM nebo SIGNAL |
phobius_ft_080613_aceview_vyber |
38373, vybrány jen ty, které jsou jen jednou TM a nebo mají SIGNAL |
phobius_ft_080613_ens |
47266 řádek, vybrány z phobius_ens_ft jen ty řádky, které jsou TRANSMEM nebo SIGNAL |
phobius_ft_080613_ens_vyber |
12567 řádek, vybrány jen ty, které jsou jen jednou TM a nebo mají SIGNAL |
phobius_ft_080613_ncbi |
34850 řádek, vybrány z phobius_ncbi_ft jen ty řádky, které jsou TRANSMEM nebo SIGNAL |
phobius_ft_080613_ncbi_vyber |
9562 řádek, vybrány jen ty, které jsou jen jednou TM a nebo mají SIGNAL |
phobius_ft_080613_ucsc |
45084 řádek, vybrány z phobius_ucsc_ft jen ty řádky, které jsou TRANSMEM nebo SIGNAL |
phobius_ft_080613_ucsc_vyber |
11852 řádek, vybrány jen ty, které jsou s jednou TM a nebo mají SIGNAL |
phobius_ncbi |
37742 řádek, predikce na hs_prot_v2, počty jednotlivých ft pro každý protein |
phobius_ncbi_ft |
119470 řádek, vypsány pozice jednotlivých domén |
phobius_ncbi_ft_wr |
?? jako phobius_ncbi_ft, přidán sloupec name, ale je prázdný |
phobius_ncbi_wr |
?? jako phobius_ncbi, přidán sloupec name, ale je prázdný |
phobius_ucsc |
45480 řádek, predikce na ucsc, počty jednotlivých ft pro každý protein |
phobius_ucsc_ft |
150608 řádek, vypsány pozice jednotlivých domén |
phobius_vyber |
7117 řádek, vybrány jen ty, které mají buď 3, 5 nebo 7 ft (tzn. mají jednu TM, jeden SIGNAL nebo kombinace obého) |
phobius_vyber_aceview |
35230 řádek, vybrány jen ty, které mají buď 3, 5 nebo 7 ft (tzn. mají jednu TM, jeden SIGNAL nebo kombinace obého) |
phobius_vyber_ens |
10403 řádek, vybrány jen ty, které mají buď 3, 5 nebo 7 ft (tzn. mají jednu TM, jeden SIGNAL nebo kombinace obého) |
phobius_vyber_ncbi |
7956 řádek, vybrány jen ty, které mají buď 3, 5 nebo 7 ft (tzn. mají jednu TM, jeden SIGNAL nebo kombinace obého) |
phobius_vyber_ucsc |
9808 řádek, vybrány jen ty, které mají buď 3, 5 nebo 7 ft (tzn. mají jednu TM, jeden SIGNAL nebo kombinace obého) |
prosite_mot |
prázdná tabulka připravená pro motivy z db PROSITE |
refGene |
26364 řádek, chromozomová pozice, identifikátorem je NM |
refLink |
232076 řádek, propojení názvu (?) s NM a NP čísly |
score_elm |
863458 řádek, počty jednotlivých elm motivů v jednotlivých proteinech a jejich skore |
score_elm_080528 |
863458 řádek, počty jednotlivých elm motivů v jednotlivých proteinech a jejich skore, nové skorování |
score_elm_cnt_motif |
34178 řádků, ke každému proteinu spočítaná suma ze všech elm motivů, které obsahuje |
score_tyr |
226541 řádek, počty jednotlivých tyr motivů v jednotlivých proteinech a jejich skore |
score_tyr_080613_aceview |
741143 řádek, počty jednotlivých tyr motivů v jednotlivých proteinech a jejich skore |
score_tyr_080613_ens |
323301 řádek, počty jednotlivých tyr motivů v jednotlivých proteinech a jejich skore |
score_tyr_080613_ncbi |
230080 řádek, počty jednotlivých tyr motivů v jednotlivých proteinech a jejich skore |
score_tyr_080613_ucsc |
322693 řádek, počty jednotlivých tyr motivů v jednotlivých proteinech a jejich skore |
score_tyr_cnt_motif |
28428 řádek, k id_p je přeřazena suma skore z tyr motivů, které se v něm vyskytují |
score_tyr_cnt_motif_update |
28428 řádek, k id_p je přeřazena suma skore z tyr motivů, které se v něm vyskytují, nové skorování |
score_tyr_update |
226541 řádek, počty jednotlivých tyr motivů v jednotlivých proteinech a jejich skore, upravené skorování |
skupiny |
34180 řádek, výskyt pojmenování extracelulárních domén v názvech jednotlivých proteinů |
smart_domain |
21671 řádek, nalezené domény na proteinech z hs_prot |
smart_domain_aceview | 59940 řádek, nalezené domény v proteinech z aceview |
smart_domain_aceview_d |
115146, vyhledané domény včetně pozic na proteinech |
smart_domain_d |
51201 řádek, vyhledané domény včetně pozic na proteinech |
smart_domain_ens |
33318 řádek, nalezené domény v proteinech z ensemblu |
smart_domain_ens_d |
78121 řádek, vyhledané domény včetně pozic na proteinech |
smart_domain_extracel |
8193 řádek, nalezené extracelulární domény na hs_prot |
smart_domain_extracel_080604 |
6009 řádek, (proč?) |
smart_domain_extracel_080613_aceview |
15290 řádek, nalezené extracelulární domény |
smart_domain_extracel_080613_ens |
9557 řádek, nalezené extracelulární domény |
smart_domain_extracel_080613_ncbi |
6101 řádek, nalezené extracelulární domény |
smart_domain_extracel_080613_ucsc |
8747 řádek, nalezené extracelulární domény |
smart_domain_extracel_d_080604 |
18316 řádek, nalezené extracelulární domény včetně pozic na proteinu |
smart_domain_extracel_d_080613_aceview |
36456 řádek, nalezené extracelulární domény včetně pozic na proteinu |
smart_domain_extracel_d_080613_ens |
28247 řádek, nalezené extracelulární domény včetně pozic na proteinu |
smart_domain_extracel_d_080613_ncbi |
18760 řádek, nalezené extracelulární domény včetně pozic na proteinu |
smart_domain_extracel_d_080613_ucsc |
25481 řádek, nalezené extracelulární domény včetně pozic na proteinu |
smart_domain_name |
234 řádek, převod mezi názvy modelů a názvy domén |
smart_domain_ncbi |
22132 řádek, nalezené domény v proteinech z hs_prot_v2 |
smart_domain_ncbi_d |
53761 řádek, nalezené domény včetně pozic na proteinech |
smart_domain_puv |
27376 řádek, odkud?? |
smart_domain_ucsc |
32731 řádek, nalezené domény v proteinech z ucsc |
smart_domain_ucsc_d |
75915 řádek, nalezené domény včetně pozic na proteinech |
sum_elm_080528 |
34178 řádek, pro každý id_p je zde celková suma hodnot skore motivů |
sum_tyr_080603 |
28428 řádek, suma a normovana suma jednotlivych proteinů |
sum_tyr_080613_aceview |
144349 řádek, jméno, suma a normovaná suma jednotlivých proteinů |
sum_tyr_080613_ens |
41094 řádek, jméno, suma a normovaná suma jednotlivých proteinů |
sum_tyr_080613_ncbi |
30635 řádek, suma a normovaná suma jednotlivých proteinů |
sum_tyr_080613_ucsc |
41195 řádek, jméno, suma a normovaná suma jednotlivých proteinů |
tmhmm |
34180 řádek, výsledky z tmhmm na setu hs_prot, k jednomu proteinu zapsán počet ft |
tmhmm_ft |
84196 řádek, rozepsané i, TM a o s pozicemi a pst |
ucsc_ens | 36584 řádek, přiřazení ucsc a ens čísel, ještě je zde sekvence a počet ak |
ucsc_ncbi | 31740 řádek, přiřazení ucsc a NP čísel + sekvence a počet ak |
úpravy