Wstępna charakterystyka bakteriofaga Serratia φOS10/Wyniki i dyskusja/Analiza bioinformatyczna/Analiza genomu bakteriofaga φOS10
Genom φOS10 miał długość 45 027 nt – wielkość ta jest typowa dla przedstawicieli rzędu Caudovirales, jednak wśród innych dotychczas zsekwencjonowanych bakteriofagów infekujących bakterie z rodzaju Serratia jest to długość stosunkowo niewielka: genomy zsekwencjonowanych bakteriofagów Serratia osiągają długości od 39 216 bp (bakteriofag 2050H2, Gene Bank MF285620.1) do 357 154 bp (bakteriofag BF, Gene Bank NC_041917.1), gdzie średnia długość genomu wynosiła 139 444 bp, a mediana 158 616 bp. Zestawienie wszystkich genomów bakteriofagów przedstawiono w Podrozdziale 1.7. Udział poszczególnych zasad azotowych w nici wiodącej zsekwencjonowanego genomu φOS10 przedstawiono w Tabeli 9.
Zasada | Zawartość [%] | Ilość [nt] |
A | 23,87% | 10750 |
T | 24,52% | 11040 |
G | 24,58% | 11068 |
C | 27,03% | 12169 |
% GC | 51,61% |
Zawartość par GC jest mniejsza niż w przypadku genomów bakterii z rodzaju Serratia, które do tej pory zsekwencjonowano np. w szczepie Serratia marcescens subsp. marcescens Db11 wynosi 59,5% [Iguchi i in., 2014]; w szczepie Serratia liquefaciens ATCC 27592 wynosi 55,3% [Nicholson i in., 2013]; zaś w szczepie Serratia proteamaculans 568 wynosi 54,9% [Grkovic i in., 1995]. Sekwencję genomu φOS10 przyrównano z użyciem narzędzia BLAST N do sekwencji genomów innych bakteriofagów infekujących Serratia. Wykryto podobieństwo sekwencji nukleotydowej bakteriofaga φOS10 jedynie do dwóch spośród 20 poznanych i zsekwencjonowanych wcześniej fagów Serratia (Rycina 18):
- do bakteriofaga Parlo (Gene Bank MK618715.1) w dwóch segmentach (o długości 381 nt, gdzie e = 2 * 10 - 133; oraz o długości 42 nt, gdzie e = 1 * 10 - 12), co stanowi w sumie 0,67% długości genomu bakteriofaga Parlo;
- do bakteriofaga η (Gene Bank NC_021563.1) w czterech segmentach (o długości 96 nt, gdzie e = 2 * 10 - 33; o długości 98 nt, gdzie e = 2 * 10 - 27; o długości 35 nt, gdzie e = 3 * 10 - 11 i o długości 32 nt, gdzie e = 1 * 10 - 9), co stanowi w sumie 0,61% długości genomu bakteriofaga η.
> Eta_1 NC_021563.1 (13351-13446) |
Sekwencje przedstawione na Rycinie 18 zbadano z użyciem narzędzia BLAST X, w wyniku czego udało się zadnotować jedynie sekwencje:
- Parlo_1, którą dopasowano do hipotetycznego białka bakteriofaga Parlo (e = 2 * 10 - 77) (Gene Bank QBQ72186.1);
- Eta_1, którą dopasowano do hipotetycznego białka S. marcescens (e = 8 * 10 - 11) (Gene Bank TQI84827.1);
- Eta_2, którą dopasowano do białka „restriction alleviation protein” z rodziny białek Lar, należącego do S. marcescens (e = 1 * 10 - 8) (Gene Bank WP_080431124.1). Białko to odpowiedzialne jest za modulację systemów restrykcji i modyfikacji [King & Murray, 1995].
We względu na niskie wartości pokrycia (0,67% dla bakteriofaga Parlo i 0,61% dla bakteriofaga η) nie można uznać tych bakteriofagów za spokrewnione z bakteriofagiem φOS10 – podobieństwo tych sekwencji jest najprawdopodobniej przypadkowe lub spowodowane nabyciem ich na drodze zdarzeń rekombinacyjnych. Powyższe wyniki wykluczają jakiekolwiek istotne podobieństwo genomu bakteriofaga φOS10 do innych dotychczasowo zsekwencjonowanych bakteriofagów Serratia oraz jakichkolwiek innych zsekwencjonowanych bakteriofagów, w związku z czym jest on unikatowy i stanowi ważny wkład w wiedzę o bakteriofagach Serratia. Genom φOS10 przeanalizowano z użyciem programu ARAGORN [Laslett i in., 2004] pod kątem obecności genów kodujących tRNA (Podrozdział 4.17.5), nie znaleziono w genomie sekwencji kodujących tRNA.
W genomie φOS10 zidentyfikowano 71 otwartych ramek odczytu (ORF) o wielkości co najmniej 50 nt. Najmniejszy z nich (ORF 14) ma długość 122 nt, a największy (ORF 45) ma długość 2381 nt. Średnia długość ORF wynosi około 583 nt. Zidentyfikowane ORFy stanowią 91,86% zsekwencjonowanego genomu. ORFy zawarte są zarówno na nici wiodącej i nici komplementarnej, z czego 43 ORFy znajdują się na nici wiodącej, a 28 ORFów znajduje się na nici komplementarnej. Adnotację genomu φOS10 wykonywano z wykorzystaniem programu Artemis, w którym możliwa jest wizualizacja ORFów (Rycina 19). Każdej ORF nadano numery porządkowe od 1 do 71.
Dla każdej ORF zaznaczonej w sekwencji nukleotydowej wygenerowano z pomocą programu Artemis sekwencje białek przez nie kodowanych, dla których następnie z użyciem programu BLAST P wyszukiwano w bazach UniProt oraz NCBI rekordów o największym pokryciu, największej identyczności sekwencji oraz najmniejszej „E-wartości” (Podrozdziały 1.6.3 i 4.17). Wyniki adnotacji zestawiono w Tabeli 10. Domniemany produkt białkowy jednej ze zidentyfikowanych ORF został zaadnotowany jako integraza, co stanowiło następną przesłankę do postawienia hipotezy, że bakteriofag φOS10 jest łagodny (pierwszą były mętne łysinki, Podrozdział 5.1). Innymi przypuszczalnymi produktami białkowymi ORFów były między innymi białko portalowe (ORF 68) i terminaza (ORF 70). Nie udało się dopasować do białek o znanych funkcjach domniemanych produktów białkowych 19 ORFów spośród 71 zidentyfikowanych (co stanowi około 27%). Rezultat ten jest satysfakcjonujący zważywszy na fakt, że w innych przypadkach odsetek ORFów o niezidentyfikowanej funkcji może wynosić 33% [Dziewit i in., 2014] lub nawet 60% [Santos i in., 2011]. Przy przewidywaniu funkcji białek fagowych bardzo pomocna jest lokalizacja kodujących je ORFów, gdyż genomy wirusów mają budowę modułową, jak wspomniano w podrozdziale. 1.3. W związku z tym położenie ORFu o nieznanej funkcji, w otoczeniu ORFów, którym przypisuje się określone funkcje, jest wskazówką co do prawdopodobnej funkcji jej produktu białkowego. Należy podkreślić, że funkcje przypisane produktom zidentyfikowanych ORFów są tylko przypuszczalne, potwierdzenie tych funkcji wymaga testów eksperymentalnych. Obok przeszukania programem BLAST P jeszcze innym sposobem przewidywania funkcji białek jest dopasowanie ich sekwencji aminokwasowych do sekwencji domen białek, których funkcje określono eksperymentalnie. W niniejszej pracy wykorzystano do tego celu program HMMER (Podrozdział 1.6.4).
ORF | Region kodujący (bp) |
Orientacja | Wielkość białka (aa) |
Prawdopodobna funkcja (motywy i domeny) |
Największe podobieństwo (program BLAST P) | |||
Procent identyczności (aminokwasy§) (koordynaty motywu) |
e-value | Organizm | Numer w GenBank (numer pfam) (numer EC) (numer supfam) | |||||
1 | 77-301 | ← | 74 | hypothetical protein | 38/68(56%) | 3 * 10-18 | Serratia marcescens | WP_072264995.1 |
2 | 280-525 | ← | 81 | hypothetical protein (Protein of unknown function) |
61/81(75%) | 4 * 10-33 | Serratia marcescens | WP_118892208.1 (PF11684.8) |
3 | 550-1194 | ← | 214 | minor tail protein (coiled-coil motive) |
67/212(32%) | 7 * 10-28 | Rhodobacter phage RcSaxon | AKY02713.1 |
4 | 1236-1376 | ← | 46 | DEAD/DEAH box helicase (Zinc finger, C2H2 type) |
14/31(45%) | 3 * 10-10 | Roseomonas stagni | WP_092963283.1 (PF00096.26) |
5 | 1373-1627 | ← | 84 | DNA polymerase III subunit theta (DNA polymerase III, theta subunit) |
82/84(98%) | 8 * 10-62 | Serratia proteamaculans | WP_115059749.1 (PF06440.11) |
6 | 2037-2561 | ← | 174 | DUF2570 domain-containing protein (Phage shock protein B) |
123/166(74%) | 7 * 10-93 | Serratia sp. YD25 | WP_063919321.1 (PF06667.12) |
7 | 2558-3088 | ← | 176 | putative lysis protein (Phage lysozyme) |
136/175(78%) | 2 * 10-107 | Pectobacterium phage ZF40 | YP_007006943.1 (PF00959.19) |
8 | 3090-3386 | ← | 98 | phage 21-like group II holin (Bacteriophage holin family HP1) |
15/50(30%) | 1 * 10-06 | Bacteriophage APSE-7 | WP_016857351.1 (PF16080.5) |
9 | 3554-3928 | ← | 124 | hypothetical protein (RcsF lipoprotein) |
117/124(94%) | 4 * 10-91 | Serratia proteamaculans | WP_115058997.1 (PF16358.5) |
10 | 4225-4929 | ← | 234 | antitermination protein (Antitermination protein) |
218/234(93%) | 3 * 10-169 | Serratia proteamaculans | WP_115059758.1 (PF03589.13) |
11 | 4926-5282 | ← | 118 | RusA family crossover junction endodeoxyribonuclease (Endodeoxyribonuclease RusA) |
117/118(99%) | 8 * 10-90 | Serratia marcescens | WP_060431945.1 (PF05866.11) |
12 | 5279-6253 | ← | 324 | DUF968 domain-containing protein (Protein of unknown function DUF968) |
318/324(98%) | 0,0 | Serratia proteamaculans | WP_115059762.1 (PF06147.11) |
13 | 6250-7272 | ← | 340 | DNA-binding protein (Conserved phage Cterminus Phg_2220_C) |
313/339(92%) | 0,0 | Serratia liquefaciens ATCC 27592 | AGQ28749.1 (PF09524.10) |
14 | 7269-7391 | ← | 40 | DUF4222 domaincontaining protein (Domain of unknown function DUF4222) |
39/40(98%) | 3 * 10-29 | Serratia liquefaciens | WP_116690624.1 (PF13973.6) |
15 | 7441-8181 | ← | 246 | KilA-N domain-containing protein (KilA-N domain) |
240/245(98%) | 0,0 | Serratia liquefaciens | WP_116690625.1 (PF04383.13) |
16 | 8196-8468 | ← | 90 | hypothetical protein | 88/90(98%) | 6 * 10-68 | Serratia liquefaciens | WP_116690626.1 |
17 | 8477-8791 | ← | 104 | hypothetical protein | 98/104(94%) | 4 * 10-72 | Serratia proteamaculans | WP_115059769.1 |
18 | 8809-8961 | ← | 50 | XRE family transcriptional regulator | 49/50(98%) | 7 * 10-37 | Serratia proteamaculans | WP_115059771.1 |
19 | 9156-9896 | → | 246 | XRE family transcriptional regulator (Cro/C1-type HTH DNA-binding domain) |
245/246(99%) (18-78) |
0,0 | Serratia proteamaculans | WP_115059773.1 (PF13443.6) |
20 | 10433-10696 | → | 87 | glycosyl transferase family 1, partial (Putative pyruvate format-lyase activating enzyme DUF1786) |
18/40(45%) | 1 * 10-08 | Desulfosporosinus sp. BICA1-9 | KJS90102.1 (PF08735.10) |
21 | 10714-10923 | → | 69 | lysine-2,3-aminomutase, EmpB | 57/69(83%) | 2 * 10-43 | Serratia grimesii | WP_037419410.1 |
22 | 10953-11081 | → | 42 | hypothetical protein HMPREF1564_3580 (Helical box domain of E3 ubiquitin-protein ligase HECW1) |
28/38(74%) | 1 * 10-19 | Providencia alcalifaciens R90-1475 | EUD08463.1 (PF18436.1) |
23 | 11487-11699 | → | 70 | hypothetical protein (Ribosomal protein L33) |
67/70(96%) | 2 * 10-52 | Serratia proteamaculans | WP_115059007.1 (PF00471.20) |
24 | 11693-11836 | → | 47 | hypothetical protein M495_10455 (transmembrane motive) |
47/47(100%) | 8 * 10-36 | Serratia liquefaciens ATCC 27592 | AGQ30852.1 |
25 | 11839-12075 | → | 78 | hypothetical protein | 78/78(100%) | 1 * 10-60 | Serratia liquefaciens | WP_116690632.1 |
26 | 12079-12921 | → | 280 | chromosome partitioning protein ParB (Crp-like helix-turnhelix domain) |
274/280(98%) | 0,0 | Serratia proteamaculans | WP_012006454.1 (PF13545.6) |
27 | 12905-13375 | → | 156 | Gp37 (tail fiber protein) | 49/113(43%) | 1 * 10-25 | Escherichia virus HK97 | NP_037722.1 |
28 | 13372-14019 | → | 215 | hypothetical protein (ASCH domain) |
145/214(68%) | 4 * 10-91 | Serratia marcescens | WP_101456383.1 (PF04266.14) |
29 | 14019-14240 | → | 73 | molecular chaperone DnaJ (Restriction alleviation protein Lar) |
64/70(91%) | 4 * 10-50 | Serratia proteamaculans | WP_085115658.1 (PF14354.6) |
30 | 14233-14496 | → | 87 | hypothetical protein | 73/87(84%) | 3 * 10-17 | Serratia marcescens | WP_141958176.1 |
31 | 14489-14758 | → | 89 | hypothetical protein | 72/89(81%) | 4 * 10-51 | Serratia marcescens | WP_060429489.1 |
32 | 14777-15259 | → | 160 | putative phage replication protein | 17/48(35%) | 2 * 10-06 | Lactobacillus phage phiPYB5 | YP_009167807.1 |
33 | 15259-15450 | → | 63 | hypothetical protein BVG97_16260 ead/Ea22-like family protein |
52/59(88%) 32/66(48%) |
3 * 10-38 4 * 10-12 |
Serratia marcescens Serratia marcescens |
ASL89067.1 WP_052475410.1 |
34 | 15443-15979 | → | 178 | ead/Ea22-like family protein (Ead/Ea22-like protein) |
48/57(84%) | 1 * 10-32 | Serratia quinivorans | WP_112347612.1 (PF13935.6) |
35 | 15980-16234 | → | 84 | hypothetical protein | 78/84(93%) | 1 * 10-62 | Serratia plymuthica | WP_064798928.1 |
36 | 16244-16945 | → | 233 | putative pmgU (Xeroderma pigmentosum group Bhelicase damage recognition domain) |
25/43(58%) | 2 * 10-16 | Escherichia coli 2-474-04_S4_C2 | KDZ03155.1 (PF18458.1) |
37 | 16991-17260 | → | 89 | uncharacterised protein | 87/89(98%) | 1 * 10-66 | Serratia marcescens | SAY41700.1 |
38 | 17276-17494 | → | 72 | hypothetical protein (Ribonuclease R winged-helix domain) |
66/69(96%) | 5 * 10-49 | Serratia sp. | WP_046372826.1 (PF08461.10) |
39 | 17514-17723 | → | 69 | hypothetical protein | 68/69(99%) | 6 * 10-53 | Serratia liquefaciens | WP_116691155.1 |
40 | 17726-18106 | → | 126 | hypothetical protein | 125/126(99%) | 2 * 10-98 | Serratia liquefaciens | WP_116690638.1 |
41 | 18122-18304 | → | 60 | ANR family transcriptional regulator | 59/60(98%) | 2 * 10-44 | Serratia quinivorans | WP_112347617.1 |
42 | 18307-18969 | → | 220 | DNA methyltransferase (MT-A70) (S-adenosyl-Lmethionine-dependent methyltransferases) |
208/220(95%) | 4 * 10-164 | Serratia liquefaciens | WP_046372823.1 (PF05063.14) (53335) |
43 | 19351-20514 | → | 387 | site-specific integrase (Phage integrase family) (Lambda integrase-like, catalytic core) |
375/387(97%) | 0,0 | Serratia grimesii | WP_037419381.1 (PF00589.22) (56350) |
44 | 20794-21699 | ← | 301 | hypothetical protein | 262/301(87%) | 0,0 | Serratia marcescens | WP_060706314.1 |
45 | 21700-24081 | ← | 793 | tail lysin | 83 to 176 25/95(26%) 154 to 220 19/76(25%) 295 to 306 6/12(50%) 1155 to 1219 20/71(28%) 560 to 567 5/8(63%) |
1 * 10-04 | Bacillus phage SageFayge | YP_009280906.1 |
46 | 24191-24364 | → | 57 | lysyl-tRNA synthetase, class I (transmembrane domain) |
43/56(77%) | 5 * 10-32 | Photorhabdus luminescens BA1 | EYU16219.1 |
47 | 24402-24674 | → | 90 | transcriptional regulator (lambda repressor-like DNA-binding domains) |
84/90(93%) | 2 * 10-64 | Serratia marcescens | WP_072269370.1 (1.10.260.40) |
48 | 24684-25814 | → | 376 | Acyltransferase (Acyltransferase family) |
339/376(90%) | 0,0 | Serratia marcescens | WP_072269371.1 (PF01757.22) |
49 | 25845-26333 | ← | 162 | phage tail protein, partial (Pectinesterase domain) |
51/62(82%) | 8 * 10-36 | Bacillus sp. SRB_28 | RAN85254.1 (EC 3.1.1.11) |
50 | 26377-27051 | ← | 224 | DUF2313 domain-containing protein (DUF2313) |
211/224(94%) | 2 * 10-165 | Serratia marcescens | WP_060441827.1 (PF10076.9) |
51 | 27048-28196 | ← | 382 | baseplate J/gp47 family protein (Baseplate J-like protein) |
368/382(96%) | 0,0 | Serratia sp. C-1 | WP_062790438.1 (PF04865.14) |
52 | 28200-28637 | ← | 145 | putative tail protein (Phage protein GP46) |
19 to 98 43/82(52%) 119 to 136 8/18(44%) 53 to 66 4/14(29%) |
3 * 10-23 | Enterobacteria phage SfI | WP_000424732.1 (PF07409.12) |
53 | 28634-29224 | ← | 196 | Phage baseplate assembly protein V (Bacteriophage Mu Gp45 protein) (Phage spike trimer) (Acetyl-CoAcarboxylase domain) |
182/196(93%) (19 to 117) (126 to 163) (83 to 145) |
2 * 10-132 | Serratia proteamaculans | SMB46877.1 (PF06890.12) (PF18715.1) (EC 6.4.1.2) |
54 | 29224-30294 | ← | 356 | phage tail protein (Phage late control gene D protein GPD) |
345/356(97%) | 0,0 | Serratia proteamaculans | WP_085118850.1 (PF05954.11) |
55 | 30291-31694 | ← | 467 | dna circulation family protein (DNA circularisation protein N-terminus) |
421/467(90%) | 0,0 | Lasius niger | KMQ87046.1 (PF07157.12) |
56 | 31731-33650 | ← | 639 | lytic transglycosylase domain-containing protein (MSP7-like protein C-terminal domain) |
385/655(59%) | 0,0 | Serratia sp. Nf2 | WP_107228138.1 (PF12948.7) |
57 | 33772-34062 | ← | 96 | phage tail assembly protein (Phage tail assembly chaperone proteins, E, or 41 or 14) |
92/96(96%) | 7 * 10-71 | Serratia sp. C-1 | WP_062790456.1 (PF10109.9) |
58 | 34064-34432 | ← | 122 | phage tail protein (Phage tail tube protein) |
122/122(100%) | 1 * 10-92 | Serratia sp. C-1 | WP_062790459.1 (PF10618.9) |
59 | 34442-35947 | ← | 501 | phage tail protein (Phage tail sheath protein beta-sandwich domain) (Phage tail sheath protein subtilisin-like domain) (Phage tail sheath C-terminal domain) |
474/501(95%) (99 - 246) (210 - 373) (381 - 495) |
0,0 | Serratia proteamaculans | WP_085118840.1 (PF17481.2) (PF04984.14) (PF17482.2) |
60 | 35944-36138 | ← | 64 | DUF2635 domain-containing protein (DUF2635) |
59/64(92%) (3 - 48) |
4 * 10-44 | Serratia sp. C-1 | WP_062790465.1 (PF10948.8) |
61 | 36143-36685 | ← | 180 | ATP-binding protein (coiled-coil motive) |
167/180(93%) (76 - 110) |
2 * 10-129 | Serratia sp. Nf2 | WP_107228160.1 |
62 | 36682-37026 | ← | 114 | head-to-tail joining protein (Phage tail proteins domain) |
34/104(33%) | 7 * 10-10 | Rhodobacter phage RcRhea | YP_009213476.1 (EC 2.40.10.180) |
63 | 37026-37448 | ← | 140 | hypothetical protein (putative capsid protein) |
109/140(78%) | 2 * 10-56 | Serratia symbiotica | WP_040264829.1 (PF12226.8) |
64 | 37450-38499 | ← | 349 | major capsid protein (Phage major capsid |
322/349(92%) | 0,0 | Citrobacter freundii | WP_115601857.1 (PF03864.15) (3.15.30.10) (3.30.1930.10) (3.15.30.10) |
65 | 38603-39004 | ← | 133 | head decoration protein (Bacteriophage lambda head decoration protein D) |
123/133(92%) | 7 * 10-94 | Serratia marcescens | WP_060425447.1 (PF02924.14) |
66 | 39004-39603 | ← | 199 | Uncharacterised protein | 168/201(84%) | 3 * 10-89 | Serratia marcescens | CVA09345.1 |
67 | 39607-40467 | ← | 286 | S49 family peptidase (2-enoyl-CoA Hydratase) |
272/285(95%) | 0,0 | Serratia symbiotica | WP_006708310.1 (3.90.226.10) |
68 | 40464-42044 | ← | 526 | phage portal protein (Phage portal protein, lambda family) |
503/526(96%) | 0,0 | Serratia symbiotica | WP_040262924.1 (PF05136.13) |
69 | 42110-42373 | ← | 87 | phage head-tail adapter protein (Head-to-tail joining protein W) |
72/87(83%) | 1 * 10-52 | Photorhabdus luminescens | WP_105396969.1 (PF02831.15) |
70 | 42382-44361 | ← | 659 | phage terminase large subunit family protein (Phage terminase large subunit GpA) |
635/659(96%) | 0,0 | Serratia marcescens | WP_060425444.1 (PF05876.12) |
71 | 44333-44932 | ← | 199 | terminase small subunit (Homeodomain-like domain) |
50/201(25%) | 4 * 10-06 | Synechococcus phage S-LBS1 | ATS93173.1 (PF13384.6) |
Za pomocą narzędzia BLAST P udało się określić możliwe funkcje aż 54 ORFów. Dalsza analiza, bazująca na obecności domen białkowych i ukrytych modeli Markowa, umożliwiła określenie potencjalnych funkcji dla kolejnych 7 ORFów [Söding, 2004].
Dodatkowe informacje o autorach i źródle znajdują się na stronie dyskusji.