Przejdź do zawartości

Wstępna charakterystyka bakteriofaga Serratia φOS10/Wyniki i dyskusja/Analiza bioinformatyczna/Analiza genomu bakteriofaga φOS10

Z Wikibooks, biblioteki wolnych podręczników.

Genom φOS10 miał długość 45 027 nt – wielkość ta jest typowa dla przedstawicieli rzędu Caudovirales, jednak wśród innych dotychczas zsekwencjonowanych bakteriofagów infekujących bakterie z rodzaju Serratia jest to długość stosunkowo niewielka: genomy zsekwencjonowanych bakteriofagów Serratia osiągają długości od 39 216 bp (bakteriofag 2050H2, Gene Bank MF285620.1) do 357 154 bp (bakteriofag BF, Gene Bank NC_041917.1), gdzie średnia długość genomu wynosiła 139 444 bp, a mediana 158 616 bp. Zestawienie wszystkich genomów bakteriofagów przedstawiono w Podrozdziale 1.7. Udział poszczególnych zasad azotowych w nici wiodącej zsekwencjonowanego genomu φOS10 przedstawiono w Tabeli 9.

Tabela 9. Zestawienie ilościowe udziału zasad azotowych w genomie φOS10 oraz zawartość par CG.
Zasada Zawartość [%] Ilość [nt]
A 23,87% 10750
T 24,52% 11040
G 24,58% 11068
C 27,03% 12169
% GC 51,61%

Zawartość par GC jest mniejsza niż w przypadku genomów bakterii z rodzaju Serratia, które do tej pory zsekwencjonowano np. w szczepie Serratia marcescens subsp. marcescens Db11 wynosi 59,5% [Iguchi i in., 2014]; w szczepie Serratia liquefaciens ATCC 27592 wynosi 55,3% [Nicholson i in., 2013]; zaś w szczepie Serratia proteamaculans 568 wynosi 54,9% [Grkovic i in., 1995]. Sekwencję genomu φOS10 przyrównano z użyciem narzędzia BLAST N do sekwencji genomów innych bakteriofagów infekujących Serratia. Wykryto podobieństwo sekwencji nukleotydowej bakteriofaga φOS10 jedynie do dwóch spośród 20 poznanych i zsekwencjonowanych wcześniej fagów Serratia (Rycina 18):

  • do bakteriofaga Parlo (Gene Bank MK618715.1) w dwóch segmentach (o długości 381 nt, gdzie e = 2 * 10 - 133; oraz o długości 42 nt, gdzie e = 1 * 10 - 12), co stanowi w sumie 0,67% długości genomu bakteriofaga Parlo;
  • do bakteriofaga η (Gene Bank NC_021563.1) w czterech segmentach (o długości 96 nt, gdzie e = 2 * 10 - 33; o długości 98 nt, gdzie e = 2 * 10 - 27; o długości 35 nt, gdzie e = 3 * 10 - 11 i o długości 32 nt, gdzie e = 1 * 10 - 9), co stanowi w sumie 0,61% długości genomu bakteriofaga η.

> Eta_1 NC_021563.1 (13351-13446)
caccgagctgcgggaggccaaatgaaagagcgcccagtgattttcaacggtgagatggttcgcgccatcctcgac
ggacgcaagacgcagacacgc
> Eta_2 NC_021563.1 (13942-14039)
tccatttacggggaagaaagctggagcgctaatccctgggtatgggtgatcgagtttcgtcgtgtgggaggtgcg
tgatgccagcaaatgaactgaag
> Eta_3 NC_021563.1 (13035-13069)
tgaaggctgagcgcgatgcgctggctgtggagaat
> Eta_4 NC_021563.1 (15953-15984)
ggcttcaccgtagagggggatgagtagatggc
> Parlo_1 MK618715.1 (16408-16788)
ggctaaccgggaggcgcagccggtgtatcaatgccgcttcttcactaccgatattgacggaaaacaaatcggtga
gtggcaggatatggataaagggttctatgaccaatacgacccacactgccgccgcgttttgttcaccgccccgcc
tgcgctaggagtgccggatggggttatgccaggcggtctaggctactcatcagcgctacctgagtttgaaagcaa
cgacagcgataaggttgttggatatcactgctttatcagcggtcaaactcgaagcgtggaaagccaagagcaggc
gtatgccgacgccaaggctgtaattaacgcctaccgcgccgcaatgctggctcaacccgtaagccagggttacaa
gttacc
> Parlo_2 MK618715.1 (15944-15984)
cgcgccgctggcttcaccgtagagggggatgagtagatggc

Rycina 18 Sekwencje nukleotydowe segmentów genomu φOS10 wykazujące podobieństwo do genomów bakteriofagów η i Parlo.

Sekwencje przedstawione na Rycinie 18 zbadano z użyciem narzędzia BLAST X, w wyniku czego udało się zadnotować jedynie sekwencje:

  • Parlo_1, którą dopasowano do hipotetycznego białka bakteriofaga Parlo (e = 2 * 10 - 77) (Gene Bank QBQ72186.1);
  • Eta_1, którą dopasowano do hipotetycznego białka S. marcescens (e = 8 * 10 - 11) (Gene Bank TQI84827.1);
  • Eta_2, którą dopasowano do białka „restriction alleviation protein” z rodziny białek Lar, należącego do S. marcescens (e = 1 * 10 - 8) (Gene Bank WP_080431124.1). Białko to odpowiedzialne jest za modulację systemów restrykcji i modyfikacji [King & Murray, 1995].

We względu na niskie wartości pokrycia (0,67% dla bakteriofaga Parlo i 0,61% dla bakteriofaga η) nie można uznać tych bakteriofagów za spokrewnione z bakteriofagiem φOS10 – podobieństwo tych sekwencji jest najprawdopodobniej przypadkowe lub spowodowane nabyciem ich na drodze zdarzeń rekombinacyjnych. Powyższe wyniki wykluczają jakiekolwiek istotne podobieństwo genomu bakteriofaga φOS10 do innych dotychczasowo zsekwencjonowanych bakteriofagów Serratia oraz jakichkolwiek innych zsekwencjonowanych bakteriofagów, w związku z czym jest on unikatowy i stanowi ważny wkład w wiedzę o bakteriofagach Serratia. Genom φOS10 przeanalizowano z użyciem programu ARAGORN [Laslett i in., 2004] pod kątem obecności genów kodujących tRNA (Podrozdział 4.17.5), nie znaleziono w genomie sekwencji kodujących tRNA.
W genomie φOS10 zidentyfikowano 71 otwartych ramek odczytu (ORF) o wielkości co najmniej 50 nt. Najmniejszy z nich (ORF 14) ma długość 122 nt, a największy (ORF 45) ma długość 2381 nt. Średnia długość ORF wynosi około 583 nt. Zidentyfikowane ORFy stanowią 91,86% zsekwencjonowanego genomu. ORFy zawarte są zarówno na nici wiodącej i nici komplementarnej, z czego 43 ORFy znajdują się na nici wiodącej, a 28 ORFów znajduje się na nici komplementarnej. Adnotację genomu φOS10 wykonywano z wykorzystaniem programu Artemis, w którym możliwa jest wizualizacja ORFów (Rycina 19). Każdej ORF nadano numery porządkowe od 1 do 71.

Rycina 19. Analiza bioinformatyczna z użyciem programu Artemis.

Dla każdej ORF zaznaczonej w sekwencji nukleotydowej wygenerowano z pomocą programu Artemis sekwencje białek przez nie kodowanych, dla których następnie z użyciem programu BLAST P wyszukiwano w bazach UniProt oraz NCBI rekordów o największym pokryciu, największej identyczności sekwencji oraz najmniejszej „E-wartości” (Podrozdziały 1.6.3 i 4.17). Wyniki adnotacji zestawiono w Tabeli 10. Domniemany produkt białkowy jednej ze zidentyfikowanych ORF został zaadnotowany jako integraza, co stanowiło następną przesłankę do postawienia hipotezy, że bakteriofag φOS10 jest łagodny (pierwszą były mętne łysinki, Podrozdział 5.1). Innymi przypuszczalnymi produktami białkowymi ORFów były między innymi białko portalowe (ORF 68) i terminaza (ORF 70). Nie udało się dopasować do białek o znanych funkcjach domniemanych produktów białkowych 19 ORFów spośród 71 zidentyfikowanych (co stanowi około 27%). Rezultat ten jest satysfakcjonujący zważywszy na fakt, że w innych przypadkach odsetek ORFów o niezidentyfikowanej funkcji może wynosić 33% [Dziewit i in., 2014] lub nawet 60% [Santos i in., 2011]. Przy przewidywaniu funkcji białek fagowych bardzo pomocna jest lokalizacja kodujących je ORFów, gdyż genomy wirusów mają budowę modułową, jak wspomniano w podrozdziale. 1.3. W związku z tym położenie ORFu o nieznanej funkcji, w otoczeniu ORFów, którym przypisuje się określone funkcje, jest wskazówką co do prawdopodobnej funkcji jej produktu białkowego. Należy podkreślić, że funkcje przypisane produktom zidentyfikowanych ORFów są tylko przypuszczalne, potwierdzenie tych funkcji wymaga testów eksperymentalnych. Obok przeszukania programem BLAST P jeszcze innym sposobem przewidywania funkcji białek jest dopasowanie ich sekwencji aminokwasowych do sekwencji domen białek, których funkcje określono eksperymentalnie. W niniejszej pracy wykorzystano do tego celu program HMMER (Podrozdział 1.6.4).

Tabela 10. Zestawienie wyników adnotacji ORFów faga φOS10. Nazwy wszystkich domniemanych funkcji białek zapisano w języku angielskim, ze względu na brak polskich odpowiedników dla nazw niektórych białek.
ORF Region kodujący
(bp)
Orientacja Wielkość białka
(aa)
Prawdopodobna funkcja

(motywy i domeny)
Największe podobieństwo (program BLAST P)
Procent identyczności (aminokwasy§)
(koordynaty motywu)
e-value Organizm Numer w GenBank
(numer pfam)
(numer EC)
(numer supfam)
1 77-301 74 hypothetical protein 38/68(56%) 3 * 10-18 Serratia marcescens WP_072264995.1
2 280-525 81 hypothetical protein

(Protein of unknown function)
61/81(75%) 4 * 10-33 Serratia marcescens WP_118892208.1

(PF11684.8)
3 550-1194 214 minor tail protein

(coiled-coil motive)
67/212(32%) 7 * 10-28 Rhodobacter phage RcSaxon AKY02713.1
4 1236-1376 46 DEAD/DEAH box helicase

(Zinc finger, C2H2 type)
14/31(45%) 3 * 10-10 Roseomonas stagni WP_092963283.1
(PF00096.26)
5 1373-1627 84 DNA polymerase III subunit theta

(DNA polymerase III, theta subunit)
82/84(98%) 8 * 10-62 Serratia proteamaculans WP_115059749.1

(PF06440.11)
6 2037-2561 174 DUF2570 domain-containing protein

(Phage shock protein B)
123/166(74%) 7 * 10-93 Serratia sp. YD25 WP_063919321.1

(PF06667.12)
7 2558-3088 176 putative lysis protein

(Phage lysozyme)
136/175(78%) 2 * 10-107 Pectobacterium phage ZF40 YP_007006943.1

(PF00959.19)
8 3090-3386 98 phage 21-like group II holin

(Bacteriophage holin family HP1)
15/50(30%) 1 * 10-06 Bacteriophage APSE-7 WP_016857351.1

(PF16080.5)
9 3554-3928 124 hypothetical protein

(RcsF lipoprotein)
117/124(94%) 4 * 10-91 Serratia proteamaculans WP_115058997.1

(PF16358.5)
10 4225-4929 234 antitermination protein

(Antitermination protein)
218/234(93%) 3 * 10-169 Serratia proteamaculans WP_115059758.1

(PF03589.13)
11 4926-5282 118 RusA family crossover junction endodeoxyribonuclease

(Endodeoxyribonuclease RusA)
117/118(99%) 8 * 10-90 Serratia marcescens WP_060431945.1

(PF05866.11)
12 5279-6253 324 DUF968 domain-containing protein

(Protein of unknown function DUF968)
318/324(98%) 0,0 Serratia proteamaculans WP_115059762.1

(PF06147.11)
13 6250-7272 340 DNA-binding protein

(Conserved phage Cterminus Phg_2220_C)
313/339(92%) 0,0 Serratia liquefaciens ATCC 27592 AGQ28749.1

(PF09524.10)
14 7269-7391 40 DUF4222 domaincontaining protein

(Domain of unknown function DUF4222)
39/40(98%) 3 * 10-29 Serratia liquefaciens WP_116690624.1

(PF13973.6)
15 7441-8181 246 KilA-N domain-containing protein

(KilA-N domain)
240/245(98%) 0,0 Serratia liquefaciens WP_116690625.1

(PF04383.13)
16 8196-8468 90 hypothetical protein 88/90(98%) 6 * 10-68 Serratia liquefaciens WP_116690626.1
17 8477-8791 104 hypothetical protein 98/104(94%) 4 * 10-72 Serratia proteamaculans WP_115059769.1
18 8809-8961 50 XRE family transcriptional regulator 49/50(98%) 7 * 10-37 Serratia proteamaculans WP_115059771.1
19 9156-9896 246 XRE family transcriptional regulator

(Cro/C1-type HTH DNA-binding domain)
245/246(99%)
(18-78)
0,0 Serratia proteamaculans WP_115059773.1

(PF13443.6)
20 10433-10696 87 glycosyl transferase family 1, partial

(Putative pyruvate format-lyase activating enzyme DUF1786)
18/40(45%) 1 * 10-08 Desulfosporosinus sp. BICA1-9 KJS90102.1

(PF08735.10)
21 10714-10923 69 lysine-2,3-aminomutase, EmpB 57/69(83%) 2 * 10-43 Serratia grimesii WP_037419410.1
22 10953-11081 42 hypothetical protein HMPREF1564_3580

(Helical box domain of

E3 ubiquitin-protein ligase HECW1)

28/38(74%) 1 * 10-19 Providencia alcalifaciens R90-1475 EUD08463.1

(PF18436.1)
23 11487-11699 70 hypothetical protein

(Ribosomal protein L33)
67/70(96%) 2 * 10-52 Serratia proteamaculans WP_115059007.1

(PF00471.20)
24 11693-11836 47 hypothetical protein M495_10455

(transmembrane motive)
47/47(100%) 8 * 10-36 Serratia liquefaciens ATCC 27592 AGQ30852.1
25 11839-12075 78 hypothetical protein 78/78(100%) 1 * 10-60 Serratia liquefaciens WP_116690632.1
26 12079-12921 280 chromosome partitioning protein ParB

(Crp-like helix-turnhelix domain)
274/280(98%) 0,0 Serratia proteamaculans WP_012006454.1

(PF13545.6)
27 12905-13375 156 Gp37 (tail fiber protein) 49/113(43%) 1 * 10-25 Escherichia virus HK97 NP_037722.1
28 13372-14019 215 hypothetical protein

(ASCH domain)
145/214(68%) 4 * 10-91 Serratia marcescens WP_101456383.1

(PF04266.14)
29 14019-14240 73 molecular chaperone DnaJ

(Restriction alleviation protein Lar)
64/70(91%) 4 * 10-50 Serratia proteamaculans WP_085115658.1

(PF14354.6)
30 14233-14496 87 hypothetical protein 73/87(84%) 3 * 10-17 Serratia marcescens WP_141958176.1
31 14489-14758 89 hypothetical protein 72/89(81%) 4 * 10-51 Serratia marcescens WP_060429489.1
32 14777-15259 160 putative phage replication protein 17/48(35%) 2 * 10-06 Lactobacillus phage phiPYB5 YP_009167807.1
33 15259-15450 63 hypothetical protein BVG97_16260
ead/Ea22-like family protein
52/59(88%)
32/66(48%)
3 * 10-38
4 * 10-12
Serratia marcescens
Serratia marcescens
ASL89067.1
WP_052475410.1
34 15443-15979 178 ead/Ea22-like family protein

(Ead/Ea22-like protein)
48/57(84%) 1 * 10-32 Serratia quinivorans WP_112347612.1

(PF13935.6)
35 15980-16234 84 hypothetical protein 78/84(93%) 1 * 10-62 Serratia plymuthica WP_064798928.1
36 16244-16945 233 putative pmgU

(Xeroderma pigmentosum group Bhelicase damage recognition domain)
25/43(58%) 2 * 10-16 Escherichia coli 2-474-04_S4_C2 KDZ03155.1

(PF18458.1)
37 16991-17260 89 uncharacterised protein 87/89(98%) 1 * 10-66 Serratia marcescens SAY41700.1
38 17276-17494 72 hypothetical protein

(Ribonuclease R winged-helix domain)
66/69(96%) 5 * 10-49 Serratia sp. WP_046372826.1

(PF08461.10)
39 17514-17723 69 hypothetical protein 68/69(99%) 6 * 10-53 Serratia liquefaciens WP_116691155.1
40 17726-18106 126 hypothetical protein 125/126(99%) 2 * 10-98 Serratia liquefaciens WP_116690638.1
41 18122-18304 60 ANR family transcriptional regulator 59/60(98%) 2 * 10-44 Serratia quinivorans WP_112347617.1
42 18307-18969 220 DNA methyltransferase

(MT-A70) (S-adenosyl-Lmethionine-dependent methyltransferases)
208/220(95%) 4 * 10-164 Serratia liquefaciens WP_046372823.1

(PF05063.14)
(53335)
43 19351-20514 387 site-specific integrase

(Phage integrase family) (Lambda integrase-like, catalytic core)
375/387(97%) 0,0 Serratia grimesii WP_037419381.1

(PF00589.22)
(56350)
44 20794-21699 301 hypothetical protein 262/301(87%) 0,0 Serratia marcescens WP_060706314.1
45 21700-24081 793 tail lysin 83 to 176
25/95(26%)
154 to 220
19/76(25%)
295 to 306
6/12(50%)
1155 to 1219
20/71(28%)
560 to 567
5/8(63%)
1 * 10-04 Bacillus phage SageFayge YP_009280906.1
46 24191-24364 57 lysyl-tRNA synthetase, class I

(transmembrane domain)
43/56(77%) 5 * 10-32 Photorhabdus luminescens BA1 EYU16219.1
47 24402-24674 90 transcriptional regulator

(lambda repressor-like DNA-binding domains)
84/90(93%) 2 * 10-64 Serratia marcescens WP_072269370.1

(1.10.260.40)
48 24684-25814 376 Acyltransferase

(Acyltransferase family)
339/376(90%) 0,0 Serratia marcescens WP_072269371.1

(PF01757.22)
49 25845-26333 162 phage tail protein, partial

(Pectinesterase domain)
51/62(82%) 8 * 10-36 Bacillus sp. SRB_28 RAN85254.1

(EC 3.1.1.11)
50 26377-27051 224 DUF2313 domain-containing protein

(DUF2313)
211/224(94%) 2 * 10-165 Serratia marcescens WP_060441827.1

(PF10076.9)
51 27048-28196 382 baseplate J/gp47 family protein

(Baseplate J-like protein)
368/382(96%) 0,0 Serratia sp. C-1 WP_062790438.1

(PF04865.14)
52 28200-28637 145 putative tail protein

(Phage protein GP46)
19 to 98
43/82(52%)
119 to 136
8/18(44%)

53 to 66
4/14(29%)
3 * 10-23 Enterobacteria phage SfI WP_000424732.1

(PF07409.12)
53 28634-29224 196 Phage baseplate assembly protein V

(Bacteriophage Mu Gp45 protein)
(Phage spike trimer)
(Acetyl-CoAcarboxylase domain)
182/196(93%)
(19 to 117)
(126 to 163)
(83 to 145)
2 * 10-132 Serratia proteamaculans SMB46877.1

(PF06890.12)
(PF18715.1)
(EC 6.4.1.2)
54 29224-30294 356 phage tail protein

(Phage late control gene D protein GPD)
345/356(97%) 0,0 Serratia proteamaculans WP_085118850.1

(PF05954.11)
55 30291-31694 467 dna circulation family protein

(DNA circularisation protein N-terminus)
421/467(90%) 0,0 Lasius niger KMQ87046.1

(PF07157.12)
56 31731-33650 639 lytic transglycosylase domain-containing protein

(MSP7-like protein C-terminal domain)
385/655(59%) 0,0 Serratia sp. Nf2 WP_107228138.1

(PF12948.7)
57 33772-34062 96 phage tail assembly protein

(Phage tail assembly chaperone proteins, E, or 41 or 14)
92/96(96%) 7 * 10-71 Serratia sp. C-1 WP_062790456.1

(PF10109.9)
58 34064-34432 122 phage tail protein

(Phage tail tube protein)
122/122(100%) 1 * 10-92 Serratia sp. C-1 WP_062790459.1

(PF10618.9)
59 34442-35947 501 phage tail protein

(Phage tail sheath protein beta-sandwich domain)
(Phage tail sheath protein subtilisin-like domain)
(Phage tail sheath C-terminal domain)
474/501(95%)
(99 - 246)
(210 - 373)
(381 - 495)
0,0 Serratia proteamaculans WP_085118840.1

(PF17481.2)
(PF04984.14)
(PF17482.2)
60 35944-36138 64 DUF2635 domain-containing protein

(DUF2635)
59/64(92%)
(3 - 48)
4 * 10-44 Serratia sp. C-1 WP_062790465.1

(PF10948.8)
61 36143-36685 180 ATP-binding protein

(coiled-coil motive)
167/180(93%)

(76 - 110)
2 * 10-129 Serratia sp. Nf2 WP_107228160.1
62 36682-37026 114 head-to-tail joining protein

(Phage tail proteins domain)
34/104(33%) 7 * 10-10 Rhodobacter phage RcRhea YP_009213476.1

(EC 2.40.10.180)
63 37026-37448 140 hypothetical protein

(putative capsid protein)
109/140(78%) 2 * 10-56 Serratia symbiotica WP_040264829.1

(PF12226.8)
64 37450-38499 349 major capsid protein

(Phage major capsid
322/349(92%) 0,0 Citrobacter freundii WP_115601857.1

(PF03864.15)
(3.15.30.10)
(3.30.1930.10)
(3.15.30.10)
65 38603-39004 133 head decoration protein
(Bacteriophage lambda head decoration protein D)
123/133(92%) 7 * 10-94 Serratia marcescens WP_060425447.1

(PF02924.14)
66 39004-39603 199 Uncharacterised protein 168/201(84%) 3 * 10-89 Serratia marcescens CVA09345.1
67 39607-40467 286 S49 family peptidase
(2-enoyl-CoA Hydratase)
272/285(95%) 0,0 Serratia symbiotica WP_006708310.1

(3.90.226.10)
68 40464-42044 526 phage portal protein

(Phage portal protein, lambda family)
503/526(96%) 0,0 Serratia symbiotica WP_040262924.1

(PF05136.13)
69 42110-42373 87 phage head-tail adapter protein
(Head-to-tail joining protein W)
72/87(83%) 1 * 10-52 Photorhabdus luminescens WP_105396969.1

(PF02831.15)
70 42382-44361 659 phage terminase large subunit family protein

(Phage terminase large subunit GpA)
635/659(96%) 0,0 Serratia marcescens WP_060425444.1

(PF05876.12)
71 44333-44932 199 terminase small subunit

(Homeodomain-like domain)
50/201(25%) 4 * 10-06 Synechococcus phage S-LBS1 ATS93173.1

(PF13384.6)

Za pomocą narzędzia BLAST P udało się określić możliwe funkcje aż 54 ORFów. Dalsza analiza, bazująca na obecności domen białkowych i ukrytych modeli Markowa, umożliwiła określenie potencjalnych funkcji dla kolejnych 7 ORFów [Söding, 2004].


Tekst udostępniony jest na licencji Creative Commons Uznanie autorstwa-Na tych samych warunkach 3.0.
Dodatkowe informacje o autorach i źródle znajdują się na stronie dyskusji.