XML/Struktura

Spis treści

Wprowadzenie

Najbardziej rozpowszechnioną interpretacją dokumentu XML jest drzewo. Jest tak, ponieważ każdy element może zawierać w sobie inny. W jaki sposób?

<rodzic>
    <dziecko>Węzeł tekstowy</dziecko>
</rodzic>

Powyższy przykład nawet sugeruje, jakie nazewnictwo jest używane. Faktycznie, dokument XML jest rozpatrywany jako drzewo genealogiczne ukorzenione. Zawsze istnieje jeden główny element, który zawiera w sobie inne. Jest on przodkiem wszystkich elementów. Każdy inny jest jego potomkiem, a te będące jego bezpośrednimi potomkami są dziećmi. Elementy bezpośrednio zawierające te dzieci są ich rodzicami. W świecie przetwarzania danych relację zawierania jednego elementu w drugim nazywa się agregacją. Można powiedzieć, że dany element agreguje (czyli zawiera w sobie) inne, czyli jest ich rodzicem/przodkiem. Zwróć uwagę na to, że element może w sobie zawierać bezpośrednio jednocześnie element, jak i tekst.

<korzeń>
    <element rodzic="a" przodek="wszystkich we wnętrzu a" dziecko="korzeń">
        <a rodzic="b" dziecko="a" potomek="korzeń, element" przodek="dziecko, x">
            <dziecko kogo="a" potomek="a, korzeń, element">Węzeł tekstowy <x></x></dziecko>
        </a>
    </element>
</korzeń>

Każdy element jest węzłem. Są nim także atrybuty czy węzły tekstowe, które są opisane w powyższych przykładach. Są nimi także komentarze, instrukcje przetwarzania, prolog i dosłownie wszystko, co jest częścią dokumentu XML.


Węzeł	Opis	Angielska nazwa	Symbol relacji^[1]
korzeń	nadrzędny element	root	:root
przodek	element zawierający inny	ancestor	przodek potomek
potomek	element będący w innym	descedant	przodek potomek
rodzic	element bezpośrednio zawierający	parent	rodzic > dziecko rodzic / dziecko
dziecko	element bezpośrednio zawierany	child	rodzic > dziecko rodzic / dziecko
węzeł	każda część dokumentu	node	---

Jak rozplanować strukturę?

Język XML jest całkowicie rozszerzalny i tu nas dopada klęska urodzaju. Istnieje wiele różnych dróg do uzyskania tego samego rezultatu - dane mogą być reprezentowane jako elementy, atrybuty lub węzły tekstowe. Co wybrać?

Prześledźmy możliwości: element jest bardzo rozszerzalną strukturą - może zawierać w sobie elementy oraz atrybuty. Może zawierać dane niemal w dowolnej formie. Atrybut może zawierać tylko węzeł tekstowy. Ogólnie rzecz biorąc, jest jednym węzłem Węzeł tekstowy jest już ostateczną daną. Jest na końcu hierarchii z samej swojej istoty. I też jest jednym węzłem.

Wyjściowo można więc powiedzieć, że należy unikać stosowania atrybutów. Taka struktura:

<note>
    <from>Ela W.</from>
    <to>Maja S.</to>
    <body>To jest notatka. Nie zapomnij o niej!</body>
</note>

Jest na ogół uważana za lepszą, niż taka:

<note from="Ela W." to="Maja S." body="To jest notatka. Nie zapomnij o niej!" />

Każdy z rodzajów węzła jest jednak użyteczny. I struktura dokumentu jasno określa jaki węzeł określa jaki element. Atrybuty opisują element jako całość, natomiast nie są jego podelementami. Można spróbować określić, jakie dane odnoszą się do całej składowej, a jakie nie.

<note priority="important">
    <from>Ela W.</from>
    <to>Maja S.</to>
    <body>To jest notatka. Nie zapomnij o niej!</body>
</note>

Jak przygotować dane do przetwarzania?

Aby odpowiedzieć na takie pytanie, musisz znać model systemu informatycznego, który będzie na dokumencie pracować. Przy składowaniu jakichś danych atomowych najlepiej je oddzielić od siebie.

<note priority="important" year="2017" month="2" day="1">
    <from>Ela W.</from>
    <to>Maja S.</to>
    <body>To jest notatka. Nie zapomnij o niej!</body>
</note>

W większości języków programowania, można operować na całej dacie jako jednej zmiennej i rozdzielanie składowych po to, by je łączyć, jest bezsensowne.

<note priority="important" date="2017-02-01">
    <from>Ela W.</from>
    <to>Maja S.</to>
    <body>To jest notatka. Nie zapomnij o niej!</body>
</note>

A co, jeśli potrzebujemy osobno imię i nazwisko? Może warto przechowywać je w osobnych elementach? Na przykład w elemencie person? A może jako atrybuty elementu person? A jak adres e-mail? Czy opłaca się przechowywać adresy e-mail w postaci rozłożonej na użytkownika i domenę? Najczęściej nie. Ale każde rozwiązanie musi być zaplanowane oddzielnie wraz z deweloperem aplikacji. Wykracza to jednak poza zakres niniejszego kursu.

Dokument a baza danych

Bardziej zaawansowanym przypadkiem jest rozmieszczenie elementów w całym pliku. Najbardziej powszechnymi rozwiązaniami są te do siebie opozycyjne: umiejscowienie zorientowane na dokument oraz umiejscowienie zorientowane na hierarchiczną strukturę następujących elementów po sobie. Pierwszy sposób jest stosowany do zapisywania dokumentów tekstowych. Przykładem może być XHTML, Office Open XML, OpenDocument. Drugi sposób pozwala budować różnego rodzaju dokumenty wymiany danych, a nawet hierarchiczne bazy danych. Za przykłady mogą posłużyć: RDF Schema albo XML Schema.

<html xmlns="http://www.w3.org/1999/xhtml">
    <head><title>Tytuł</title></head>
    <body>
        <article>
            <h1>Tytuł artykułu</h1>
            <p>To jest przykład struktury <abbr>XML</abbr> zorientowanej na <u>dokument</u>. Węzły różnego rodzaju i poziomu są ze sobą pomieszane.</p>
        </article>
    </body>
</html>

<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns"
	   xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema">
    <rdfs:Class rdf:ID="empty"></rdfs:Class>
    <rdfs:Class rdf:ID="one">
    	<rdfs:subClassOf rdf:resource="content" />
    </rdfs:Class>
    <!-- Jak widać, struktura tego pliku jest ściśle hierarchiczna. Węzły tekstowe, o ile występują, są na samym dole hierarchii. -->
</rdf:RDF>

Nic nie stoi na przeszkodzie ku temu, aby te rozwiązania łączyć. Dla zachowania przejrzystości można też użyć encji w miejsce dokumentu.

« Elementy

Spis treści

Użycie »

↑ Symbol relacji nie jest zapisany jako taki w XML, ponieważ XML nie zajmuje się obróbką danych. Pierwszy z lub jedyny symbol to selektor CSS, który jest używany np. w CSS i DOM. Drugi symbol to fragment ścieżki XPath.

[1] Symbol relacji nie jest zapisany jako taki w XML, ponieważ XML nie zajmuje się obróbką danych. Pierwszy z lub jedyny symbol to selektor CSS, który jest używany np. w CSS i DOM. Drugi symbol to fragment ścieżki XPath.

[1]