36
HAKIN9
ATAK
10/2009
W
dzisiejszej, cyfrowej rzeczywistości,
większość organizacji generuje,
przechowuje i archiwizuje swe dane
w postaci digitalnej. Zintegrowane systemy
informatyczne klasy ERP (ang. Enterprise Resource
Planning) pozwalają na uniknięcie zapisywania
i przechowywania setek tysięcy kartek papieru.
Pozytywne aspekty nowoczesnych technologii
są jednak okupione niespotykanymi wcześniej
zagrożeniami bezpieczeństwa informacji.
Zagrożenia te są związane z pewną
charakterystyczną cechą informacji cyfrowej,
mianowicie z jej, często niewidocznymi na
pierwszy rzut oka, dodatkowymi atrybutami.
Dodatkowe informacje charakteryzujące
informację właściwą, takie jak data utworzenia czy
też ostatniej modyfikacji, nazywamy metadanymi
(ang. metadata). Takie dane o danych, bo tak
właśnie można najkrócej scharakteryzować
te struktury, stanowią właśnie dodatkowy
problem w dziedzinie bezpieczeństwa informacji,
niespotykany praktycznie w przypadku danych
konwencjonalnych. Metadane, mimo że jak pokażę,
mogą się przyczynić do bardzo poważnego
w stukach wycieku danych, są zazwyczaj
ignorowane w procedurach bezpieczeństwa
informatycznego. Prawdopodobnie wynika to z ich
pozornej niewidoczności oraz braku podobnego
problemu w przypadku danych konwencjonalnych,
nie usprawiedliwia to jednak osób zarządzających
bezpieczeństwem informacji. W błędzie
jest również ten, kto uważa, że odpowiednie
WOJCIECH SMOL
Z ARTYKUŁU
DOWIESZ SIĘ
co to są metadane,
w jaki sposób komputerowi
przestępcy mogą wykorzystać
metadane,
o narzędziach stosowanych
przez crackerów do
wyszukiwania i przetwarzania
metadanych,
o kilku autentycznych
przypadkach zaskakującego
wykorzystania metadanych,
o dobrych praktykach
w administrowaniu
bezpieczeństwem
(meta)informacji.
CO POWINIENEŚ
WIEDZIEĆ
znać podstawowe
zagadnienia dotyczące kilku
najpopularniejszych formatów
plików,
znać podstawowe rodzaje
ataków mających na celu
zbieranie informacji,
znać zaawansowane operatory
stosowane w przeglądarce
Google.
zabezpieczenie danych właściwych, rozwiązuje
całkowicie problem bezpieczeństwa skojarzonych
z nimi metadanych.
Nie należy również w tym temacie liczyć na
niewiedzę komputerowych przestępców. Cracker
biegły w swym fachu, pośród innych umiejętności,
na pewno posiadł zdolności w zakresie
manipulowania meta informacjami. Oprócz
wykorzystywania metadanych w celu zdobywania
informacji o celach swych ataków, musi przecież
również zacierać metadane generowane
podczas własnej, przestępczej działalności
(metadane to jeden z podstawowych obiektów
zainteresowania informatyki śledczej).
(Meta)dane
Zapisu (meta)dane użyłem nieprzypadkowo.
Okazuje się bowiem, że odróżnienie samych
danych od meta informacji nie jest takie proste.
Rozważając naturę obu typów informacji nie
jesteśmy w stanie wskazać żadnej różnicy,
są to po prostu pewne informacje w postaci
cyfrowej. Tym co decyduje o rozróżnieniu, jest w
praktyce wyłącznie kontekst, w jakim rozważamy
konkretną informację. Przykładowo tekst piosenki
zapisany w pliku tekstowym stanowi pewne dane.
Jednak jeśli ten sam tekst piosenki zostanie
dołączony do pliku dźwiękowego z nagraniem
tegoż utworu, te same dane staną się
metadanymi. Nie możliwe jest więc rozróżnienie
bez pewnych dodatkowych informacji na temat
kontekstu rozważanej informacji.
Stopień trudności
Mam Twoje
(meta)dane!
Metadane to swoiste DNA cyfrowych dokumentów. Zobacz,
jak komputerowi przestępcy mogą wykorzystać niewidoczne
informacje zawarte w udostępnianych publicznie plikach.
37
HAKIN9
MAM TWOJE (META)DANE!
10/2009
Podstawowym zadaniem metadanych
jest dostarczenie informacji, pozwalających
na prawidłowe zinterpretowanie i
zastosowanie informacji właściwej.
Przykładowo ciąg znaków 02682, sam
w sobie nie niesie praktycznie żadnej
użytecznej informacji. Jeśli jednak będą
mu towarzyszyć metadane kod pocztowy
w Polsce, pozwoli to na jego prawidłową
interpretację i wykorzystanie jako danych
adresowych w postaci 02 – 682. Innym
ważnym zastosowaniem metadanych, o
jakim warto wspomnieć, jest przyspieszenie
i umożliwienie wielokryteriowego (na
podstawie wielu atrybutów, jakimi dane
zostały scharakteryzowane) wyszukiwania
informacji właściwych.
Można zaryzykować stwierdzenie,
że obecnie metadane towarzyszą
praktycznie wszystkim danym cyfrowym.
Przykładowe struktury danych,
zawierających meta informacje, na jakie
warto zwrócić szczególną uwagę, to
między innymi:
• pliki graficzne – takie jak szczególnie
popularny format JPG,
• dokumenty elektroniczne – takie jak
DOC oraz DOCX,
• dokumenty w uniwersalnym formacie
PDF.
Wszystkie powyższe typy dokumentów,
ze względu na wykorzystywane w nich
metadane, stanowią realne i bardzo
poważne zagrożenie dla bezpieczeństwa
informacji, zarówno dla dużych organizacji,
jak i dla osób prywatnych. Mało kto jednak
zdaje sobie z tego sprawę.
Zdjęcie
to więcej niż tysiąc słów
Znane powiedzenie głosi, że zdjęcie to
więcej niż tysiąc słów. Okazuje się, że w
przypadku zdjęć cyfrowych sentencja ta
nabiera szczególnego znaczenia.
Większość aparatów cyfrowych
tworzy domyślnie pliki graficzne w
formacie JPG. Jednak to nie wszystko,
najczęściej cyfrówki zapisują w pliku
również metadane w formacie Exif (ang.
Exchangeable Image File Format). Nie
zagłębiając się w szczegóły specyfikacji
Exif, warto wiedzieć, że metaznaczniki w
tym standardzie opisują m.in.:
• nazwę aparatu, którym wykonano
zdjęcie,
• ustawienia aparatu, takie jak czas
naświetlenia, wartość przesłony,
czułość matrycy itd.,
• datę wykonania zdjęcia,
• rozdzielczość w pikselach,
• miniaturkę obrazka,
• dokładne współrzędne geograficzne
miejsca wykonania zdjęcia.
Problem polega na tym, że udostępniając
innym zrobione przez siebie zdjęcia,
osoby prywatne, jak również poważne
organizacje, rzadko kiedy zwracają uwagę
na publikowane wraz z nimi metadane!
O ile większość ze wspomnianych
atrybutów, zapisywanych w trakcie
robienia zdjęcia nie wymaga wyjaśnienia,
o tyle warto się na chwilę zatrzymać
przy dwóch ostatnich parametrach,
mianowicie miniaturce zdjęcia oraz danych
geolokacyjnych. Miniatura zdjęcia jest
zapisywana wraz z innymi parametrami w
trakcie wykonywania zdjęcia. Najczęściej
użytkownik aparatu poddaje jednak zdjęcia
dalszej obróbce w specjalistycznych
programach graficznych, modyfikując
kolory, kadrując ujęcie, usuwając zbędne
elementy, itd. Jednak, jeśli użyty w tym celu
przez fotoamatora program nie obsługuje
formatu Exif, wynik będzie prawdopodobnie
taki, że samo zdjęcie zostanie
zmodyfikowane, jednak jego metadane już
nie. W efekcie otrzymujemy zmodyfikowane
zdjęcie, zawierające jednak miniaturkę
obrazu oryginalnego. Czym się to może
skończyć, przekonała się Catherine
Schwartz, amerykańska prezenterka
kanału telewizyjnego TechTV. W czerwcu
2003 r. pani Schwartz zamieściła na
swym blogu kilka zdjęć przedstawiających
ją samą. W samych zdjęciach nie było
nic szczególnego, ukazywały prezenterkę
palącą papierosa, mniej więcej od ramion
w górę. Internauci odkryli jednak bardzo
szybko, że zdjęcia zawierają ciekawe
metadane. Mianowicie miniaturka Exif
okazała się znacznie ciekawsza od
samego zdjęcia, bowiem oryginalne ujęcie
skadrowane zostało od pasa w górę, a
sama pani Schwartz jest na nim naga.
Stało się tak, ponieważ program jaki został
użyty do obróbki zdjęć – Photoshop – nie
zaktualizował metadanych zdjęcia.
Wydaje się to na pierwszy rzut oka
zaskakujące, ale nowoczesne aparaty
fotograficzne (np. Nikon Coolpix P6000)
oraz telefony z możliwością robienia
zdjęć (np. iPhone), potrafią w plikach
graficznych automatycznie zapisać
dokładne współrzędne geograficzne
miejsca wykonania zdjęcia. Znana jest
historia pewnego użytkownika (znanego
Rysunek 1.
Wirtualna wycieczka wokół domu, w którym wykonano cyfrowe zdjęcie
– wszystko to możliwe dzięki metadanym zawartym w pliku!
ATAK
38
HAKIN9 10/2009
MAM TWOJE (META)DANE!
39
HAKIN9
10/2009
w Internecie jako Nephew chan) telefonu
iPhone, który na publicznym forum
internetowym zamieścił zdjęcie swej ciotki...
w kąpieli. Jako, że zdjęcia te zawierały
automatycznie dodane przez telefon
współrzędne geograficzne, inny użytkownik
forum odnalazł wielbiciela własnej ciotki i
zaczął go szantażować, żądając kolejnych
zdjęć. Ostatecznie cała sprawa wyszła na
jaw i wszyscy zainteresowani, wraz z całą
społecznością internetową dowiedzieli się o
tej niecodziennej historii.
Przedstawione przykłady jasno
pokazują, że bezmyślne udostępnianie
własnych zdjęć może mieć fatalne
skutki. W jaki więc sposób komputerowy
przestępca może zdobywać, analizować
i wykorzystywać do własnych celów
metadane zawarte w plikach graficznych?
Pierwszy krok stanowi oczywiście
zdobycie samych zdjęć, które potencjalnie
mogą zawierać ciekawe metadane.
Zdobywanie danych właściwych nie
jest głównym tematem artykułu, więc
wspomnę tylko, że aby zdobyć zdjęcia
należące do konkretnej organizacji
lub osoby zazwyczaj wystarczy tylko
poszperać nieco w Internecie. W dobie
cyfrowej rewolucji, gdy niemal żadna
organizacja ani osoba prywatna nie
może się obejść bez własnej strony
domowej, (foto)blogu, czy E-handlu,
odnalezienie cyfrowych zdjęć związanych
z interesującą nas instytucją lub
osobą sprowadza się zazwyczaj do
sformułowania odpowiedniego zapytania
w jednej z popularnych wyszukiwarek.
Gdy już odnajdziemy interesujące nas
pliki, wykorzystanie zawartych w nich
metadanych okaże się dziecinną igraszką.
Prześledźmy, w jaki sposób zostały
wykorzystane metadane zdobyte przez
intruza w jednej z powyższych historii. W
celu odnalezienia oryginalnego zdjęcia
zamieszczonego w Internecie przez
Nephew chan'a wystarczy oczywiste
zapytanie w wyszukiwarce Google.
Szybko odnajdziemy zdjęcie, które zostało
wykorzystane przez intruza, jest ono
dostępne pod następującym adresem:
http://images.encyclopediadramatica.c
om/images/0/01/Nephew-owned.jpg.
Następnie wystarczy przeanalizować
metadane Exif, zawarte w pliku. Najprostszą
ku temu metodę stanowi instalacja w
przeglądarce Firefox dodatku o nazwie
Exif Viewer. Po zainstalowaniu dodatku i
ponownym uruchomieniu przeglądarki,
wystarczy już tylko wyświetlić w niej zdjęcie
i klikając na nim prawym przyciskiem
myszy, wybrać opcję View Image Exif Data.
Spowoduje to wywołanie okna dodatku Exif
Viewer, zawierającego szereg informacji
Exif. Obraz zawiera następujące dane (lista
skrócona, ze względu na czytelność):
• Camera Make = Apple,
• Camera Model = iPhone,
• GPS Latitude Reference = N,
• GPS Latitude = 38/1,3550/100,0/1
[degrees, minutes, seconds] ===>
38
°
35.5
′
,
• GPS Longitude Reference = W,
• GPS Longitude = 90/1,2657/100,0/1
[degrees, minutes, seconds] ===>
90
°
26.57
′
.
Exif Viewer generuje także plik KML (ang.
Keyhole Markup Language), który pozwala
na natychmiastowe wyświetlenie lokacji
wskazywanej przez dane GPS w programie
Google Earth. Po chwili od zdobycia
interesującego nas zdjęcia, jesteśmy
więc w stanie wyświetlić satelitarną
mapę miejsca, w którym obraz ten został
wykonany! Co więcej, dzięki usłudze Google
Street View, oferującej panoramiczne
widoki wybranych części świata (obecnie
głównie USA), możemy się wybrać na
wirtualną wycieczkę wokół domu (Rysunek
1), w którym to niesławne zdjęcie zostało
wykonane! Magia? Nie, to po prostu
zręczne wykorzystanie lekkomyślnie
udostępnionych metadanych.
Spróbujmy teraz samodzielnie
odnaleźć jakieś ciekawe meta informacje
zaszyte, w udostępnionych w globalnej
pajęczynie, zdjęciach. Przeglądając
stronę Prezydenta Rzeczypospolitej
Polskiej, postanowiłem sprawdzić, czy
metadane umieszczanych tam zdjęć
są profesjonalnie przygotowane i nie
zdradzają żadnych dodatkowych informacji.
Pod adresem http://www.prezydent.pl/
x.download?id=29526128 natrafiłem
na zwyczajne z pozoru zdjęcie,
przedstawiające Lecha Kaczyńskiego w
trakcie spotkania z obecnie urzędującym
papieżem. Jednak analiza metadanych
pliku JPG, za pomocą dodatku Exif Viewer,
ujawniła kilka ciekawych szczegółów.
Przede wszystkim, podgląd oryginalnego
zdjęcia (Rysunek 2) ujawnia, że ze zdjęcia
umieszczonego w serwisie, usunięta
została Pierwsza Dama. Czyżby Prezydent
wstydził się swej małżonki i kazał usuwać
ją z części zdjęć publikowanych na
oficjalnej stronie sprawowanego przez
siebie urzędu? Inne rzucające się w oczy
metadane, które niekoniecznie powinny
się znaleźć w ostatecznej wersji zdjęcia
to między innymi: By-line = Jacek Turczyk
oraz Originating Program = FotoWare
FotoStation. Najwyraźniej, zdjęcie to podaje
nam na tacy personalia fotografa, który
je wykonał oraz rodzaj używanego przez
niego (specjalistycznego i kosztownego)
oprogramowania. Analizując inne zdjęcia z
tego serwisu, będziemy w stanie odnaleźć
kolejne metadane, część zdjęć natomiast
w ogóle nie zawiera danych Exif. Widać
więc wyraźnie, że osoby odpowiedzialne za
serwis www.prezydent.pl, nie wypracowały
jeszcze odpowiedniej polityki zarządzania
metainformacjami. Dla zachowania
politycznej równowagi, dodam tylko, że
w serwisie www.premier.gov.pl, trudno
jest odnaleźć zdjęcie nie zawierające
interesujących metadanych.
Publikowanie zdjęć zawierających
metadane przyczynia się również do
powstania pewnych dodatkowych,
niewidocznych na pierwszy rzut oka
Rysunek 2.
Z części zdjęć umieszczonych na stronie Prezydenta RP usunięto Pierwszą
Damę
ATAK
38
HAKIN9 10/2009
MAM TWOJE (META)DANE!
39
HAKIN9
10/2009
zagrożeń. Zauważmy, że analizując
metadane otrzymywaliśmy bezpośrednio
lub pośrednio informacje o specyficznym
oprogramowaniu, używanym przez osoby
będące autorami lub modyfikujące
dane zdjęcie. Przykładowo, jeśli zdjęcie
zostało wykonane aparatem iPhone, autor
prawdopodobnie ma na komputerze
zainstalowane oprogramowanie ITunes.
Jeśli zdjęcie zostało wykonane aparatem
Canon EOS 400D, na komputerze autora
prawdopodobnie znajduje się dostarczone
przez producenta oprogramowanie. Jeśli
dane Exif mówią o ostatniej modyfikacji
przy użyciu pakietu Adobe Photoshop,
autor dysponuje prawdopodobnie
takim właśnie oprogramowaniem. W
metadanych znajdziemy również często
informacje podające konkretną wersję
oprogramowania. Sprytny cracker może
tego rodzaju informacje wykorzystać do
odpowiedniego (wymierzonym w konkretny
rodzaj oprogramowania) doboru exploita,
dzięki czemu będzie w stanie wykonać
skuteczny atak na komputery autora
fotografii. Tego rodzaju informacje (rodzaj
oraz wersja oprogramowania) mogą być
również wykorzystane w atakach typu spear
phishing. Spear phishing, stanowi coś w
rodzaju precyzyjnie wymierzonego (ang.
spear – włócznia) phishingu. Przykładowo,
wiedząc, że autor zdjęcia korzysta ze
specjalistycznego oprogramowania
FotoWare FotoStation Pro, intruz
podszywający się pod firmę FotoWare
może przesłać do swej ofiary specjalnie
dla niej spreparowaną wiadomość email.
Korzystając z symboliki oraz układów
graficznych wykorzystywanych przez firmę
FotoWare (informacje takie odnajdzie
choćby na stronie domowej producenta),
intruz może spreparować rzekomą
wiadomość przesyłaną przez tego
producenta specjalnie do zarejestrowanych
użytkowników pakietu FotoStation Pro,
zawierającą krytyczną poprawkę (bodącą
w rzeczywistości trojanem, wirusem,
itp.) oprogramowania i zalecającą
natychmiastową jej instalację. Znając
dodatkowo personalia atakowanej osoby
(przykładowo na podstawie wpisu By-line
= w metadanych zdjęcia), można taką
wiadomość zaadresować wykorzystując
odkryte imię i nazwisko, co dodatkowo
podniesie jej wiarygodność. Tego rodzaju,
precyzyjnie kierowany phising, ma dużo
większą szansę powodzenia, gdyż jest o
wiele bardziej wiarygodny, od przesyłanych
w setkach tysięcy egzemplarzy, zazwyczaj
bardzo ogólnych wiadomości nie
zaadresowanych do konkretnej osoby.
Kończąc rozważania na temat
metadanych zawartych w plikach
graficznych, warto wspomnieć o dwóch
serwisach, które mogą pomóc intruzom w
zdobyciu zdjęć zawierających interesujące
ich metadane. W przypadku, gdy intruz
odnajdzie zdjęcie opublikowane przez
interesującą go osobę lub instytucję,
jednak obraz będzie pozbawiony
metadanych, możliwa jest jeszcze jedna
sztuczka. W celu odnalezienia innych
wystąpień tego samego lub bardzo
podobnego zdjęcia w Internecie, cracker
może skorzystać z tzw. odwrotnego
wyszukiwania zdjęć (ang. reverse image
search). Mianowicie serwis tineye.com
oferuje dla zadanego zdjęcia (wskazanego
adresem URL lub załadowanego z
lokalnego dysku) wyszukiwanie jego
wszystkich wystąpień w Internecie. Daje to
intruzowi nadzieję, na odnalezienie innego
wystąpienia tego samego zdjęcia, być
może tym razem wraz z interesującymi
metadanymi. Do podobnych zastosowań
może się przydać serwis Wayback
Machine. Usługa ta umożliwia obejrzenie
archiwalnych wersji niemal dowolnej strony
WWW. To z kolei daje nadzieję, że nawet
jeśli obecnie dana instytucja publikuje
na swej stronie zdjęcia pozbawione
metadanych, to być może takie środki
ostrożności nie obowiązywały w przeszłości
i archiwalna wersja strony będzie zawierać
zdjęcia wzbogacone o meta informacje.
Jak widać z powyższych przykładów,
publikując zdjęcia w Internecie, warto
się zastanowić co jeszcze, wraz z
nimi, udostępniamy. Umieszczając
jakieś zdjęcie, które może nas w jakiś
sposób skompromitować, pamiętajmy,
że zasłonięcie twarzy lub wycięcie
jakiegoś fragmentu może nie wystarczyć.
Sprawdźmy, czy metadane nie zawierają
miniaturki oryginalnego zdjęcia!
Nie tylko zdjęcia
Generowanie ważnych z punktu widzenia
bezpieczeństwa informacji metadanych,
nie jest oczywiście wyłącznie domeną
plików graficznych. Meta informacje są
integrowane w wielu rozmaitych formatach
plików. Jednakże na szczególna uwagę,
głównie ze względu ich ogromnej
popularności, zasługują pliki w formatach
PDF oraz Microsoft Office.
Jak duże znaczenie mogą mieć
metadane zawarte w pliku DOC,
uczy historia Dennis Rader'a. Ten
seryjny morderca, który w latach 1974
– 1991 zamordował w USA 10 osób, był
szczególnie znany ze swego okrucieństwa
oraz... zamiłowania do korespondowania
z policją oraz mediami. Idąc z duchem
czasu, w roku 2005, Rader postanowił
przesłać wiadomość w postaci
elektronicznej, wykorzystując do tego
Rysunek 3.
Tekstowe metadane zawarte w pliku PDF
ATAK
40
HAKIN9 10/2009
MAM TWOJE (META)DANE!
41
HAKIN9
10/2009
celu dyskietkę magnetyczną. Policjanci,
analizując metadane zawarte w pliku DOC,
odnaleźli nazwę kościoła z którym Rader
był związany (Christ Lutheran Church)
oraz dane użytkownika, który ostatnio
zmodyfikował plik (Dennis). To oczywiście
wystarczyło do odnalezienia i aresztowania
seryjnego mordercy.
Znana jest również mniej drastyczna
historia David L. Smith'a. David, będąc
autorem znanego wirusa Melissa, został
odnaleziony dzięki danym GUID (ang.
Globally Unique Identifier) zawartym
w kilku plikach DOC. Pozwoliło to na
zatrzymanie i skazanie Shith'a na 20
miesięcy więzienia.
Najprostszą metodę odnalezienia
metadanych w dowolnym pliku, nawet w
takim, co do którego formatu nie jesteśmy
pewni, stanowi otwarcie go w prostym
edytorze tekstowym. Zazwyczaj obok
zupełnie nieczytelnych ciągów znaków,
uda się w ten sposób odnaleźć szereg
linii w formacie XML, zawierających
czytelne i dość łatwe do zinterpretowania
wpisy. Przykładowo otwierając w edytorze
Notepad++ przykładowy plik PDF (Rysunek
3), natrafimy na szereg interesujących
informacji. Wpis <xap:CreatorTool>Acrobat
PDFMaker 8.1 for Word</xap:CreatorTool>
wyraźnie sugeruje, że autor użył do
wygenerowania pliku program PDFMaker
8.1. W przypadku plików PDF, nie musimy
jednak zdawać się na niezbyt przyjemne
przeglądanie pliku w jego interpretacji
tekstowej. Wystarczy wspomniany plik
otworzyć w przeglądarce Adobe Reader,
a następnie wybrać opcję właściwości... z
menu plik. Naszym oczom ukaże się okno
(Rysunek 4) prezentujące szereg meta
informacji zawartych w pliku, między innymi:
• autor: "Ruhnka, Bagby",
• aplikacja: Acrobat PDFMaker 8.1 for
Word,
• twórca PDF: Acrobat Distiller 8.1.0
(Windows),
• wersja PDF: 1.6 (Acrobat 7.x).
Tego typu dane (rodzaj oraz
wersja używanego przez autora
oprogramowania), mogą zostać
wykorzystane przez intruza w doborze
skutecznego exploita oraz we
wspomnianych już atakach typu spear
phishing. Warto również zwrócić uwagę, że
linia Autor: "Ruhnka, Bagby", może zawierać
potencjalne loginy (jako, że będą to nazwy,
jakimi autor legitymuje się w trakcie pracy
z komputerem), które następnie cracker
może testować przy próbie uzyskania
dostępu do usług, z których korzysta autor,
podszywając się pod jego tożsamość.
W tym przypadku Ruhnka oraz Bagby to
nazwiska dwóch autorów dokumentu.
Podobne informacje możemy
odnaleźć analizując metadane zawarte w
plikach DOC (oraz innych typach plików
generowanych przez pakiet Microsoft
Office). Podobnie jak w przypadku
plików PDF, pliki wygenerowane przez
MS Word można otworzyć w edytorze
tekstu i odszukać metadane zawarte w
pliku. Nie jest to jednak zbyt wygodne.
W znacznie bardziej przejrzystej formie
dane te otrzymamy wyświetlając w
systemie Windows właściwości pliku
DOC i przechodząc na zakładkę
Podsumowanie. W testowym pliku, który
pobrałem ze strony www.abw.gov.pl,
odnalazłem następujące metadane:
• autor m_wilczek,
• ostatnio zapisany przez war009262.
Czy dane tego rodzaju mogą stanowić
jakieś zagrożenie? Nie można tego
wykluczyć, z pewnością mogą w jakiś
sposób pomóc w ustaleniu danych
osobowych autorów tego dokumentu lub
pomóc w ustaleniu wykorzystywanych
przez nich identyfikatorów użytkownika
(loginów). Dowodzi to również tego, że
Agencja Bezpieczeństwa Wewnętrznego,
nie zwraca szczególnej uwagi na problem
bezpieczeństwa metadanych.
Jak sam Microsoft ostrzega na swej
stronie, metadane zawarte w plikach Office
mogą ujawniać takie informacje jak:
• imię, nazwisko, inicjały,
• nazwę firmy lub organizacji,
• nazwę komputera,
• nazwę serwera plików lub dysku, na
którym zapisany został dokument,
• dane dotyczące użytych w
dokumencie obiektów OLE,
• dane personalne osób poprzednio
edytujących plik,
• dane dotyczące wersji dokumentu,
• informacje dotyczące użytego
szablonu dokumentu,
• komentarze.
Rysunek 4.
Metadane w pliku PDF – widok z poziomu przeglądarki Adobe Reader
ATAK
40
HAKIN9 10/2009
MAM TWOJE (META)DANE!
41
HAKIN9
10/2009
Widać więc wyraźnie, że osoba prywatna
lub instytucja publikująca w Internecie
własne pliki MS Office wiele ryzykuje. Z
pewnością tylko znikomy procent tych
plików jest publikowanych ze świadomością
tego, co jeszcze takie pliki niosą ze sobą
w prezencie dla wścibskich poszukiwaczy
meta informacji.
Na koniec chciałbym przedstawić
oprogramowanie stworzone specjalnie
z myślą o hurtowym zbieraniu i
przetwarzaniu metadanych, należących
do określonej organizacji. MetaGoofil, bo
o tym narzędziu mowa. To prawdziwy
kombajn, który pozwala na zbieranie
metadanych, wprost z różnego rodzaju
dokumentów opublikowanych na stronach
internetowych, wskazanej organizacji.
Działanie aplikacji jest dość proste,
mianowicie dla zadanej domeny oraz
typów plików, MetaGoofil wyszukuje
(w wyszukiwarce Google) dostępne
w jej obrębie pliki zawierające meta
informacje (np. site:domena.com filetype:
pdf). Następnie odnalezione pliki są
pobierane na lokalny dysk, a zawarte w
nich metadane wyciągane i filtrowane
przy pomocy biblioteki libextractor
(potężne możliwości tej biblioteki można
sprawdzić bezpośrednio na stronie http:
//gnunet.org/libextractor/demo.php3
?xlang=English). Zagregowane wyniki
zostają zapisane na dysku w postaci pliku
HTML. W celu skorzystania z możliwości
programu MetaGoofil, wystarczy go
uruchomić z następującymi parametrami:
./metagoofil.py -d domena.com -f all -l
100 -o domena.html -t temp. Znaczenie
poszczególnych parametrów wywołania
jest następujące:
• -d domena.com: nazwa domeny,
która ma zostać przeanalizowana,
• -f all: rodzaj branych pod uwagę
formatów plików (all oznacza
przeanalizowanie wszystkich
obsługiwanych typów plików),
• -l 100 : ograniczenie liczby
przetwarzanych wyników,
• -o domena.html: nazwa wynikowego
pliku HTML,
• -t temp: folder zawierający pobierane
do analizy pliki.
MetaGoofil jest w stanie zdobyć tak
wysoce interesujące informacje jak:
• potencjalne identyfikatory
użytkowników (loginy) stosowane w
danej organizacji,
• ścieżki do zasobów plikowych
(umożliwia to rozpoznanie
stosowanych systemów operacyjnych,
nazw sieciowych oraz nazw
udostępnianych udziałów) w których
analizowane pliki były edytowane,
• adresy MAC (na podstawie
identyfikatorów GUID plików Office, w
których to zaszyty jest adres fizyczny
bieżącego hosta) komputerów na
których edytowano pliki.
Nie będę po raz kolejny wspominał w jaki
sposób informacje tego rodzaju mogą
zostać wykorzystane. Jak widać, możliwości
tego skryptu (MetaGoofil to tak naprawdę
skrypt napisany w języku Python) są po
prostu ogromne. Przede wszystkim intruz
poszukujący informacji o danej organizacji,
nie musi wyszukiwać i analizować
pojedynczo każdego udostępnionego na
jej stronach pliku. Program nie przeoczy
żadnego szczegółu, a wszystkie zdobyte
informacje wywiadowcze poda w formie
przejrzystej strony HTML. Intruzowi
pozostanie już tylko wykorzystanie
tych informacji wywiadowczych do
zaplanowania skutecznego ataku.
Podsumowanie
Odpowiednie zabezpieczania metadanych
mogłoby z pewnością stanowić temat
odrębnej, obszernej publikacji. Jednakże już
pobieżna analiza tego zagadnienia wskazuje,
że nie jest to nic trudnego. Istnieją darmowe
aplikacje pozwalające na usunięcie z plików
JPG danych Exif. Microsoft udostępnia
darmowe dodatki do pakietu Office,
pozwalające na bezpowrotne usunięcie
metadanych z plików stworzonych w
najpopularniejszych formatach. W Internecie
aż roi się od niezależnych programów,
pozwalających na skuteczne zarządzanie
wieloma formatami metadanych. Wreszcie,
wielu wycieków informacji udałoby się
uniknąć, nie udostępniając w globalnej sieci
nienadających się przecież do tego plików
DOC. MS Word to program stworzony z
myślą o edycji plików i tylko do tego powinien
być stosowany. Nie jest to z pewnością
format stworzony z myślą o publikacji,
szczególnie na forum globalnej pajęczyny!
Dlaczego więc wciąż osoby prywatne
oraz poważne instytucje (kancelaria
Prezydenta RP, ABW) udostępniają na
swych stronach tysiące meta informacji?
W przypadku osób prywatnych, taki stan
rzeczy tłumaczy się najczęściej brakiem
odpowiedniej wiedzy i świadomości
zagrożeń. Czy jednak w ten sposób można
wytłumaczyć Agencję Bezpieczeństwa
Wewnętrznego?
Wszelkiego rodzaju instytucje powinny
się poważnie zastanowić, czy nie warto
byłoby wprowadzić spójnej polityki
zarządzania metadanymi. Być może
metadane są w wielu przypadkach na
tyle krytyczne, że należy je uwzględnić
w zintegrowanych procedurach
bezpieczeństwa informatycznego?
Wojciech Smol
Autor jest absolwentem wydziału Automatyki, Elektroniki
i Informatyki Politechniki Śląskiej w Gliwicach. Ukończył
studia na kierunku informatyka, o specjalności Bazy
danych, sieci i systemy komputerowe. Pracuje jako
administrator sieci i systemów komputerowych w firmie
Mostostal Zabrze Holding S.A.
Kontakt z autorem: wojciech.smol@mz.pl.
W Sieci
• http://www.cert.org/ – Computer Emergency Response Team,
• http://www.remote-exploit.org/backtrack.html – BackTrack,
• http://exif.org/specifications.html – specyfikacja Exif,
• http://en.wikipedia.org/wiki/Catherine_Schwartz – Exif thumbnail story,
• http://encyclopediadramatica.com/User:Darkanaku/Nephew_chan – Nephew chan story,
• http://www.microsoft.com/poland/athome/security/email/spear_phishing.mspx – Czym
są ataki typu spear phishing?,
• http://en.wikipedia.org/wiki/Dennis_Rader – Dennis Rader story,
• http://en.wikipedia.org/wiki/Melissa_virus – David L. Smith story,
• http://office.microsoft.com/en-us/help/HA010776461033.aspx – Metadata in MS Office,
• http://www.edge-security.com/metagoofil.php – Metadata analyzer, information gathering tool,
• http://gnunet.org/libextractor/demo.php3?xlang=English – libExtractor – Online Demo,
• http://www.irongeek.com/ – Irongeek.