90 IMMiiIhry
Jeżeli dano zapisaliśmy w polskiej lokalizacji programu Excel, to po zapis leli w formacie .csv separatorem kolumn będzie średnik, a kropką dziesiętną bęć(-i! przecinak. W tym przypadku najodpowiedniejszą funkcją do odczytu takich dais jest funkcja read.csv2(), jeżeli korzystamy z angielskiej wersji Excela, to krop dziesiętną jest kropka, a najodpowiedniejszą funkcją do odczytu tych danych funkcja read.csv().
W tabeli 2.7 przedstawiamy opis wszystkich argumentów funkcji read.tablef) angielską wersję tych opisów, znaleźć można w pliku pomocy do funkcji read. table( Jak widzimy argumentów jest całkiem sporo, warto choć raz o wszystkich prze
Tabela 2.7: Argumenty funkcji read.tablc(utHs)
file
>■,
Pole o wartości typu znakowego. Jest to jedyny argument Obr ligatoryjny, tzn. musi być jawnie wskazany. Jego wartość, to ścieżka wskazująca plik, w którym znajdują się dane. Można wskazać plik na dyskach lokalnych lub wskazać plik w Internecie (podając adres URL określający, na którym komputerze i w jakim katalogu ten plik się znajduje). To pole może również określać połączenie lub gniazdo. Jeżeli zamiast nazwy pliku podamy wartość “clipboard", to dane będą czytane ze schowka systemowego (co również jest wygodnym sposobem przenoszenia danych z różnych „officeów”).
header
sep
quote
dec
rou.names
Pole o wartości typu logicznego. Jeżeli wartość w tym polu wynosi TRUE, to pierwszy wiersz w pliku będzie traktowany jako opis nazw zmiennych. Jeżeli ten argument nie zostanie podany, a w pierwszej linii w pliku jest o jedno pole mniej pól niż w kolejnych liniach, to R też potraktuje tę linię jako nagłówek automatycznie.
Pole o wartości typu znakowego. Wskazany łańcuch znaków będzie traktowany jako separator kolejnych pól. Wartość 1 (domyślna) powoduje, że każdy biały znak (spacja lub ich ciąg, tabulator, znak nowej linii) jest traktowany jako separator. Pole o wartości typu znakowego. Każdy znak występujący w tym łańcuchu jest traktowany jako znak cytowania. Tekst występujący pomiędzy dwoma znakami cytowania traktowany jest jako jedno pole (nawet, jeżeli występują_w nim separatory). Pole o wartości typu znakowego. Określa jaki znak reprezentuje kropkę dziesiętną. Jeżeli dane zapisane są zgodnie z polskimi standardami, to kropką dziesiętną jest znak (przecinek). Pole o wartości typu wektor napisów lub pojedyncza liczba.. Jeżeli jest to wektor łańcuchów znaków, to będzie on traktowany jako nazwy kolejnych wierszy. Jeżeli tym argumentem jest liczba, to jest ona traktowana jako numer kolumny w odczytywanym pliku, która zawiera nazwy wierszy. Jeżeli dane zawierają nagłówek (a więc parametr header»TRUE) i pierwsza linia ma o jedno polo mniej niż pozostałe, to pierwsza kolumna automatycznie traktowana jest jako wektor z nazwami wierszy.
col.names
Wektor napisów. Tym argumentom można określić nazwy kolumn. Jeżeli ton argument nlu jest podany, a w pliku nie ma nagłówka, to nazwy kolejnych zmiennych konstruowane są przez złączenie litery "V" z numerom kolumny.
na.strings
colClasses
skip
check.names Wartość typu logicznego. Weryfikuje, czy nazwy zmiennych są
__poprawno, bez niedozwolonych znaków i powtórzeń.
fili Pole o wartości typu logicznego. Jeżeli kolejne linie mają róż
ne liczby pól, a argument fill-FALSE (domyślnie) to funkcja zakończy się błędem. Jeżeli argument fill=TRUE, to do krótszych wierszy dodawane będą na koniec wartości NA, tak aby uzupełnić wiersze do równej długości, blank. lines .skip Pole o wartości typu logicznego. Jeżeli to pole ma wartość TRUE, tii przy wczytywaniu danych pominięte będą puste linie
comment.char
allowEscapes
Wektor zmiennych typu logicznego lub liczbowego. Domyślnie, każde pole, które nie jest konwertowane na liczbę rzeczywistą lub wartość logiczną, jest konwertowane na zmienną typu factor. Jeżeli parametr as.is jest wektorem wartości logicznych, to jest on traktowany jako wskazanie, które kolumny mogą być konwertowane na typ factor, a które nie. Wektor liczb jest traktowany jako indeksy kolumn, które nie powinny być konwertowane.
Wektor napisów. Wskazuje jakie wartości mają być traktowane jako NA, czyli jakie wartości określają brakujące obserwacje. Dodatkowo, jako brakujące obserwacje oznaczane są też puste pola w kolumnach o wartościach typu liczbowego lub logicznego Wektor znaków. Każdy znak określa typ kolejnej zmiennej (kolumny). Dopuszczalne wartości to:
• NA - domyślna wartość, oznacza automatyczną konwersje,
• NULL - ta kolumna będzie pominięta,
• jedna z klas atomowych (logical, integer, numeric, com-p!ex, character, raw, fator, Datę lub POSIXct),
• nazwa funkcji konwertującą dany napis na obiekt odpowiedniej klasy (przydatne, jeżeli korzystamy z własnych klas lub odczytujemy dane o specyficznym formacie).
Pole o wartości typu liczbowego. Określa jaka maksymalna liczba wierszy ma być odczytana.
Pole o wartości typu liczbowego. Określa, ile początkowych linii pliku ma być pominięte, przed rozpoczęciem czytauia danych.
Pole o wartości typu znakowego. Ten znak traktowany jest jako znak komentarza. Po wystąpieniu tego znaku zawartość do końca linii jest ignorowana.
Pole o wartości typu logicznego. Jeżeli jest równa TRUE, to tekst odczytywany jest zgodnie z zasadami eskejpowania znaków spe-cjalnych. Przykładowo napisy \t lub \n są zamieniane na od- i powiednio znak tabulacji oraz znak nowej linii. Wartość FALSE (domyślna) powoduje, że tekst czytany jest dosłownie, bez żadnych interpretacji.
stringsAsFactors Pole o wartości typu logicznego. Jeżeli jest równa TRUE, to lań- i _ ___cudy znaków będą konwertowane na typ wyliczeniowy factor.