E – LEARNING
- DEFINICJA I HISTORIA
- KLASYFIKACJA
- MODELE
- NARZĘDZIA I STANDARDY
- ZALETY I WADY
- BARIERY
- E-PORTALE
E - PLAGIAT
PODSTAWOWE OKREŚLENIA
• DL-DISTANCE LEARNING – nauczanie na
odległość, zdalna edukacja (distance education)
• E-LEARNING – elektroniczne nauczanie
• JUST IN TIME LEARNING – nauczanie w miarę
potrzeb, a nie „na zapas”
• RELEARNING – uczenie powtórne, dokształcanie
• LIFELONG LEARNING – kształcenie ustawiczne,
edukacja przez całe życie
• WAREHOUSING KNOWLEDGE – wiedza
magazynowana w bibliotekach
• BLENDED LEARNING – nauczanie mieszane,
hybrydowe (tradycyjne + e-learning) skuteczność
ok.70%
APLIKACJE KOMPUTEROWE
DL
• CBT (Computer Based Training) – wszelkie formy
nauczania w postaci elektronicznej dostarczone
uczniom do samodzielnej nauki za pośrednictwem
komputera.
• CME (Computer Mediated Education) – ogólne
określenie aplikacji wspomagających DL
• CMC (Computer Mediated Communication) –
nauczanie w trybie rzeczywistym on-line
• CAL (Computer Assisted Learning) – nauczanie
wspomagane komputerowo
• CAI (Computer Aided Instruction) – wspomaganie
komputerowe i graficzne dydaktyki
• CMS (Computer Management System)
SYSTEMY INFORMATYCZNE
DL
• LMS (Learning Management System) – system
informatyczny stosowany do kształcenia na odległość
przy pomocy Internetu. Pozwala na przechowywanie,
zarządzanie i publikowanie materiałów dydaktycznych
w postaci kursów WBT, organizowanie procesu
dydaktycznego, kontrolowanie postępów w nauce,
raportowanie. Narzędzie zdalnego szkolenia w formie
samokształcenia on-line, w trybie synchronicznym i
asynchronicznym oraz pracy grupowej
• WBT (Web Based Training) – materiał dydaktyczny w
postaci multimedialnej gotowy do publikacji.
• LCMS (Learning Content Management System) =
LMS + narzędzia tworzenia WBT.
• DL=CBT+WBT+LCMS - courseware
NAUCZANIE NA ODLEGŁOŚĆ
• Metoda dydaktyczna, w której:
- nauczyciele i uczniowie są oddaleni od siebie,
- nie kontaktują się ze sobą w tym samym czasie,
- ale mogą się kontaktować w trybie asynchronicznym,
- wykorzystywane są współczesne technologie
telekomunikacyjne (głos, obraz, video, telefon, fax,
radio, TV, film, internet, łączność satelitarna),
- bardziej aktywną stroną jest uczeń a nie nauczyciel,
- samokształcenie przeważa nad nauczaniem,
- a nad procesem nauczania czuwa instytucja
edukacyjna.
• Nauczanie na odległość, edukacja na odległość,
zdalne nauczanie, wirtualna edukacja, nauczanie
przez Internet.
HISTORIA DL
• 1700 – nauczanie korespondencyjne w USA
• 1840 – korespondencyjne kursy stenografii (I. Pitman)
• 1883 – uniwersytet korespondencyjny (Nowy Jork)
• 1890 – Międzynarodowa Szkoła Korespondencyjna (USA)
• 1909 – DL w University of Queensland Australia
• 1910 – katalog filmów instruktażowych (USA)
• 1925 – kursy radiowe (Univ. Iowa)
• 1946 – DL w University of South Africa
• 1948 – audycje oświatowe w TV (Filadelfia)
• 1960 – komputerowe programy edukacyjne (Univ.
Stanford)
• 1969 – Open University (W. Brytania)
• 1972 – Universidade Nacional de Education a Distancia
Madryt
• 1974 – FernUniversitat in Hagen (RFN)
• 1980 – techniki telekonferencyjne
• 1990 – e-learning, i-learning
EPOKI DL
D-Learning
E-
Learning
M-
Learning
XVIII-XIX wiek
Rewolucja
Przemysłowa
XX wiek
Rewolucja
Elektroniczna
XXI wiek
Rewolucja Bezprzewodowa
EPOKI DL
• I FAZA - do roku 1960 (D-learning, DL):
- kształcenie korespondencyjne (poczta),
- nauczanie za pomocą radia,
- film, telewizja edukacyjna,
- jw. + telefon, faks, magnetofon.
• II FAZA - lata 1960-1990 (CBT)
- nauczanie wspomagane komputerem,
- edu-ROM’y, multimedia,
- tele- i wideokonferencje.
• III FAZA - po roku 1990 (E-learning, i-learning,
WBT)
- WWW, czat, forum dyskusyjne, Scype
- mobilne nauczanie, WAP, GPRS, UMTS
• 3J = {just enough, just for me, just in time}
M-LEARNING
• Mobilne nauczanie przy użyciu urządzeń
bezprzewodowych, przenośnych komputerów,
palmtopów, telefonów komórkowych.
• Technologie: WAP (Wireless Application
Protocol), GPRS (General Packet Radio Service),
Global System for Mobile Commnications, UMTS
(Universal Mobile Telecommunications System,
3G), Blutooth, WiFi, WiMax, IEEE 802.11,
Infrared Data Association.
• Podstawowa wada to małe rozmiary ekranów jak
również trudniejsza nawigacja.
• www.mlearningworld.com www.m-learning.pl
KLASYFIKACJA DL
• Wg dostępności w czasie:
- tryb synchroniczny, wymagana obecność w tym
samym czasie uczniów i nauczyciela (komunikator,
czat, tele-wideokonferencja, wirtualna tablica),
- tryb asynchronicznym, nie wymagana jednoczesna
obecność uczniów i nauczyciela (e-mail, forum
dyskusyjne, kursy multimedialne, biblioteka e-
książek i e-wykładów, źródła internetowe).
• Wg stosowanych technik:
- radio i telewizja,
- nauczanie wspomagane komputerem (edu-ROMy)
- e-nauczanie z wykorzystaniem internetu (WWW,
filmy, P2P, czat, komunikatory, e-konferencje).
KLASYFIKACJA DL
• Wg relacji uczeń-nauczyciel:
- kursy z obecnością nauczyciela (zarówno w
trybie asynchronicznym jak i synchronicznym)
- kursy bez udziału nauczyciela (nauczanie
programowane w oparciu o kursy multimedialne)
- nauka samodzielna
• Wg relacji do nauczania tradycyjnego:
- uzupełnienie nauczania tradycyjnego
- zastąpienie nauczania tradycyjnego (wybranych
przedmiotów lub całego programu nauczania)
• Wg stopnia formalizacji:
- formalne, ściśle powiązane z programem
nauczania
- nieformalne, wynikające z zainteresowań ucznia.
KLASYFIKACJA DL
Czas
Miejs
ce
ten sam
różny
to
samo
Nauczanie
synchroniczne
- tradycyjna
klasa
- F2F (face to
face)
Nauczanie
asynchroniczne
- egzamin w
ośrodku
dydaktycznym
różne
Nauczanie
synchroniczne
- chat, telefon
-
videokonferencj
a
Nauczanie
asynchroniczne
- email,
- edu-ROM
KLASYFIKACJA DL
To samo
miejsce
Różne miejsca
Tradycyjna
klasa
E-mail,
forum
Edu-ROM
chat, komunikator
videokonferencja
Różny czas
Ten sam
czas
MODELE DL
• Model Studiów Niezależnych – udostępnianie studentowi
materiału wraz ze zdefiniowanymi wymaganiami. Student nie
może liczyć na wsparcie ani prowadzącego, ani instrukcji.
• Model Instruktor / Student - studenci wspomagani są
wyłącznie przez instrukcje szkolenia, pracując z zadanym
materiałem. Ocena szkolenia mierzona jest przez system na
podstawie testów.
• Model Wykładowca / Student - główną rolę odgrywa
wykładowca, który nadzoruje pracę studenta.
• Model Małych Grup - uczestnicy kursu podzieleni są na
małe grupy, zwykle czteroosobowe, które realizują zadane
projekty.
• Model Pracy Grupowej - uczestnicy kursu realizują wspólny
projekt pod kierunkiem prowadzącego.
• Model Sokratejski - wiedza jest współdzielona w ramach
dyskusji prowadzonej i wspomaganej przez prowadzącego.
NARZĘDZIA DL
•
Electronic bulletin board - elektroniczna tablica
ogłoszeniowa pozwalająca na wymianę
informacji.
•
E-mail – poczta elektroniczna.
•
Grupy dyskusyjne (Usenet, news, IRC) – otwarta.
•
Lista korespondencyjna – zamknięta.
•
WWW (World Wide Web) – multimedialność,
hipertekstowość, interakcyjność, uniwersalność.
•
Chat – tekstowy kontakt bezpośredni
(synchroniczny).
•
Komunikatory.
•
Łączność głosowa, telefonia internetowa (Skype).
•
Wirtualna społeczność = {lista mailowa, lista
dyskusyjna, chat, Skype, głosowania}
NARZĘDZIA DL
•
FAQ – indeks najczęściej zadawanych pytań.
•
System raportowania i oceniania studentów.
•
Baza testów i quizów online: multiple-choice,
multiple-answer, fill-in-the-blank, matching lists,
ordering list.
•
Tele-wideokonferencje – kamery, karta
dźwiękowa, mikrofon, internet, oprogramowanie.
•
E-mentoring – zdalne merytoryczne wsparcie
osób szkolonych przez osobę bardziej
doświadczoną, pełniącą rolę trenera.
•
Computer Supported Collaborative Work –
wspólna praca nad jednym projektem. MS
NetMeeting
•
Standardy i systemy oceny jakości oraz
efektywności kursów DL.
MATERIAŁY DL - CONTENT
• Dokumenty tekstowe i graficzne – DOC, RTF,
PDF, SXW (OpenOffice), HTML.
• Dokumenty multimedialne - PPT, PPS, MHT
(Power Point), STI (OpenOffice), SWF (Flash).
• Zbiory audio i wideo:
- skompresowane do przekopiowania i
odtwarzania,
- strumieniowe (można odtwarzać bez
kopiowania).
• Aplikacje interaktywne i symulatory – aplety
Javy, obiekty ActiveX, aplikacje Flash i
AuthorWare (Macromedia)
• Poszczególne aplikacje integrują się co oznacza,
żę można osadzać animacje, dźwięk, filmy w
dokumentach tekstowych.
STANDARDY DL
• Sharable Content Object Reference Model
(SCORM) – obiektowy, otwarty model treści
szkoleniowych, złożony z autonomicznych ale
powiązanych części. Składa się z modelu
agregacji treści (Content Aggregation Model)
bazującego na technologii webowej oraz
środowiska uruchomieniowego (Run-Time
Environment). USA, DoD, 2003-2004.
• E-learning Courseware Certification (ECC) –
dla asynchronicznych kursów bazujących na
stronach WWW i multimediach. Sposoby
nawaigacji, lokalizacji, odpowiedzi zwrotnych,
odnośników, pomocy, czytelności i jakości
publikowanych materiałów dydaktycznych.
SILVER – METODA OCENY DL
• S – struktura, sposób organizacji zawartości
witryny, jej układ logiczny, jakość treści,
adekwatność do potrzeb,
• I – interaktywność,
• L – linki, obecność odsyłaczy do innych witryn
o podobnej tematyce, poszerzających wiedzę,
• V – wizualna ocena witryny, łatwość czytania,
kolorystyka, kroje czcionki, rola grafiki,
• E – ease, łatwość nawigacji w obrębie witryny,
sprawne przemieszczanie się w dokumencie,
• R – reputacja, wiarygodność autorów strony,
ich pozycji oraz instytucji, którą reprezentują.
INFRASTRUKTURA DL
• Dostęp do internetu, serwer, sprzęt multimedialny
• Platforma zarządzania szkoleniami (LMS)
• Standardy tworzenia kontentu (SCORM, ECC)
• Obiekty szkoleniowe
• Biblioteka kursów – „miękkie” (finanse,
zarządzanie, marketing) oraz „twarde”
(informatyka, ekonometria)
• Baza zadań domowych i testów online
• Edytory tekstu, edytory html
• Edytory grafiki, animacji, prezentacji, aplikacje do
obróbki dźwięku i filmów
• Specjalistyczne aplikacje do tworzenia kursów i
testów
ZAŁOŻENIA DL
• Wstępne informacje o szkoleniu dostępne w
trybie online.
• Każde szkolenie powinno uwzględniać wstępny
informator z zakresu nawigacji i używania
funkcji szkolenia.
• Syllabus szkolenia dostępny w trakcie pierwszej
lekcji.
• Atrakcyjne materiały prezentowane online.
• Szkolenie powinno być w pełni funkcjonalne.
• Materiały prezentowane w sieci winny spełniać
podobne funkcje jak w tradycyjnej szkole.
• Materiały edukacyjne prezentowane w sposób
dostosowany do różnych stylów uczenia się ludzi.
ZAŁOŻENIA DL
• Materiały edukacyjne prezentowane w
sposób logiczny, tak aby użytkownicy mogli z
łatwością orientować się w nich.
• Użytkownicy powinni móc łatwo i szybko
porozumieć się online z prowadzącym.
• Użytkownicy powinni móc „mówić” do całej
klasy podczas „otwartych dyskusji” e-
mailowych na dany temat.
• Szkolenie musi podtrzymywać uwagę i
zainteresowanie użytkownika.
• Dbałość o poprawność języka.
• Szybkość ładowania się witryn edukacyjnych.
niski Poziom zaawansowania szkolenia
wysoki
E-mail
E-dokumenty
Slajdy
Instrukcje
Szkolenia e-learning z
nagraniami audio i
video
Wirtualna klasa
Interaktywne
szkolenie e-learning
Symulatory,
Gry
90% z tego co zrobili
70% z tego co powiedzieli
lub napisali
50% z tego co usłyszeli
lub zobaczyli
30% z tego co zobaczyli
E-LEARNING A
PAMIĘĆ
10% z tego co przeczytali
ZALETY DL
• Nauczanie z dowolnego miejsca, oddalonego od
szkoły, (Alaska, Australia) i w dowolnym czasie.
• Brak barier (niepełnosprawni, osoby pracujące,
obarczone obowiązkami domowymi - dzieci, chore).
• Stosunkowo niskie koszty (dojazd, materiały).
• Elastyczność, indywidualizacja (dopasowanie do
własnych preferencji i stylu życia, dowolny czas i
tempo nauki).
• Mniejszy stress.
• Większa efektywność, szybkość, atrakcyjność,
nowoczesność (działanie na różne zmysły).
• Możliwość przeszkolenia dużej liczby osób.
• Kształcenie ustawiczne oraz korporacyjne (CISCO
Systems).
BARIERY DL
• Brak uregulowań prawnych w zakresie regulacji studiów
oraz ochrony praw autorskich.
• Zły stan infrastruktury, niska przepustowość, brak
dostępu do komputerów multimedialnych.
• Koszty połączeń telekomunikacyjnych.
• Nieprzygotowana kadra pedagogiczna.
• Brak praktyk, laboratoriów, ćwiczeń.
• Brak bezpośredniego kontaktu, ograniczona interakcja.
• Gorsze możliwości pracy zespołowej.
• Bariery DL w Polsce wg www.edustrada.pl (2002):
- ograniczony dostęp do internetu 50%; - mentalność
27%;
- uboga oferta kursów 11%; - brak wiedzy dotyczącej DL
7%.
CLASSROOM EDUCATION &
DL
C-edukcja
E-edukacja
Przekaz wiedzy Standardowy
Zindywidualizowan
y
Termin zajęć
Określony
Dowolny
Miejsce nauki
Określone
Dowolne
Czas nauki
Określony
Zależny od potrzeb
Postawa
studenta
Pasywna
Aktywna
Dominant
Wykładowca
Student
Źródła
informacji
Wykład,
podręcznik
WWW, e-
prezentacje
Cel kształcenia
Wiedza ogólna
Wiedza aktualnie
potrzebna
Wymagania
Dużo czasu na
naukę
Samodyscyplina,
motywacja
Koszty
100%
20-40%
RANKING
E-LEARNING
READINESS
2003
The
Economist
Lp
Kraj
Pkt
1
Szwecja
8,42
2
Kanada
8,40
3
USA
8,37
4
Finlandia
8,25
5
Korea Płd.
8,24
6
Dania
8,00
7
W.Brytania
7,98
8
Norwegia
7,93
9
Szwajcaria
7,72
10
Australia
7,71
33
Polska
5,73
50
Turcja
4,33
60
Nigeria
2,82
www.merlot.org -
darmowa biblioteka
kursów DL
CISAER: Courses on the
Internet: Survey,
Analysis, Evaluation,
Recommendation –
program UE
http://home.nettskolen.nk
i.no/~morten/cisaer/ -
biblioteka kursów DL
programu CISAER
FAKTY
• 1 mln kursów w Sieci (2002)
• W USA kształci się ok. 3 mln osób w trybie DL (2002)
• 90% kursów powstaje w AP (USA 75%, Kanada 16%,
Australia 5%).
• Zmiany w firmach USA wskutek użycia DL:
- czas szkoleń zredukowany do 70%,
- koszty podróży zredukowane do 50%,
- całkowity koszt szkoleń zredukowany o 75%,
- produktywność działów handlowych wzrasta o 40%,
- liczba wyszkolonych pracowników wzrasta o 25%.
• W Polsce tylko 7% internautów korzystało z DL (2004)
• Efekty nauczania F2F oraz DL są podobne.
PROJEKTY DL W POLSCE
• Nauczanie korespondencyjne w Uniwersytecie
Krakowskim (1776)
• Politechnika Telewizyjna (1966-1971)
• ESKK – Europejska Szkoła Kształcenia
Korespondencyjnego (od 1990)
• Teleuniwersytet POLSAT
• Polski Uniwersytet Wirtualny (UMCS 2000,
WSH-E w Łodzi 2002)
. Studia na
kierunku informatyki, ZiM, politologii i
pielęgniarstwa.
Program studiów = stacjonarne studia zaoczne.
Kursy multimedialne, projekty, egzamin
klasyczny, system punktowy.
JEDNOSTKI DL W POLSCE
•
W Polsce jest ponad 20 jednostek DL (2003)
•
Szkoła Technik Komputerowych w Warszawie
•
pamctr.uni.lodz.pl - Polsko-Amerykańskie
Centrum Zarządzania przy Uniwersytecie
Łódzkim
•
Multimedialnej Edukacji UW
•
e-edukacja.pl - Otwarte Studia Internetowe
Akademii Polonijnej w Częstochowie
•
www.e-uczelnia.edu.pl - Wyższa Szkoła
Ekonomiczno-Humanistyczna w Bielsku - Białej
•
www.unigis.uj.edu.pl - Studia podyplomowe
Systemów Informacji Geograficznej GIS przy UJ
E-PORTALE W POLSCE
• www.nbportal.pl - portal NBP
• www.e-sgh.pl - portal SGH
• www.eduseek.pl - ogólny portal edukacyjny
• www.edu.com.pl - Internetowe Centrum
Informacji Edukacyjnej
• www.ceo.org.pl - Centrum Edukacji
Obywatelskiej
• www.ckd.us.edu.pl - Platforma Kształcenia
Dystansowego US
• www.szkola.newsweek.pl - program
edukacyjny tygodnika Newsweek
• www.interklasa.pl - katalog polskich zasobów
edukacyjnych w sieci
PLAGIAT
•
Fr. plagiatus – skradziony. Skopiowanie cudzej
pracy (w części lub w całości) i przedstawienie
jej pod własnym nazwiskiem.
•
Guglielmo Marconi uzyskuje Nagrodę Nobla w
1909 za wynalezienie radia, ale w 1943
przegrywa proces o pierwszeństwo z Nikolą
Teslą. Ponadto w tym samym czasie radio
wynalazł Aleksander Popow.
•
Zwykle dotyczy tekstów napisanych w danym
języku, ale także tekstów tłumaczonych z obcych
języków, wynalazków, pomysłów, grafiki,
obrazów, dzieł architektonicznych, witryn WWW,
kodów programów komputerowych, przemówień.
TYPY PLAGIATÓW
• Plagiat jawny (I typ) – wykorzystanie utworu w
niezmienionej lub prawie niezmienionej postaci.
• Plagiat kompilacyjny (II typ) – stworzenie nowego
tekstu przez prostą kompilację fragmentów różnych
prac, często pochodzących od różnych autorów.
• Plagiat ukryty (III typ) – utwór jest znacznie
przerobiony, przekształcony, sparafrazowany.
Napisany jest własnymi słowami, przy
zastosowaniu: redukcji zdań, mieszania i kombinacji
zdań, składniowej transformacji zdań, leksykalnego
parafrazowania, przestawiania słów w zdaniach,
zamiana słów na synonimy.
• Typy kombinacyjne
METODY ANTYPLAGIATOWE
• Intuicyjne: te same błędy (ortograficzne,
pojęciowe) w tekście; ta sama liczba błędów;
długie sekwencje podobnych słów; identyczna
kolejność pojawiania się pewnych fraz i faktów;
podobna częstotliwość występowania określonych
słów; zróżnicowany poziom merytoryczny tekstu.
• Statystyczne: nieistotne różnice w średniej
długości wyrazów w akapicie lub zdaniu; w
średniej ilości słów w akapicie lub zdaniu; w ilości
specyficznych konstrukcji gramatycznych (tryb
pasywny); w ilości wystąpień poszczególnych słów.
• Zaawansowane: stosowane w antyplagiatowych
narzędziach automatycznych
SERWISY ANTYPLAGIATOWE
•
Plagiarism.org – największy i najlepszy serwis
internetowy. Baza liczy 5 mld witryn, książek i
artykułów. System wykrywa zastępowanie słów
innymi, dodawanie zdań, reorganizację dokumentu,
wyklucza trywialne podobieństwa (długie nazwy
organizacji). Oryginalność dokumentu oceniana jest
w skali [0;1], frazy podejrzane o plagiat są
pogrubione.
•
Turnitin.com – witryna dla uczelni. Wykładowca
rejestruje klasę, zleca studentom umieszczenie
swojej pracy w określonym czasie w serwisie.
Najpierw sprawdzane są prace w bazie prac
studenckich potem w pozostałych bazach. Raport ze
współczynnikami podobieństw z linkami do źródeł
ew. plagiatu wysyłany jest do wykładowcy.
SERWISY ANTYPLAGIATOWE
• iThenticate.com – witryna podobna do Turnitin ale
przeznaczona dla firm. Duża dbałość o zachowanie
maksymalnej prywatności. Analizowane teksty nie
są dodawane do bazy danych.
• MyDropBox.com – witryna dla uczelni podobna do
Turnitin. Gwarancja zachowania prywatności
dokumentów i brak dostępu do prac z innych kont.
• Scriptum.ca – najnowszy serwis dla uczelni (płatny).
Dokumenty wejściowe mogą być w wielu różnych
formatach (pdf, doc, rtf, tekst niesformatowany).
Możliwe jest wstawianie notatek, zaznaczanie
fragmentów tekstu przez wykładowcę w
analizowanym dokumencie. Free demo.
NARZĘDZIA INTERNETOWE
• WCopyfind 2.5 (free) – porównuje własne dokumenty
http://www.plagiarism.phys.virginia.edu/Wsoftware.h
tml
• Sherlock (free) – www.dcs.warwick.ac.uk/boss
• EVE2 (trial 15 dni) –
• CopyCatch –
• WordCheck Keyword – www.wordchecksystems.com
• YAP3 (Yet Another Plague) – www.cs.usyd.edu.au
• OrCheck (Originality Checker) –
cise.sbu.ac.uk/orcheck
• PRICE/VAST – cise.isbu.ac.uk/tools
• Plagiat.pl – szuka długich ciągów (>4) tych samych,
sąsiadujących ze sobą słów
PRZYKŁADY PRAKTYCZNE
• Program Sherlock
www.cs.usyd.edu.au/~scilect/sherlock
- 20-30% możliwość wykorzystania fragmentów prac
- 30-50% podejrzenie plagiatu
- pow. 50% uzasadnione podejrzenie plagiatu
• AE Kraków, 1500 prac zaliczeniowych, 2004
- 10% prac ze wsk. podobieństwa powyżej 30%
- 5% prac ze wsk. podobieństwa powyżej 50%
• Program plagiat.pl stosuje już 25 uczelni (2004).
Prace ze współczynnikiem podobieństwa <5-10%
uważa się za oryginalne, powyżej 50% program
przestaje sprawdzać.
• UMCS (plagiat.pl). Średni współczynnik podobieństwa
w pierwszym roku (2003) funkcjonowania systemu to
20%, a w drugim roku 9%.
ALGORYTM NAIWNY
• Wykrywanie ciągów słów (string) w tekstach A i
B.
• Dla każdego słowa z tekstu A szuka się
identycznego słowa w tekście B.
• Następnie pobiera się kolejne słowa z tekstu A i
sprawdza czy występują one w tej samej
kolejności w tekście B.
• Szuka się maksymalnego ciągu identycznych (co
do znaczenia i kolejności) słów i zapamiętuje go.
• Można ustalić zadaną minimalną liczebność
szukanych ciągów słów, np. w plagiat.pl jest to 5
i więcej.
ALGORYTM DOT PLOT
• Stosowany do porównywania łańcuchów
DNA.
• Każdy element ciągu A (tekst, słowo, znak,
zdanie, gen, wyrażenie) porównujemy z
każdym elementem ciągu B.
• Fakt identyczności zaznaczamy w macierzy
dwuwymiarowej kropką (Dot Plot).
Najdłuższe ciągi kropek (łańcuchy)
odpowiadają elementom występującym w
identycznej kolejności.
To be or not to be
Be to or to be not
To X
X
To
X
X
be
X
X
be X
X
or
X
or
X
not
X
not
X
to X
X
to
X
X
be
X
X
be X
X
ALGORYTM VECTOR SPACE
• Dokumenty (teksty) przedstawić jako wektory słów
(terms) które znajdują się w analizowanych tekstach.
• Nie jest ważna kolejność występowania słów lecz ich
częstość i fakt ich nie/obecności.
• Słowa w dokumencie posortować wg ilości wystąpień.
• Usunąć słowa z początku listy (tzw. stop lista „i”
„oraz”, „lub” „z”), a także słowa z końca listy, które
występują w dokumencie sporadycznie (1-2 x).
• Zamienić słowa na ich odpowiedniki bazowe,
np.{system, systemy, systemowe, systemem,...}=
system
• Wyznaczyć miarę podobieństwa (odległości) pomiędzy
wektorami reprezentującymi obydwa dokumenty.
MIARY ODLEGŁOŚCI
•
Metryka Minkowskiego
- odległość miejska (Manhatan, city block, taxicab) -
p=1
- odległość Euklidesa - p=2,
- odległość Czebyszewa
gdzie n liczba porównywanych tekstów, m to liczba
słów tworzących te teksty, natomiast x
ij
, x
kj
to
liczba wystąpień j-tego słowa w i-tym oraz k-tym
tekście.
)
,...,
1
,
(
/
1
1
n
k
i
x
x
d
p
p
m
j
kj
ij
ik
p
dla
x
x
d
kj
ij
j
ik
max
MIARY ODLEGŁOŚCI
• Metryka kątowa
• Metryka Mahalanobisa
gdzie s
jl
to jl-ty element macierzy odwrotnej
macierzy kowariancji
• Współczynnik korelacji
)
,...,
1
,
(
2
/
1
1
2
1
2
1
n
k
i
x
x
x
x
d
m
j
kj
m
j
ij
m
j
kj
ij
ik
)
,...,
1
,
(
)
)(
(
2
/
1
1 1
n
k
i
s
x
x
x
x
d
m
j
jl
kl
il
m
l
kj
ij
ik
INTERPRETACJA
GEOMETRYCZNA
Odległość
Euklidesa
Odległość
miejska
A
B
B
B
Odległość
Czebyszewa
A
A
B
A
Odległość
kątowa
PRZYKŁAD
•Trzy teksty w
których występuje 8
słów.
•Współczynnik
korelacji liniowej
jako miara
podobieństwa
tekstów.
•Teksty A i B są
podobne do siebie
(r=0,99) natomiast
teksty A z C oraz B z
C są mało podobne
(r0,3-0,4)
Słowo
Dok. A Dok.B Dok.C
komputer
83
77
44
internet
66
61
27
e-biznes
52
42
14
haker
43
39
6
pole
33
35
24
myszka
15
17
32
kotek
14
20
35
Agata
13
15
5
319
306
187
Wsp. r
Dok. A Dok.B Dok.C
Dok. A
1,00
Dok. B
0,99
1,00
Dok. C
0,31
0,40
1,00
k
i
k
i
ik
s
s
X
X
r
)
,
cov(
INNE ALGORYTMY
• Kryteria podziału algorytmów:
- sprawdzające tylko jeden tekst wejściowy, wiele
określonych tekstów lub wiele nieokreślonych
tekstów,
- sprawdzające dokumenty wewnętrzne lub
zewnętrzne,
- wg formatu dokumentów,
- wg czasu działania (od kilku minut do kilku godzin),
- wg stopnia precyzji diagnozy,
- wg stopnia dokładności raportu,
• Algorytmy translacyjne wykorzystywane do
automatycznego tłumaczenia tekstów z jednego
języka na drugi. Bazują na porównywaniu zdań,
mierzeniu stopnia ich podobieństwa, odległościach
między słowami w zdaniach.
LONGEST COMMON
SUBSEQUENCES
• LCS jest długością najdłuższej wspólnej podsekwencji
słów (znaków) występującej w porównywanych
sekwencjach.
• Podsekwencja to ciąg uzyskany z sekwencji przez
odrzucenie 0 lub więcej elementów.
• Dane są dwa stringi: X = < A, G, C, G, T, A, G >
oraz Y = < G, T, C, A, G, A >
• Wspólne podsekwencje to np. <A, G, A>, < G, C, A >,
< G, C, G, A >, < G, T, A, G >, < G, C, A, G >
LCS=4.
• Dla stringów <a, c, d, b, a, c> oraz <p, c, d, b, d, c>
najdłuższa podsekwencja to <c, d, b, c> LCS=4.
• Dla „misspell” oraz „mispell” LCS=7 („mispell”)
• Dla „misspelled” oraz „misinterpretted” LCS=7
(„mis...p...e...ed”)
LEVENSTEIN DISTANCE
• Minimalna liczba wstawień (insert), usunięć
(delete) lub zamian (substitute), potrzebnych do
przekształcenia sekwencji znaków tekstu A w
sekwencję znaków tekstu B.
• Najtańszy sposób przekształcenia jednego stringu
w inny
• Przy identycznych stringach LD=0.
• Dla „misspell” oraz „mispell” LD=1
• Dla „misspell” oraz „mistell” LD=2
• Dla „misspell” oraz „misspelling” LD=3
• W algorytmach LD oraz LCS tak przekształcamy
jeden tekst aby przy zachowaniu istniejącego
porządku słów w tym tekście otrzymać drugi tekst.
HAMMING DISTANCE
• Liczba różnych elementów w dwóch ciągach znaków
o równej długości. Liczba zmian (substitute)
niezbędnych aby przekształcić ciąg A w ciąg B.
• Waga Hamminga to odległość Hamminga od
stringu zerowego. Np. dla [111001] HD=4 (liczba
jedynek).
1 0 1 1 1 0 1
1 0 0 1 0 0 1
2 1 4 3 8 9 6
2 2 3 3 7 9 6
t o n e d
r o s e s
HD=2
HD=3
HD=3
•Dystans Hamminga
jest odpowiednikiem
odległości Manhattan
•Stosowany w teorii
sygnałów,
kryptografii,
kodowaniu
PROBLEMY
• Wagi słów w tekście, np:
gdzie f
ij
to częstość j-tego słowa w i-tym tekście,
natomiast f
j
to liczba tekstów zawierających j-te
słowo.
• W algorytmach LD można ważyć operacje, np.
zamiana „kosztuje” 2 jednostki wagowe natomiast
wstawienie lub usunięcie „kosztuje” tylko 1
jednostkę.
• Jeden dokument może zawierać się w innym, co
wymaga innej konstrukcji mierników
podobieństwa.
• Miary LCS, LD etc. są wykorzystywane także w
rozpoznawaniu mowy, tłumaczeniach językowych,
analizach DNA, korektorach językowych.
)
/
(
log
2
j
ij
ij
f
n
f
w
ASPEKTY PRAWNE
• Prawo o szkolnictwie wyższym (27.VII.2005) art. 193.
Uczelnia w drodze decyzji, stwierdza nieważność
postępowania w sprawie nadania tytułu zawodowego,
jeżeli w pracy stanowiącej podstawę nadania tytułu
osoba ubiegająca się przypisała sobie autorstwo
istotnego fragmentu lub innych elementów
cudzego utworu lub ustalenia naukowego.
• Ustawa o prawie autorskim (2.II.1994) art.. 114
Kto przywłaszcza sobie autorstwo albo wprowadza w
błąd co do autorstwa całości lub części cudzego
utworu albo artystycznego wykonania, podlega
grzywnie, karze ograniczenia wolności albo
pozbawienia wolności do lat 3
ASPEKTY PRAWNE
• Ustawa o prawie autorskim (2.II.1994) art. 15
Uczelni przysługuje pierwszeństwo w
opublikowaniu pracy dyplomowej studenta. Jeżeli
uczelnia nie opublikowała pracy dyplomowej w
ciągu 6 miesięcy od jej obrony, student który ją
przygotował może ją opublikować, chyba że praca
dyplomowa jest częścią utworu zbiorowego.
• Uprawnień autorskich do pracy dyplomowej nie
ma ani promotor ani recenzent – ich udział polega
na konsultacjach, nadzorze, wskazywaniu usterek.
• Systemy antyplagiatowe są stosowane do prac
aktualnie tworzonych, będą do prac napisanych w
przyszłości ale mogą też być stosowane do prac
napisanych w przeszłości (homo homini lupus)
VARIA
• Latecomer advantage – korzyść z
zacofania. Termin wprowadzony przez
Thornsteina Veblena w 1915 roku, który
wskazał na możliwości szybkiego
dołączenia Japonii i Niemiec do światowej
czołówki potęg przemysłowych. Można
dokonać skoku cywilizacyjnego z
pominięciem etapów pośrednich i
ponosząc niższe koszty wdrożenia
postępu.
• Page Turner („wertownik”) - osoba
czytająca e-kursy
HISTORIA KOMUNIKACJI
• Mowa
• Pismo (5 tys. lat temu)
• Sygnały dymne, lustra,
• Tamtamy w Afryce
• Gołębie pocztowe
• Posłańcy, kurierzy, listy
• Poczta, telegraf
• Telefon, radio, telewizja
• Audio i wideokonferencje
• Internet