Zpráva z průzkumu Česko v pohybu

Zpráva představuje základní cíl průzkumu Česko v pohybu, definuje výzkumné jednotky a zkoumané proměnné. Popisuje průběh příprav sběru a návrh metodologie, včetně nastavení ukazatelů kvality. Dále zpráva navazuje shrnutím samotného sběru a vyhodnocením kvality dat, dle nastavených ukazatelů. V závěru je popsán způsob zpracování dat.


Úvod

Cíle průzkumu

Hlavním cílem celostátního průzkumu dopravního chování bylo vytvoření báze dat o dopravním chování obyvatel České republiky v referenčních letech 2017-2019, která by měla obsahovat klíčové údaje potřebné k sestavení celostátního modelu poptávky po osobní dopravě a charakteristiky dopravního chování (hybnost, délka cest, dělba přepravní práce) na úrovni státu a v hlavních ukazatelích na úrovni krajů. Data z celostátního průzkum dopravního chování, provedeného na výběrovém souboru 10 tisíc domácností, by měla tvořit důležitou oporu pro budoucí plánování dopravního rozvoje ČR.

Česko v pohybu je vůbec prvním celostátním průzkumem dopravního chování u nás. V ČR bylo dosud realizováno několik desítek průzkumů dopravního chování, v poslední době zejména v rámci přípravy Plánů udržitelné městské mobility (např. Pardubice v letech 2013 a 2017, Uherské Hradiště v roce 2013, Jihomoravský kraj 2013, Olomouc 2016, Litoměřice 2017 a řada dalších). Na regionální úrovni zatím proběhl pouze jeden průzkum, a to průzkum dopravního chování Jihomoravského kraje (2013). Tyto průzkumy dávají dobrý obraz o městské, případně příměstské mobilitě, nelze je však dobře použít pro vyhodnocení mobility na celostátní úrovni.

Metodologie

Základní metodologie celostátního průzkumu dopravního chování vychází z certifikované Metodiky aktivitně-cestovního průzkumu. Tento dokument navazuje na současné evropské snahy o sjednocení evropských metodik průzkumů dopravního chování a z důvodu srovnatelnosti zejména pak vychází z metodiky KOMOD, kterou se řídil rakouský celostátní průzkum dopravního chování Österreich Unterwegs a dále z německé metodiky celostátního průzkumu dopravního chování Mobilität in Deutschland.

Zaměření zprávy

Celostátní průzkum dopravního chování se skládal jednak ze samotného průzkumu dopravného chování (PDCH, nasbírána data od 9419 domácností), jednak z průzkumu cest na dlouhé vzdálenosti (PCDV, nasbírána data od 993 domácností). Tato zpráva se zaměřuje pouze na popis průzkumu dopravního chování. Metodologie a výsledky průzkumu na dlouhé vzdálenosti budou zpracovány a publikovány v budoucnu.

Realizující subjekty

Management, metodologická příprava, dohled nad sběrem dat a zpracování dat bylo po celou dobu řešení úkolem Centrum dopravního výzkumu, v. v. i.Centra dopravního chování, v.v.i..

Pro organizací sběru byla vysoutěžena externí agentura.

Průzkum Česko v pohybu byl realizován za podpory Ministerstva dopravy České republiky.

Zjišťované údaje

V průzkumu byly zjišťovány údaje o čtyřech výzkumných jednotkách: o domácnostech (které byly zároveň základní výběrovou jednotkou), o všech osobách starších 5 let (6+) žijících v těchto domácnostech, o všech automobilech v domácnostech a konečně o všech cestách, které zkoumané osoby v domácnostech podnikly v jeden dopředu vybraný den.

Domácnosti

První zkoumanou jednotkou byla domácnost, která je zároveň i základní výběrovou jednotkou průzkumu. Údaje o domácnostech byly zaznamenávány do tzv. dotazníku pro domácnosti. O domácnosti byly zjišťovány následující údaje:

Osoby

Osoby zkoumané v průzkumu byly všechny osoby starší pěti let (6+), které se v rozhodném vyskytovaly v domácnosti. Údaje o osobách byly zaznamenávány do dotazníku pro domácnostiU osob byly zjišťovány následující údaje.

Automobily

Automobily v průzkumu byly vázány na domácnosti (jako společná dispozice), zároveň však byla sledována i propojení na osobní dispozici, viz. nejčastější řidič daného vozidla. Údaje o domácnostech byly zaznamenávány do dotazníku pro domácnosti. Pro každý automobil z domácnosti byly zjišťovány následující údaje.

Cesty

Cesty byly zkoumány u osob starších 5 let, které se v tzv. "rozhodný den" vyskytovaly v domácnosti. Rozhodný den byl v každé domácnosti předem stanoven. Jednalo se o pracovní den, úterý až čtvrtek, mimo dny, které předcházejí dnu volna nebo po něm následují. Rozhodný den je vždy následuje až po prvním kontaktu domácnosti, dotazování na cesty je tedy prospektivní. Cesty byly zaznamenány do tzv. cestovního deníku.

U každé z osob bylo pomocí cestovního deníku nejprve zjišťováno, zdali v rozhodný den vůbec cestovala. Pokud osoba v daný den necestovala, byla tato skutečnost zaznamenána a dále je položen dotaz na důvod necestování. Pokud osoba v rozhodný cestovala, byla dále dotazována na všechny cesty v rozhodný den.

Cesta byla v deníku definována následujícím způsobem: "Vyplňte prosím všechny CESTY, které jste během SLEDOVANÉHO DNE uskutečnili. Uveďte i PĚŠÍ CESTY a CESTY DOMŮ. Cestou míníme pohyb za nějakým účelem definovaným níže." Cesty nejsou nijak omezeny časově ani vzdálenostně. Jedná se o záměrné jednání, tedy takové jednání, která je motivováno uvědomovaným účelem (cílem či aktivitou, např. prací, školou, bydlištěm, nákupem apod.). Účel rozděluje jednotlivé cesty, definuje jejich trvání.

Každý mohl vyplnit údaje maximálně o sedmi cestách (kapacita deníku). Pokud počet cest překonal sedm, osoba vyznačila počet zbývajících (neuvedených) cest.

U každé z cest v byly zjišťovány následující údaje.

Příprava sběru dat

Výběrový soubor a jeho rozložení v čase

Populací průzkumu byly všechny domácnosti České republiky. S ohledem na využití dat pro potřeby dopravního plánování byl zvolen pravděpodobnostní (náhodný) způsob konstrukce výběrového souboru, jinak řečeno, cílem bylo dosáhnout toho, aby každá jednotka populace (domácnost) měla stejnou pravděpodobnost, že bude zařazena do výběrového souboru. Pravděpodobnostně konstruovaný výběrový soubor umožňuje pracovat s koncepty jako je směrodatná chyba, což například u kvótně konstruovaného souboru možné není.

Opora

Opora pro konstrukci výběrového souboru byla sestavena z datové sady Českého statistického úřadu "Budovy s číslem domovním a vchody (statistické budovy)" (aktualizace 20. ledna 2017). Tato sada obsahuje seznam všech adresních bodů ČR (propojitelný s adresním rejstříkem RUIAN) s vyznačeným počtem osob bydlících na adrese a počtem bytů na adrese.

Konstrukce výběrového souboru a rozložení sběru

Rok 2017

Sběr byl rozložen do dvou "dopravně běžných období", podzim 2017 (září-listopad) a jaro 2018 (březen-květen). Výběrový soubor nebyl nijak časově rozčleněn, pouze bylo stanoveno, že v každém z období bude nasbírána polovina cílového čistého souboru (5 000 domácností).

Pro vytvoření výběrového souboru bylo využito metody "probability-proportional-to-size sampling" (PPS). Pro cílový výběrový soubor n = 10 000 byl vytvořen výběrový soubor o velikosti 40 000 domácností (odhadovaná návratnost cca 25 %, tedy předpoklad, že každá čtvrtá domácnost bude ochotna účastnit se či úspěšně dokončí dotazování).

Výběr proběhl ve dvou krocích:

V roce 2017 byl projektový rok ukončen nedosažením stanoveného počtu 5 000 domácností. S vynaložením maximálního úsilí byly získány údaje od 1 392 domácností (vše PDCH), tj. 28 % původního plánu.

Roky 2018-2019

Na základě vyhodnocení problémů z roku 2017 byl rozhodnuto o změně období sběru - byl zvolen kontinuální roční sběr. Sběr probíhal po 12 měsíců, od května 2018 do dubna 2019, z důvodů administrativních omezení dotace však byl vynechán prosinec 2018 a leden 2019. Způsob určení rozhodného den byl zachován, opět se tedy jedná o "dopravně běžný den" (úterý, středa, čtvrtek, mimo dny po svátku a před ním).

Výběrový soubor bylo nutné navázat na předchozí sběr, bylo však rozhodnuto, že pro nové období budou vybrány nové domácnosti. Všechny v roce 2017 "rozesbírané" primární výběrové jednotky (PSU) byly ponechány k dosbírání. Soubor "nedotčených" PSU byl vyřazen s tím, že budou nahrazeny nově náhodně vygenerovanými.

Výběrový soubor (7 610 domácností pro PDCH) byl rozčleněn do jednotlivých měsíců sběru a stanoven na celý rok dopředu, s náhodným přiřazením PSU do jednotlivých měsíců

Aktualizovaný výběrový soubor byl v průběhu sběru jednou pozměněn a vícekrát byly doplňovány další adresy, to po vyčerpání stávajících 28, přidělených každé PSU. Poslední aktualizace výběrového souboru dosáhla čísla 17.

Významnou změnou prošel výběrový soubor k srpnu 2018. Z důvodu příliš nízké tempo sběru bylo přijato několik opatření, z nichž úprava vzorku byla patrně tou nejdůležitější a nejefektivnější. Soubory PSU, které k srpnu 2018 zůstaly nedotčeny, byl redukovány na poloviční počet s tím, že na dvojnásobek narostl počet primárních domácností v nich (z 7 na 14).

Finální počet PSU je 853, původně 1 428. Díky této změně se podařilo snížit časové náklady tazatelů na dotazování domácností (každá domácnost musí být tazatelem navštívena několikrát).

Nástroj sběru dat a dotazování domácnosti

Data v obou průzkumech byla sbírána pomocí PAPI dotazníků. Dotazníky se v průběhu sběru nijak nemodifikovaly (kromě výměny loga původního dodavatele organizace za logo dodavatele nového).

Dotazník skládá z:

Podklady pro dotazování byly následující:

Průběh dotazování domácnosti

Dotazování domácností se odehrávalo v průběhu celého týdne včetně víkendu.

První kontakt domácnosti

Kontakt k vyzvednutí dotazníků

Zajištění kvality průzkumu

Zajištění kvality získávaných dat bylo od počátku jednou z hlavních priorit. Při přípravě průzkumu se zejména vycházelo ze zkušeností z rakouského šetření Österreich Unterwegs a rakouské metodiky KOMOD a dále zkušeností CDV z předchozích průzkumů dopravního chování (Jihomoravský kraj, Olomouc).

Technická specifikace

Základním nástrojem zajištění kvality byla Technická specifikace (TS), která organizátorovi šetření (FOCUS, poté SC&C) přesně specifikovala předmět i metodu statistického šetření a zpracování dat. Rovněž stanovila kvalitativní ukazatele, jejichž naplňování bylo v průběhu sběru a zpracování dat sledováno.

Kontrola kvality v přípravné fázi

Školení tazatelů

FOCUS (2017)

Všichni tazatelé byli pro tento výzkum proškoleni, telefonicky nebo osobně. Poštou jim zaslány všechny potřebné materiály (písemné instrukce, dotazníky, cestovní deníky, kontrolní listy, seznamy adres, průvodní dopisy, vizitky tazatele, tužky) a instruktážní video a průvodce tazatele pro projekt Česko v pohybu v elektronické podobě e-mailem. Až po proškolení a obdržení materiálů mohli realizovat terénní sběr. Součástí tazatelského úkolu bylo zároveň přepsání údajů z dotazníků a cestovních deníků do elektronického formuláře a následné odeslání materiálů poštou (dotazníky, cestovní deníky a kontrolní listy) do společnosti FOCUS.

SC&C (2018-2019)

Do výzkumu bylo plánováno zapojit přibližně 100 až 150 tazatelů, se zkušenostmi zkušenosti z náročných projektů. Všichni tazatelé prošli jednodenním školením, kde se seznámili se všemi výzkumnými instrumenty, způsob vedení rozhovoru. Školení vedli zkušení členové týmu (projektový manažer a field manažer). Tazatelé si na školení prověřili a procvičili měkké dovednosti, zejména zaujmout a vyslechnout respondenta a odpovídajícím způsobem reagovat na jeho možné obavy ohledně účasti na výzkumu. Na školení měli získat také potřebnou jistotu při vyplňování dotazníku tak, aby se při samotném dotazování mohli plně zaměřit na respondenta. Na školení se tazatelé také seznámili se svými supervizory zodpovědnými pro danou oblast. S nimi pak během sběru dat plnit cíle sběru a řešit případné problémy, které mohou při sběru dat vyvstat. Na školení také zazněly a byly nastaveny nařízení dodržení ochrany osobních údajů.

Harmonogram sběru dat

FOCUS (2017)

Harmonogram sběru měl stanoven několik termínů průběžné kontroly, při nich byl realizátorem sběru reportovány dohodnuté ukazatele:

SC&C (2018-2019)

Při plnění harmonogramu pro domácnosti s PDCH se sledoval dosažený počet "použitelných domácností", tj. domácnosti kompletně zpracované a naplňující kvalitativní požadavky definované v TS. Hrubá data pro domácnosti s PDCH byla za každý měsíc byla odevzdávána maximálně do 15 pracovních dní. Kontrola kvality v průběhu sběru

Dokumentace průběhu šetření

Každé navázání kontaktu i každý pokus o navázání úvodního kontaktu s domácností tazatel zaznamenával do protokolu.

Průběžné kontroly sběru

Po realizátorovi byly vyžadovány tyto pracovní postupy průběžné kontroly sběru dat:

Kontrola kvality při zpracování dat

Kontrola úplnosti dat

Při kontrole úplnosti dat musely být dodrženy a zaznamenány tyto pracovní postupy:

Kontrola správnosti dat

Při kontrole správnosti dat byly vyžadovány tyto pracovní postupy:

Údaje o cestách:

Kontrola použitelnosti dat

Za použitelná (zařaditelná do použitelného čistého vzorku) byly považovány záznamy o domácnostech, osobách a cestách, které obsahovaly následující informace.

Použitelná domácnost

U domácností se třemi a více členy bylo potřeba získat použitelné rozhovory o osobě od minimálně 50 % členů domácnosti, u menších domácností je to 100 %. Vyžadované informace:

Použitelná osoba

Za použitelnou byla považována osoba domácnosti, u které byly zaznamenány následující údaje:

Použitelná cesta

Za použitelnou cestu v cestovním deníku byla považována cesta s následujícími záznamy:

Kontrola návratnosti

Pro kontrolu velikosti výsledného čistého výběrové souboru byly zavedeny následující definice.

Tabulka 1. Přehled definic výpadků a výběrových souborů
Název Definice Označení / výpočet
Kvalitativně neutrální výpadek Domácnosti v definovaném hrubém vzorku, které v době průzkumu prokazatelně neexistovaly nebo které se prokazatelně delší dobu nevyskytovaly na adrese bydliště v místě provádění průzkumu. Vkn
Výpadek z nezastižení Domácnosti, které se ani po třetím pokusu o navázání kontaktu (osobně) a osobní návštěvě v domácnosti v různých časech a dnech nepodařilo zastihnout. Vnezas
Výpadek z nezájmu Domácnosti s jasně deklarovaným nezájmem o účast na průzkumu. Vnezaj
Výpadek z nepoužitelnosti Domácnosti, které neposkytnou dostatek informací pro započítání do čistého použitelného vzorku (viz použitelnost domácnosti). Vnep
Hrubý výběrový soubor Souhrn všech domácností, u kterých byl učiněn pokus o kontakt. Sh
Upravený hrubý výběrový soubor Souhrn všech domácností, u kterých byl učiněn pokus o kontakt, očištěný od kvalitativně neutrálního výpadku. Shu = Sh - Vkn
Čistý výběrový soubor Upravený hrubý výběrový soubor po odečtení všech nezastižených domácností a domácností s nezájmem o průzkum. Sč = Shu - Dnezaj - Dnezas
Použitelný čistý výběrový souhlas Čistý výběrový soubor po odečtení nepoužitelných domácností. Sčp = Sč - Dnep
Použitelná návratnost Poměr mezi použitelným čistým a upraveným hrubým vzorkem. Np = Sčp / Shu

Technická zpráva po ukončení sběru

Nejpozději do dvou týdnů od ukončení terénního šetření v každé z fází sběru dat musela agentura odevzdat technickou zprávu, která obsahovala:

Sběr dat

Již na začátku sběru v roce 2017 se začalo ukazovat, že dosáhnout naplánovaného počtu domácností bude za stávajícího nastavení obtížné. Hned průběhu prvního reportu firma FOCUS avizovala neschopnost dodržet stanovený harmonogram. Za příčinu nedodržení harmonogramu agentura označila nepříznivou situaci na trhu práce, a tedy potíž v rekrutování dostatečného počtu tazatelů. Přestože agentura zavedla několik opatření týkajících se rekrutace tazatelů, naplánovaných 5 000 domácností se nasbírat nepodařilo. Na konci roku 2017 agentura FOCUS předala CDV uznatelná data za 1 392 domácností.

Analýza průběhu sběru v roce 2017 ukázala dva hlavní rizikové faktory: nedostatek času a způsob konstrukce výběrového souboru.

Nová metodika reagovala na tyto dva faktory následujícími úpravami:

S takto upravenou metodikou obnovila firma SC&C sběr dat na jaře 2018. V úvodních měsících sběru s opět objevily náznaky možného nedosažení cílového počtu domácostí v stanoveném termínu. Úvodní obtíže podařilo překonat, zejména díky úzké komunikaci s obcemi, v nichž průzkum probíhal, zejména pak jejich starosty, dále vytvořením stabilního týmu tazatelů, opatření k usnadnění jejich práce a zvýšení jejich motivace změnou modelu odměňování. V neposlední řadě také došlo ke snížení počtu dotazovaných lokalit a současně k navýšení počtu domácností na jeden tazatelský úkol (ze 7 na 14 domácností).

V roce 2018 bylo celkem dotázáno 6140 domácností, z toho 5644 v PDCH (z plánovaných 5403, tj. naplnění na 104,5 %) a 496 v PCDV (z 500, tj. naplnění na 99,2 %). Do sběru bylo nakonec zapojeno 138 tazatelů (udělali alespoň jeden dotazník).

V roce 2019 pak bylo úspěšně dotázáno 2 859 domácností, z toho 2 362 v PDCH (z plánovaných 2 247, tj. naplnění na 105 %) a 497 v PCDV (z 500, tj. naplnění na 99,4 %). Do sběru bylo nakonec zapojeno 41 tazatelů.

Vyhodnocení kvality dat

Použitelnost dat

Následující tabulka ukazuje rozdělení v průzkumu sledovaných jednotek podle své použitelnosti. Použitelnost má vliv na celkovou návratnost. Použitelná domácnost, automobil, osoba a cesta jsou definovány v kapitole Kontrola kvality při zpracování dat.

Tabulka 2. Použitelnost záznamů
Použitelnost Domácnosti Automobily Osoby Cesty
n % n % n % n %
Použitelné 9018 95,7 9095 98,0 21076 95,3 51396 99,9
Nepoužitelné 401 4,3 190 2,0 1046 4,7 38 0,1
CELKEM 9419 100,0 9285 100,0 22122 100 51434 100,0

U domácností byl hlavním důvodem nedostatek použitelných osob v domácnosti (u domácností se třemi a více členy bylo použitelné rozhovory o osobě od minimálně 50 % členů domácnosti, u menších domácností 100 %). U osob byl jediným zdrojem nepoužitelnosti neuvedený věk, u aut rok výroby. U nepoužitelných cest pak pouze chyběly využité dopravní prostředky.

Návratnost

Při kontaktu domácností vyplňovali tazatelé kontrolní list, do kterého zaznamenávali výsledek každé z návštěv. Tabulka 3 představuje rozdělení finálních výsledků návštěv domácností. Většina z řádků tabulky jsou důvody neúspěšného dotazování. Realizovat rozhovor se podařilo u 52,9 % oslovených domácností.

Tabulka 3. Přehled výsledků rozhovorů
Kategorie Výsledek n %
Kvalitativně neutrální výpadek Dům/byt není obydlen 134 0,8
Výpadek z nezastižení Nebezpečné místo 31 0,2
Neumožněn přístup do budovy 859 4,8
Nikdo není doma 94 0,5
Dom. nedostupná po celou dobu průzkumu 1096 6,1
Jazyková bariéra 23 0,1
Respondent není schopen 40 0,2
Žádný vhodný respondent v domácnosti 5 0,0
Respondent je momentálně pryč/není dostupný 6 0,0
Přerušený rozhovor, nebude dokončen 53 0,3
Přerušený rozhovor, bude dokončen 3 0,0
NAs* 25,4 4532
Výpadek z nezájmu Odmítnutí na úrovni domácnosti: měkké 13 0,1
Odmítnutí na úrovni domácnosti - tvrdé 1514 8,5
Úspěšně dotázaná domácnost Zrealizovaný rozhovor 9419 52,9
CELKEM 17822 100,0

Pozn: *NAs jsou kvůli způsobu výpočtu čistého použitelného výběrového souboru přiřazeny k výpadku z nezastižení.

Tabulka 4 ukazuje nejdůležitější ukazatel úspěšnosti dotazování, tedy tzv. "použitelnou návratnost". Ta v průzkumu dosáhla 51,5 %. Definice jednotlivých ukazatelů uvedených v tabulce naleznete zde.

Tabulka 4. Způsob výpočtu návratnosti
Ukazatel Označení / výpočet Hodnota
Kvalitativně neutrální výpadek Vkn 134
Výpadek z nezastižení Vnezas 6648
Výpadek z nezájmu Vnezaj 1527
Výpadek z nepoužitelnosti Vnep 401
Hrubý výběrový soubor Sh 17822
Upravený hrubý výběrový soubor Shu = Sh - Vkn 17688
Čistý výběrový soubor Sč = Shu - Dnezaj - Dnezas 9513
Použitelný čistý výběrový soubor Sčp = Sč - Dnep 9112
Použitelná návratnost Np = Sčp / Shu 51,5 %

Zpracování dat

Struktura vstupních dat

Na základě kódovníku dodaného CDV realizátorovi sběru, byly dodány následující datové matice.

Postup kontroly dat

Základní principy kontroly

Při kontrole dat CDV vycházela z tohoto základního postupu:

Při dohledávání chyb se pracovalo s následujícími úrovněmi zpracování (dále též úrovně chyb):

  1. Respondent (např. nevyplněné položky, překlepy, nepochopení zadání apod).
  2. Tazatel (např. špatně vyplněné dotazníky, překlepy).
  3. Kodér (např. překlepy při digitalizaci dotazníků, hodnoty uvedené do nesprávné proměnné.
  4. Zpracování na straně agentury (např. chybně sestavené matice).
  5. Zpracování dat na straně CDV (např. chyba zpracovacího algoritmu či nevhodný opravný zásah v některém z předchozích opravných skriptů).

Chyby úrovně čtvrté a páté úrovně jsou chyby s dohledatelnou příčinou a vždy docházelo k jejich opravě. Chyby třetí a nižší úrovně mají příčinu jen obtížně dohledatelnou, na první úrovni prakticky neodhalitelnou. Pokud docházelo ke korekci na třech nejnižších úrovních, vždy se jednalo o dobře zdůvodněné, zdokumentované a systematické zásahy.

Při geokódování mohly do procesu vstupovat ještě další četné úrovně vzniku chyb, zejména pak databáze geografických entit.

Kroky zpracování

Kontrola byla rozdělena do řady jednotlivých kroků, které budou popsány níže. Kroky na sebe navazovaly v pevně daném pořadí. Každý z kroků se skládal ze tří obecných úkonů, které se opakovaly, dokud nebyly korigovány všechny opravitelné chyby.

Základní kontrola matic

V první fázi byly ověřovány všechny dodané matice srovnáváním s parametry kódovníku (kompletnost, rozsahy), dále byla kontrolována databázová integrita dodaných dat a následně použitelnost matic domácnosti, osob a aut. Jako poslední krok této fáze je provedena kontrola logických vazeb.

Tabulka 5. Jednotlivé kroky základní kontroly matic
Pořadí Kontrola Popis
1 Kompletnost proměnných Každá matice je načtena a srovnávána s kódovníkem, co do výčtu proměnných, které má obsahovat.
2 Rozsah proměnných Podle typu proměnné uvedené v kódovníku jsou postupně všechny proměnné kontrolovány co do přípustného rozsahu, který je opět uveden v kódovníku.
3 Integrita dat Kontrolována je přítomnost a unikátnost primárních klíčů a návaznost klíčů cizích. Např. je kontrolováno, zda každá cesta má svou osobu, zda každá osoba má svou příslušnou domácnost apod.
4 Použitelnost dat Vyhodnocení dat z hlediska použitelnosti, viz definice použitelnosti
5 Logické vazby Kontrola logické konzistence dat. Např. kontrola věkových kategorií vůči vlastnictví řidičského oprávnění, stupňům dosaženého vzdělání apod.

Kontrola cest

Jednotlivé cesty v PDCH byly pevně spjaty s ostatními cestami v rozhodném dni. Kontrola tedy musela brát v potaz nejen správnost údajů v rámci jedné cesty, ale její časoprostorovou konzistenci v rámci celodenního řetězce.

Rekódování atributů cest

U dvou atributů cest v PDCH - účelu a použitých dopravních prostředků - dostává respondent možnost zvolit možnost "jiné" a uvést alternativu nenabídnutou CD, jedná se tedy tzv. otevřenou otázku. Odpovědi na otevřené otázky je třeba rekódovat dle alternativ uvedených v CD.

Tabulka 6. Jednotlivé kroky kontroly rekódování atributů cest
Pořadí Kontrola Popis
1 Rekódování účelů Zakódování odpovědí na otevřenou otázku po účelu cesty do alternativ nabídnutých cestovním deníkem.
2 Rekódování použitých dopravních prostředků Zakódování odpovědí na otevřenou otázku po použitých dopravních prostředcích do alternativ nabídnutých cestovním deníkem
Kontrola cest z hlediska časových atributů

Každá z cest má řadu časových atributů:

U těchto atributů bylo třeba zkontrolovat nejen jejich kompletnost, ale také vzájemnou posloupnost a také koherenci cest i jejich řetěz/ců.

Chybějící údaje lze často úspěšně pravit, neboť atributy jsou do jisté míry redundantní - například trvání cesty lze dovodit jak z rozdílu počátečního a koncového času, tak ze součtu časů strávených v dopravních prostředcích.

Chyby v očekávané posloupnosti lze také poměrně jednoduše opravit. Jedná se například o situaci, kdy koncový čas cesty předchází výchozímu, nebo když pořadí cesty neodpovídá časovým údajům. Chyby v posloupnosti lze opravit obrácením pořadí, je však vždy nutno zkontrolovat, zda tímto krokem nevznikly další problémy, zejména z hlediska koherence řetězců cest.

Nejkomplikovanější byly opravy koherence, tedy případů, kdy jsou v atributy cest v rozporu. K nekoherencím může dojít buď na úrovni cest, zejména se sleduje:

Tabulka 7. Jednotlivé kroky kontroly cest z hlediska časových atributů
Pořadí Kontrola Popis
1 Chybějící časy Nalezení chybějících časů pokus o jejich opravu či imputaci pomocí časů strávených v dopravních prostředcích
2 Časový sled počátků a konců cest Kontrola a oprava následnosti časů v rámci jednotlivých cest
3 Pořadí cest Kontrola pořadí cest u jednotlivých osob (nekompletní řady, zdvojená pořadí, nesoulad s uvedenými časy)
4 Použitelnost cest Vyhodnocení dat z hlediska použitelnosti, viz definice použitelnosti.
5 Kontrola řetězců cest Kontrola řetězců cest z hlediska logiky uvedených účelů, hledání chybějících cest (typicky chybějící návraty domů na konci celodenního řetězce)
Kontrola časoprostorových atributů

Po kontrole časových atributů byly doplňovány atributy prostorové - cíle cest byly respondenty zaznamenány pomocí adresy či jen popisu místa. Tyto polostrukturované až otevřené vstupy bylo nutno převést do prostorových, aby bylo možné vypočíst délku cest po síti. Na základě vypočtených vzdáleností a respondenty uvedených časových a prostorových údajů (odhad délek cest) pak bylo možné cesty validizovat.

Tabulka 8. Jednotlivé kroky kontroly cest u PDCH z hlediska prostorových atributů
Pořadí Kontrola Popis
1 Geokódování Ztotožňování lokací uvedených v denících s elementy databáze geografických entit (adresní místa, ulice, obce, části obcí, oblasti, státy apod)
2 Výpočet vzdáleností Výpočet vzdáleností mezi zdroji a cíli cest
3 Validizace vzdáleností Validizace geokódování a výpočtu vzdáleností

Doplňování atributů cest

Rekódování účelů

Respondenti si celkem u 6 % cest nedokázali vybrat z nabízených možností, vyznačili typ účelu jako "jiný" a popsali jej. Analýzou těchto záznamů bylo možné značnou část cest s jiným účelem rekategorizovat podle výskytu charakteristických znakových řetězců. Změny v zastoupení jednotlivých účelů cest po rekódování ukazuje následující tabulka.

Tabulka 9. Změny v členění účelů po rekódování
Účel Původní členění Upravené členění
Název účelu Kód n % n %
Návrat do bydliště H 20966 40,8 40,8 20966
Do práce W 9189 17,9 9189 17,9
Nákupy, služby S 5193 10,1 5206 10,1
Volnočasová aktivita L 5057 9,8 6098 11,9
Vzdělávání E 3062 6 3062 6
Soukromé zařizování M 2773 5,4 3797 7,4
V rámci práce (služební) B 1562 3 1562 3
Stravování F 553 1,1 569 1,1
Jiný účel O 3079 6 985 1,9
Celkem 51434 100 51434 100

Klasifikace hlavního dopravního módu

V průzkumu respondenti měli možnost zaznamenat kombinace dopravních módů (například cestu na vlak osobním automobilem a cestu vlakem). Pro účely dalších analýz bylo třeba redukovat a rekategorizovat seznam možných kombinací na ty nejvíce frekventované.

Následující tabulka ukazuje zastoupení 12 kombinací, které se u cest vyskytly.

Tabulka 10. Kombinace přepravních modů u cest
Kombinace Počet cest [n] Podíl cest [%]
Auto 20035 38,95
Auto + MHD 50 0,10
Auto + VHD 56 0,11
Bus mimoměstský 1666 3,24
Kolo 2304 4,48
MHD 7540 14,66
Ostatní 360 0,70
Pěšky 18235 35,45
VHD+MHD 496 0,96
Vlak 631 1,23
Vlak + Bus mimoměstský 24 0,05
Neuvedeno 37 0,07

S ohledem na frekvenci zastoupení kombinací modů byl pro další analýzu vybrány tyto hlavní mody:

Tabulka 11. Finální rozdělení Kombinace přepravních modů u cest
Hlavní mód Počet cest [n] Podíl cest [%]
Pěšky 18203 35,39
Kolo 2304 4,48
MHD 7517 14,61
Bus 1963 3,82
Vlak 903 1,76
Auto, jako řidič 15006 29,18
Auto, jako pasažér 5086 9,89
Ostatní 415 0,81
Neuvedeno 37 0,07

Rozčlenění bylo provedeno na základě následujícího postupu.

Obrázek 1. Schéma rozdělení kombinací módů do hlavního módu
rozcleneni_modu

Geokódování

V procesu geokódování jsme ztotožňovali vstupní polostrukturované textové údaje o cíli cesty s položkami databáze geografických entit, kterou jsme pro tento účel vytvořili. Tato databáze vycházela zejména za údajů databáze RUIAN, zdrojů ČSÚ a dalších veřejně dostupných zdrojů. Ztotožňování s databázovými záznamy bylo prováděno zejména z důvodu schopnosti zpětné kontroly procesu a možné validace výsledků, což by při pouhém dohledávání souřadnic nebylo možné.

Ztotožňování postupně probíhalo na několika úrovních, od ztotožnění obce k identifikaci ulice až k nejnižší úrovni, domu. Databáze byla postupně rozšiřována o další entity, které neodpovídají logice adresního bodu, ať už jde u širší administrativní celky, toponyma apod. Na úrovni domů byly entitám přiřazeny souřadnice adresních bodů, na vyšší úrovních se jednalo o souřadnice centroidů.

Proces geokódování byl proveden u cest 18 036 osob, které během rozhodného dne uskutečnily alespoň jednu cestu. Celkem byla ztotožněna cílová lokace u 96,2 % cest z celkových 51 434.

Po geokódování cílových lokací byly pro každou z cest doplněny geokódované lokace výchozí. V deníku respondenti neuváděli obě místa, pouze cíl. Informace o lokaci výchozí bodu cesty byly převzaty z cíle cesty předchozí. Z celkového počtu 51 434 mělo kompletní pár zdroj-cíl 92,3 % cest.

Závěrem bylo u kompletních cest ověřeno, zda je kombinace zdroje a cíle cesty přípustná z hlediska logiky řetězců cest či pozice v hierarchii geografických entit. Kontrola této přípustnosti je důležitá pro zvýšení validity výpočtu délek cest. Cestu nebylo možno považovat za přípustnou, pokud vztah jeho počátečního a cílového bodu splňoval následující kritéria:

Požadavek na přípustnost dokázalo naplnit 79,6 % cest (z celkových 51 434).

Výpočet vzdáleností

Do výpočtu vzdáleností vstupovalo 40 952 přípustných cest. Kromě získání samotné délky cesty bylo cílem tohoto procesu i získání důležitého vstupu pro zpětnou validizaci geokódování.

Vzhledem k možnostem dopravní sítě se úspěšně podařilo vypočítat 40 861 (99,8 %) z přípustných cest. Neúspěšně vypočtené cesty nebyly vypočteny z důvodů přílišné blízkosti počátečních a cílových lokací nebo nedostupnosti dat dopravní sítě.

Validizace vzdáleností cest

Cesty byly validizovány jednak na základě údajů uvedených respondenty, jednak z vypočtených vzdáleností.

Respondentem deklarovaná délka a čas cesty vychází z cestovního deníku, kde respondent uvádí čas začátku a konce cesty a rovněž vzdálenost, kterou urazil. V obou případech se jedná o odhad, přičemž především odhad délky cesty respondenta nemusí být přesný. Respondenti navíc často svůj odhad délky cesty neuváděli a rovněž v deklarovaných časech mohou být uvedeny chyby.

Pro výpočet časů a délek cest po příslušné dopravní síti vychází z respondentem deklarovaného místa začátku a konce cesty. Výpočet časy a délky cest je potřeba k doplnění údajů tam, kde je respondent sám neuvedl, ale zároveň je důležitý pro výpočet alternativních způsobů dopravy pro model volby dopravního módu.

Validizace vypočtených časů a délek cest si kladla dva cíle. Za prvé stanovit, jakou důvěru můžeme mít k doplněnému údaji o čase a délce cesty, pokud tento údaj respondent neuvedl. Za druhé stanovit podsoubor cest, které jsou použitelné pro odhad modelu volby dopravního módu.

Validizace vycházela z porovnání vypočtených a deklarovaných hodnot. Tyto údaje se pochopitelně liší a je proto potřeba nejprve stanovit kritérium, podle kterého by bylo možné vypočtené časy a délky považovat za dobré. K tomuto účelu byl vybrán soubor cest, kde je respondentem uveden čas i délka cesty a kde záznam o zdroji a cíli cesty umožnil kvalitní geokódování na úroveň adresy. Pro tyto cesty byly vypočítány absolutní hodnoty absolutních a relativních rozdílů mezi deklarovanými a vypočtenými časy a délkami cest.

Pro tyto míry se hledaly kriteriální prahové hodnoty, tak, aby 90 % podsouboru "věrohodných" cest splňovalo alespoň jedno z těchto kritérií.

Validní vzdálenosti a cestovní časy se podařilo najít k 69,87 % ze všech cest (51 434). Pro zobrazování distribuce cest a výpočty modelu volby dopravního módu doporučujeme používat pouze tyto cesty.

V následující tabulce je zobrazeno procentuální zastoupení hlavních dopravních módů v celém souboru a v souboru validních cest.

Tabulka 12. Uplatnění validačních kritérií na celý soubor, rozdělení dle hlavního modu
Hlavní dopravní mód Všechny cesty [%] Důvěryhodné cesty [%]
Pěšky 35,4 31,1
Kolo 4,5 4,2
MHD 14,6 16,1
Autobus 3,8 3,8
Vlak 1,8 1,6
Auto-řidič 29,2 31,6
Auto-pasažér 9,9 11
Ostatní 0,8 0,5

Odkazy