Tidy data
Organizing data
What is a database?
(Brainstorming)
Relational database - basic terms
Relational database - basic terms
- variable (proměnná / atribut) - napr. hmotnosť keramického fragmentu
- observation / object (entita / záznam) - napr. konkrétny keramický fragment
- value (hodnota)
- primary key / unique ID (primární klíč)
Tidy data
Types of variables
Categorical
- dichotomies (dichotomická) - prítomnosť alebo neprítomnosť nejakého javu (“Y/N”)
- nominal (nominální) - archeologické datovanie (“neolit”), číslo objektu, keramický typ
- ordinal / rank (ordinální, pořadová) - tlupa / kmeň / náčelníctvo / štát, alebo: komponenta / sídelný areál / nadkomunitný areál
Numeric
- discrete (diskrétní) - môžu byť len celé čísla - napr. počet lokalít, počet bronzových spôn
- continuous (spojité / metrické) - môže byť akékoľvek reálne číslo - hmotnosť ker. fragmentu, dĺžka železného meča
- interval (intervalové) - numericky vyjadrujú vzdialenosť na vyjadrenie hierarchického vzťahu, nemajú ale zmysluplný nultý bod, umožňujú relatívne porovnávanie ale nie kalkulácie (napr. BC/AD - rozdiel medzi 400AD a 800AD je 400 rokov, 400AD ale nieje 2 krát staršie než 800AD)
- ratio (poměrové) - na rozdiel od intervalových premenných umožňujú kalkulácie (napr. vek - objekt starý 1000 rokov je 2krát starší než objekt starý 500; dĺžka meča aj.)
Tidy data
What’s wrong?
Basic tidy data principles
- One variable in one column.
- One observation in one row.
- One value in one cell.
- Do not use color codes.
- Backup your data!
- Be consistent!
Assignments
- Read Karl Broman’s guide on how to organize data in spreadsheets. As an article: Broman, K. W. and Woo, K. H. 2017: Data Organization in Spreadsheets. The American Statistician 72(1): 2–10, DOI: https://doi.org/gdz6cm.
- Read chapter Data in Quantitative analysis in archaeology book by VanPool and Leonard (2011).