Survey							
                            
		                
		                * Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
1 ISBN 978-80-904 948-5-5 Bilingual Czech-English Version 2 ISBN 978-80-904 948-5-5 Dvojjazyčná česko-anglická verze 3 The Principles of Probability and Statistics (data mining approach) Bilingual Czech-English Version Základy pravděpodobnosti a statistiky (data miningový přístup) Dvojjazyčná česko-anglická verze  CURRICULUM 2013. First edition. No part of the present publication may be reproduced and distributed in any way and in any form without express permission of the author and of the Publishing House Curriculum The publisher and author will appreciate possible comments concerning the work. They may be forwarded to the addresses of the publisher and author presented below. The grant project was supported by: MAKET PROMOTION INSTITUTE The Company Corporation – 1313 N.Market Street – Wilmington, DE 19801-1151, U.S.A. The publisher: Publishing House CURRICULUM Cholupická 39, CZ-142 00 Praha 4, Czech Republic e-mail: phcurriculum@yahoo.com The author: Assoc. Prof. RNDr. Přemysl Záškodný, CSc., Emy Destinové 17, CZ-370 01 České Budějovice, Czech Republic e-mail: pzaskodny@gmail.com Affiliation of the author: The University of South Bohemia, České Budějovice, Czech Republic The University of Finance and Administration, Praha, Czech Republic The reviewers: RNDr. Ivan Havlíček, CSc. Assoc. Prof. Ing. Vladislav Pavlát, CSc. Mgr. Petr Procházka Assoc. Prof. PaeDr. Jana Škrabánková, CSc. On line presentation: http//sites.google.com/site/csrggroup/textbook3/ ISBN 978-80-904948-5-5 4 CONTENTS Introduction (Úvod)-6 Part 1. The main methods of descriptive statistics, Statistical Probability-12 Část 1. Hlavní metody deskriptivní statistiky, Statistická pravděpodobnost 1.1. Formulation of statistical investigation (Formulace statistického šetření)-12 1.2. Creation of scale (Škálování)-16 1.3. Measurement (Měření)-19 1.4. Elementary statistical processing (Elementární statistické zpracování)-22 1.4.1. Table (Tabulka)-24 1.4.2. Empirical distribution of frequencies (Empirické rozdělení četností)-25 1.4.3. Empirical parameters (Empirické parametry)-27 1.4.4. Illustration of calculation of empirical parameters (Ilustrace výpočtu empirických parametrů)-30 Part 2. The main methods of mathematical statistics, Probability distribution-32 Část 2. Hlavní metody matematické statistiky, Pravděpodobnostní distribuce 2.1. Assignment of theoretical distribution to empirical distribution-32 (Přiřazení teoretického rozdělení rozdělení empirickému) 2.1.1. Interval division of frequencies (Intervalové rozdělení četností)-35 2.1.2. Theoretical distribution (Teoretické rozdělení)-36 2.1.3. Description of selected theoretical distributions (Popis vybraných teoretických rozdělení)-43 2.1.4. Apparatus of non-parametric testing (Aparát neparametrického testování)-51 2.1.5. Illustration of non-parametric testing (Ilustrace neparametrického testování)-54 2.2. Comparison of empirical and theoretical parameters – estimations of theoretical parameters, testing parametric hypotheses-57 (Srovnání empirických a teoretických parametrů – odhady teoretických parametrů, testování parametrických hypotéz) 2.2.1. Basics of estimation theory (Základy teorie odhadů)-59 2.2.2. Illustration of confidence intervals construction (Ilustrace konstrukce interval spolehlivosti)-62 2.2.3. Basics of parametric hypotheses testing (Základy testování parametrických hypotéz)-63 2.2.4. Illustration of parametric testing (Ilustrace parametrického testování)-67 2.3. Measurement of statistical dependences – some fundaments of regression and correlation analysis-73 (Měření statistických závislostí – některé základy regresní a korelační analýzy) 2.3.1, Delimitation of problem (Vymezení problému)-74 2.3.2. Simple linear and quadratic regression analysis-77 (jednoduchá lineární a kvadratická regresní analýza) 2.3.3. Simple linear and quadratic correlation analysis-80 (jednoduchá lineární a kvadratická korelační analýza) 2.3.4. Illustration of dependence measurement (Ilustrace měření závislostí)-82 Part 3. Applications-86 Část 3. Aplikace 3.1. Description of statistical and probability base of financial options-86 3.1.1. Introduction 3.1.2. Financial options 3.1.3. Statistical and probability base of Black-Scholes model 3.1.4. Statistical and probability base of Binomial and Trinomial model 3.1.5. Statistical and probability data mining tools – Normal, Binomial and Trinomial distribution 3.1.6. Conclusion 5 3.2. Description of statistical and probability base of Greeks-90 3.2.1. Introduction 3.2.2. Greeks 3.2.3. Value function 3.2.4. Segmentation and definitions of Greeks 3.2.5. Indications of Greeks 3.2.6. Formulas for Greeks 3.2.7. Needful statistical and probability relations for deduction of Greeks formulas 3.2.8. Conclusion, References 3.3. Data mining tools in statistics education-98 3.3.1. Introduction 3.3.2. Data mining 3.3.3. Data preprocessing in statistics education 3.3.4. Data processing in statistics education 3.3.5. Complex and partial tool of DMSTE – CP-DMSTE, ASM-DMSTE 3.3.6. Conclusion, References 3.3.7. Supplement of chapter 3.3. – The principles of data mining approach 3.3.7.1. Quotations from sources 3.3.7.2. Brief summary 3.3.7.3. Data mining cycle, References Part 4. Statistical tables-122 Část 4. Statistické tabulky CV of author-132 Bibliography of author-133 Global references-135 6 ZÁKLADY PRAVDĚPODOBNOSTI A STATISTIKY (DATA MININGOVÝ PŘÍSTUP) THE PRINCIPLES OF PROBABILITY AND STATISTICS (DATA MINING APPROACH) Úvod Introduction Předmětem pravděpodobnosti a statistiky jsou aplikace deskriptivní a matematické statistiky a teorie pravděpodobnosti při zkoumání hromadných náhodných jevů. Aby bylo možno tyto aplikace popsat, je potřebné se nejdříve zabývat deskriptivní a matematickou statistikou a teorií pravděpodobnosti. Jelikož rozsah výkladu pravděpodobnosti a statistiky je do jisté míry omezen (vzhledem k zaměření studijního textu na konkrétní studijní obory), bude účelné seznámit se především s hlavními statistickými metodami, průběžně je ilustrovat zadaným příkladem, přehledem osvojovaných pojmů a kontrolními otázkami, okrajově se dotknout některých pojmů teorie pravděpodobnosti a pak přistoupit k aplikacím. Studium takto pojatého výkladu je sice přístupné pro prezenční i kombinovanou formu studia, nelze je však zaměňovat se souvislým a uceleným studiem statistiky a teorie pravděpodobnosti jako samostatných vědních disciplín. The applications of descriptive and mathematical statistics and probability theory in an investigation of the collective random phenomena are the subject of probability and statistics. To describe these applications it is necessary to first be concerned with descriptive and mathematical statistics and probability theory. In view of the fact that the extent of the probability and statistics presentation is to a certain degree limited (due to the study text orientation to concrete branches of study) it will be effective to acquaint ourselves above all with main statistical methods, continuously to illustrate them by the assigned example, by the survey of acquired concepts and the check questions, marginally to touch of some concepts of probability theory and finally to approach the applications. The studies of so structured orientation is although accessible for attendance and combined form of study, it cannot, however, be confused with a continuous and coherent study of statistics and probability theory as a separate scientific disciplines. Struktura výkladu bude uvedena prostřednictvím analyticko-syntetického modelu struktury statistiky jako celku. Tento model je možné použít k okamžitému zařazení statistické metody a k okamžitému zjištění předcházejících a navazujících metod. Model má rovněž významnou poznávací dimenzi – ukazuje, které operace analýzy, abstrakce a syntézy je třeba provádět, aby osvojení příslušné statistické metody bylo úplné. Předkládaný model na obrázku Obr.1 (Fig.1) obsahuje čtyři dílčí analyticko-syntetické struktury. Model na obrázku Obr.1, legenda k obrázku Obr.1 i popis dílčích strukturálních částí je uveden pouze v angličtině. The structure of presentation will be introduced by analytical-synthetic model of the structure of statistics as a whole. This model can be used for the immediate classification of statistical method and for the immediate location of previous and follow-up methods. The model also has a significant cognitive dimension – it is showing which the operations of analysis, abstraction and synthesis are to be carried out to be complete the adoption of relevant statistical method. The presented model in figure Fig.1 contains the four partial 7 analytical-synthetic structures. The model in figure Fig.1, the legend to figure Fig.1 and the description of component structural parts is presented only in English. Následující krátkou část textu, která je předložena v angličtině, představuje data miningový přístup ke studiu základů statistiky a několika potřebných pojmů pravděpodobnosti. Data miningový přístup umožňuje pracovat s intgrálními pojmy a poznatky v jejich systémové podobě (viz analyticko-syntetický model). Podrobněji je data minigový přístup vyložen v Části 3 “Aplikace”. Okamžitá strukturální orientace, ukazující, která část statistiky a jejích pravděpodobnostních aplikací je při studiu právě osvojována, není k zahození. Vždy je dobré vědět, zda je „pouze“ vymezován výběrový statistický soubor VSS (první dílčí struktura od strukturálního prvku a-1 až k prvku e-1), zda je již vytvářen empirický obraz souboru VSS (druhá dílčí struktura od prvku a-2 až k prvku e-2) nebo zda je již dokonce zkoumán pravděpodobnostní obraz souboru VSS (třetí dílčí struktura od prvku a3 až k prvku e-3) nebo zda již bylo vstoupeno do procesu vytváření asociativního obrazu souboru VSS (čtvrtá dílčí struktura od prvku a-4 až k prvku e-4). Navíc, studium textů v angličtině je potřebným předpokladem pro studium zahraniční literatury. Following a short part of text presented only in English represents data mining approach to the study of the principles of statistics and several needful concepts of probability. The data mining approach enables to work with the integral concepts and knowledge pieces in their system shape (see analytical-synthetic model). The data mining approach is explained in Part.3 “Applications” more detail. The immediate structural orientation, showing which part of the statistics and its probability applications is just acquired in the course of the study, isn´t useless. It is always good to know whether the selective statistical set (SSS) is “only” determined (the first partial structure from element a-1 up to element e-1), whether the empirical picture of set SSS is already created (the second partial structure from element a-2 up to element e-2) or whether the probability picture of set SSS is already even explored (the third partial structure from element a-3 up to element e-3) or whether it was already entered to the process of creation of the associative picture of set SSS (the fourth partial structure from element a-4 up to element e-4). In addition, the study of the texts in English is needful assumption for the study of foreign literature. 8 Collective random phenomenon and reason of its investigation a-1 Statistical unit Variants (values) of statistical sign Statistical sign Choice of statistical units Selective statistical set (SSS) as a part of basic statistical set, Goals of statistical examination e-1=a-2 Statistical probability Creating of scale Measurement Frequencies tables (Empirical distribution) Graphical expression Empirical parameters Empirical picture of selective statistical set, Necessity of probable investigation e-2=a-3 Probability distributions Choice of acceptable theoretical distribution Quantification theoretical parameters Testing non-parametric hypotheses Point & interval estimation (e.g. confidence interval) Empirical & probable picture of selective statistical set, Statistical dependence (causal, non-causal) of Comparison of theoretical and empirical parameters Testing parametric hypotheses Necessity of association investigation e-3=a-4 Regression analysis Correlation analysis Empirical & probable & association picture of selective statistical set Interpretation and conclusions as the statistical & probable dimension e-4 of investigation collective random phenomenon Applied probability and statistics (e.g. financial options and their mathematical and statistical elaboration by means of greeks calculation and option hedging models) Fig.1 Analytical synthetic model of statistics and needful probability concepts formed by four partial models a1-e1, a2-e2, a3-e3, a4-e4 9 LEGEND to whole figure Fig.1 a-1 e-1 , a-2 e-2 , a-3 e-3 , a-4 e-4 One – Sample Analysis, Two / Multiple – Sample Analysis LEGEND to partial models of figure Fig.1 a-1 e-1 Formulation of statistical examination a-2 e-2 Relative & Cumulative Frequencies (Empirical distribution) Plotting functions: e.g. Plot Frequency Polygon (Graphical expression) Average-Means (Arithmetic Mean), Variance-Standard (Determinative) Deviation, Obliqueness (Skewness), Pointedness (Kurtosis) – (Empirical parameters) a-3 e-3 Theoretical Distribution (partial survey in alphabetical order): Bernoulli, Beta, Binomial, Chi-square, Discrete Uniform, Erlang, Exponential, F, Gamma, Geometric, Lognormal, Negative binomial, Normal, Poisson, Student´s, Triangular, Trinomial, Uniform, Weibull Testing Non-parametric Hypotheses (Hypothesis test for H0 – receive or reject H0): e.g. computed Wilcoxon´s test, Kolmogorov-Smirnov test, Chi-square test e.g. at alpha = 0,05 Point & Interval Estimation: e.g. confidence interval for Mean, confidence interval for Standard Deviation Testing Parametric Hypotheses (Hypothesis test for H0 – receive or reject H0): e.g. computed u-statistic, t-statistic, F-statistic, Chi-square statistic, Cochran´s test, Barlett´s test, Hartley´s test e.g. at alpha = 0,05 a-4 e-4 Statistical dependence: e.g. confidence interval for difference in Means (Equal variances, Unequal variances) e.g. confidence interval for Ratio of Variances Regression analysis: simple – multiple, linear – non-linear Correlation analysis: e.g. Rank correlation coefficient, Pearson´s correlation coefficient 10 Description of four partial analytical synthetic structures The example of applicability of analytical synthetic modeling presented via Fig. 1 is introduced by means of description of statistics as a whole. In the framework of this description it is possible to indicate four partial analytical-synthetic structures of statistical dimension of investigated problem. Now, these four partial analytical synthetic structures will be presented. Within this presentation let us compare general model of analytical synthetic structure of investigated problem (from investigated phenomenon to the result of solution given by intellectual reconstruction) with figure Fig. 1 "Analytical synthetic model of statistics formed by four partial models". First structure a-1 e-1 (see Fig. 1) From investigated phenomenon (marked a-1) "Collective random phenomenon and reason of its investigation" to the result of intellectual reconstruction (marked e-1) "Selective statistical set as a part of basic statistical set" Second structure a-2 e-2 (see Fig. 1) From investigated phenomenon (marked a-2) "Selective statistical set as a part of basic statistical set" to the result of intellectual reconstruction (marked e-2) "Empirical picture of selective statistical set" Third structure a-3 e-3 (see Fig. 1) From investigated phenomenon (marked a-3) "Empirical picture of selective statistical set" to the result of intellectual reconstruction (marked e-3) "Probable picture of selective statistical set" Fourth structure a-4 e-4 (see Fig. 1) From investigated phenomenon (marked a-4) "Probable picture of selective statistical set" to the result of intellectual reconstruction (marked e-4) "Association picture of selective statistical set" Applied statistics a5 (see Fig. 1) 11 Struktura výkladu bude odrážet model znázorněný obrázkem Obr.1 (Fig.1). Jednotlivé odstavce výkladu proto mohou být popsány prostřednictvím strukturálních prvků a-1 až a-5 a e-1 až e-4 modelu. Výklad bude pro zájemce o hlubší pochopení doplněn kapitolou vysvětlující některé základní pojmy teorie pravděpodobnosti a přehledem základních statistických tabulek. The structure of explanation will reflect the model represented by figure Fig.1. Therefore, the interpretation of individual paragraphs can be described by means of the structural elements a-1 up to a-5 and e-1 up to e-4. The explanation will be fulfilled for persons interested in deeper understanding by both the chapter explaining some basic concepts of probability theory and the survey of basic statistical tables. Struktura výkladu bude následující: The structure of explanation will be as follows: Část 1. Hlavní metody deskriptivní statistiky, Statistická pravděpodobnost Part 1. The main methods of descriptive statistics, Statistical probability 1.1. Formulace statistického šetření Formulation of statistical investigation (od prvku a-1 k prvku e-1) (from element a-1 to element e-1) 1.2. Škálování Creation of scale (od prvku a-2 k prvku e-2) (from element a-2 to element e-2) 1.3. Měření, Pravděpodobnost Measurement, Probability (od prvku a-2 k prvku e-2) (from element a-2 to element e-2) 1.4. Elementární statistické zpracování Elementary statistical processing (od prvku a-2 k prvku e-2) (from element a-2 to element e-2) Část 2. Hlavní metody matematické statistiky, Pravděpodobnostní distribuce Part 2. The main methods of mathematical statistics, Probability distribution 2.1. Přiřazení teoretického rozdělení rozdělení empirickému – testování neparametrických hypotéz, Pravděpodobnost – teoretická rozdělení Assignment of theoretical distribution to empirical distribution – testing non-parametric hypotheses, Probability – theoretical distributions (od prvku a-3 k prvku e-3) (from element a-3 to element e-3) 2.2. Srovnání empirických a teoretických parametrů – odhady teoretických parametrů, testování parametrických hypotéz Comparison of empirical and theoretical parameters – estimations of theoretical parameters, testing parametric hypotheses (od prvku a-3 k prvku e-3) (from element a-3 to element e-3) 2.3. Měření závislostí - některé základy regresní a korelační analýzy Measurement of statistical dependences – some fundaments of regression and correlation analysis (od prvku a-4 k prvku e-4) (from element a-4 to element e-4) Část 3. Aplikace (prvek a5) Part 3. Applications (element a5) 3.1. Popis statistického a pravděpodobnostního základu finančních opcí Description of statistical and probability base of financial options 3.2. Popis statistického a pravděpodobnostního základu Greeks Description of statistical and probability base of Greeks 3.3. Nástroje data miningu ve statistickém vzdělávání Data Mining Tools in Statistics Education Část 4. Statistické tabulky Part 4. Statistical tables 12 Část 1. Hlavní metody deskriptivní statistiky, Statistická pravděpodobnost Part 1. The main methods of descriptive statistics, Statistical probability 1.1. Formulace statistického šetření 1.1. Formulation of statistical investigation Cíle: - Goals: Hromadný náhodný jev a důvod jeho zkoumání (Collective random phenomenon and reason of its investigation) Výběrový statistický soubor jako část základního statistického souboru (Selective statistical set as a part of basic statistical set) Osvojované pojmy a poznatky: Acquired concepts and knowledge pieces: Hromadný náhodný jev (collective random phenomenon), statistická jednotka (statistical unit), statistický znak (statistical sign – statistical character), hodnoty statistického znaku (values of statistical sign), základní statistický soubor (basic statistical set – basic statistical file – population), výběrový statistický soubor (selective statistical set – sample statistical file) Kontrolní otázky: Check questions: - Co je předmětem zkoumání statistiky a teorie pravděpodobnosti What is the subject of investigation of statististics and probability theory - Co je to hromadný náhodný jev What is the collective random phenomenon - Jak je vymezena statistická jednotka How is the statistical unit delimited - Jak je vymezen statistický znak a jeho hodnoty How are statistical sign and its values delimited - Jaký je rozdíl mezi základním a výběrovým statistickým souborem What is the difference between basic and selective statistical set - Proč je důležitý proces náhodného výběru Why is the procces of random selection important 13 Výklad bude ilustrován prostřednictvím zadaného příkladu. The explanation will be illustrated by means of the assigned example. Zadaný příklad: Assigned example: Testům na „exportní schopnost“ se podrobilo 4000 podniků. Pro předběžnou informaci bylo třeba určit průměrnou „exportní schopnost“ na škále 1 až 5 (1 – maximální exportní schonost, 5 – minimální exportní schopnost). Proto bylo náhodně vybráno 50 testů, jejichž výsledky jsou uvedeny v tabulce Tab.1. Hromadný náhodný jev (exportní schopnost podniku) postupně komplexně statisticky zpracujte. The 4000 enterprises have undergone tests on “export ability”. The average “export ability”on a scale 1 to 5 (1 – maximum export ability, 5 – minimum export ability) was necessary to define for preliminary information.That is why the 50 tests was randomly selected and their results are presented in table Tab.1. Elaborate the collective random phenomenon (export ability of enterprise) gradually and complexly. xi 1 2 3 4 5 ni 9 15 20 4 2 Σ 50 ni/n 0,18 0,3 0,4 0,08 0,04 Σ 1,00 Σ ni/n 0,18 0,48 0,88 0,96 1,00 xini 9 30 60 16 10 Σ 125 xi2ni 9 60 180 64 50 Σ 363 xi3ni 9 120 540 256 250 Σ 1175 xi4ni 9 240 1620 1024 1250 Σ 4143 Tabulka Tab.1: Výsledky zpracování 50 testů Table Tab.1: The results of 50 test elaboration - Formulace statistického šetření je založena na vymezení následujících pojmů: The formulation of statistical investigation is worked on delimitation of following concepts: hromadný náhodný jev HNJ collective random phenomenon CRP statistická jednotka SJ statistical unit SU statistický znak SZ statistical sign SS hodnoty statistického znaku HSZ values of statistical sign VSS základní statistický soubor a jeho rozsah ZSS basic statistical set and its extent BSS náhodný výběr NV random selection RS výběrový statistický soubor a jeho rozsah VSS selective statistical set and its extent SSS Hromadný náhodný jev HNJ (např.exportní schopnost podniku) je realizace činností nebo procesů, jejichž výsledek nelze s jistotou předpovědět a které se odehrávají v rozsáhlé 14 množině prvků (např. podniků). Tyto prvky mají určitou skupinu vlastností stejných (např. stejný typ ekonomického parametru – charakter podniku) a další skupinu vlastností odlišných (např. odlišné hodnoty jiných parametrů celkového ekonomického stavu podniku). Matematická statistika a teorie pravděpodobnosti se zabývají kvalitativní a kvantitativní analýzou zákonitostí hromadných náhodných jevů. Collective random phenomenon CRP (e.g. export ability of enterprise) is the realization of the activities or processes whose result cannot be predicted with certainty and which are taking place in an extensive set of elements (e.g. enterprises). These elements have the certain group of identical properties (e.g. identical type of economical parameter – enterprise character) and the other a group of different properties (e.g. the different values of export ability of global economical state of enterprise). Mathematical statististics and probability theory deal with qualitative and quantitative analysis of the patterns of collective random phenomena. Statistická jednotka SJ je vymezena stejnými vlastnostmi prvků zkoumané množiny (např. podniky a jejich charakter). The statistical unit SU is delimited by the identical properties of investigated set elements (e.g. the enterprises and their character). Statistický znak SZ je dán některou z odlišných vlastností prvků zkoumané množiny (např. exportní schopností podniku). The statistical sign SS is given by some from different properties of investigated set elements (e.g. by export ability of enterprise). Hodnoty statistického znaku HSZ jsou způsobem popisu zkoumaného statistického znaku (např. popis exportní schopnosti podniků těžařského průmyslu procentem vytěžené rudy dopravené ke zpracování do 14 dní od vytěžení). The values of statistical sign VSS are a way of investigated statistical sign description (e.g. the description of export ability of mining industry enterprises by the percent of the mined ore transported for the processing within fortnight from the extraction). Základní statistický soubor ZSS (populace) je dán všemi statistickými jednotkami, jeho rozsah je roven počtu všech statistických jednotek (např. rozsah zkoumaného ZSS je u zadaného příkladu roven celkovému počtu 4000 podniků). Obvykle není v praktických možnostech statistiků zkoumat statistický znak SZ u všech statistických jednotek SJ a je nutno přistoupit k omezení počtu statistických jednotek SJ. The basic statistical set BSS (population) is given by all the statistical units, its extent is equal to the number of all the statistical units (e.g. the extent of investigated BSS is equal to the total number of 4000 enterprises in the assigned example). It is usually not in the practical possibilities of statisticians to investigate the statistical sign SS in all the statistical units SU and it is required to limit the number of statistical units SU. Náhodný výběr NV je omezení počtu zkoumaných statistických jednotek SJ takovým způsobem, aby bylo možné přenášet získané výsledky na celý ZSS. Existují rozmanité způsoby náhodného výběru (losování, generování tabulkou náhodných čísel, záměrný výběr). Je potřebné ověřovat, zda je možno získaný výběr považovat za náhodný. The random selection RS is limit the number of investigated statistical units SU in such a way, in order to transfer the results obtained to the entire BSS. The various ways of random selection are existing (drawing, generating a table of random numerals, deliberate selection). It is necessary to verify whether it could be considered as random selection obtained. 15 Výběrový statistický soubor VSS je dán těmi statistickými jednotkami, které byly vybrány ze základního statistického souboru procesem náhodného výběru. Rozsah VSS je roven počtu vybraných statistických jednotek (např. rozsah VSS je u zadaného příkladu roven počtu 50 vybraných podniků). Výběrový statistický soubor VSS je jednorozměrným, je-li u něj zkoumán jen jeden statistický znak, vícerozměrným, je-li zkoumáno více statistických znaků. The selected statistical set SSS is given those statistical units, which have been selected from the basic statistical set by the process of random selection. The extent of SSS is equal to the number of selected statistical units (e.g. the extent of SSS in the assigned example is equal to the number of 50 selected enterprises). Selected statistical set SSS is one-dimensional if it investigated only one statistical sign, multidimensional set found at, if investigated more statistical signs. Formulace statistického šetření je u zadaného příkladu uskutečněna vymezením výběrového statistického souboru 50 podniků. V rámci tohoto vymezení musí být přesně charakterizovány všechny navazující pojmy – zkoumaný hromadný náhodný jev HNJ, definice statistické jednotky SJ, určení zkoumaného statistického znaku SZ, charakteristika hodnot statistického znaku HSZ, přesné vymezení základního statistického souboru SZZ a konečně zajištění procedury náhodného výběru NV. The formulation of the statistical investigation is implemented in the assigned example by the delimitation of selective statistical set 50 enterprises. In the context of this delimitation must be exactly characterized all the follow-up concepts – investigated collective random phenomenon CRP, definition of the statistical unit SU, determination of the investigated statistical sign SS, characterization of the statistical sign values VSS, exact delimitation of the basic statistical set BSS and finally, ensuring the procedure of random selection RS. 16 1.2. Škálování 1.2. Creation of scale Cíle: Goals: - tvorba škály (creation of scale) výběr typu škály (choice of scale type) Osvojované pojmy a poznatky: Acquired concepts and knowledge pieces: Škála (scale), klasifikace škál (classification of scales), parametry vybraného typu škály (parameters of selective type of scale) Kontrolní otázky: Check questions: - Co je to škálování What is the creation of scale - Podle čeho lze rozlišovat typy škál Is it possible to distinguish the types of scales according to which facts - Jaké jsou základní typy škál What are the basic types of scales - Jaký je rozdíl mezi kvantitativní metrickou škálou a absolutní metrickou škálou What is the difference between the quantitative metric scale and absolute metric scale Škálování je vhodné vyjádření hodnot statistického znaku prostřednictvím prvků škály. Jde o to, že hodnoty statistického znaku mohou být rozčleněny do rozumných skupin, do prvků škály. Soustava prvků škály vytváří škálu. Počet k prvků škály může být vypočítán např. Sturgesovým pravidlem k = 1 + 3,3 log10n, kde n je rozsah výběrového statistického souboru VSS. Podle povahy statistického znaku je možné rozlišovat např. čtyři typy škál: kvalitativní, ordinální, kvantitativní metrickou a absolutní metrickou. Klasifikace škál lze využít také ke klasifikaci statistických znaků. V některých případech lze hodnoty statistického znaku ihned ztotožnit se škálou a škálování není nutné provádět. The scale creation is the suitable expression of statistical sign values by means of scale elements. The point is that the statistical sign values can be divided into reasonable groups, into scale elements. The system of scale elements creates the scale. The number k of scale elements can be calculated, for example, by Sturges rule k = 1 + 3.3 log10n, where n is an extent of selective statistical set SSS. According to the nature of statistical sign it is possible to distinguish, e.g., four types of scales: qualitative (nominal), ordinal, quantitative metric and absolute metric. The classification of scales can be used also to classify statistical signs. In some cases, the statistical sign values immediately identify the scale and scaling isn´t necessary. 17 Nominální škála je klasifikací do kategorií (prvky škály jsou jednotlivé kategorie). O každých dvou statistických jednotkách výběrového statistického souboru lze rozhodnout, zda jsou z hlediska zkoumaného statistického znaku totožné nebo rozdílné (např. pohlaví nebo zaměstnání, jsou-li statistickými jednotkami individuální osoby). The nominal scale is the classification into categories (the scale elements are the individual categories). For every two statistical units of selective statistical set it is possible to decide whether or not they are in terms of investigated statistical sign of identical or different (such as gender or employment, if the statististical units are individual persons). Ordinální škála umožňuje nejen rozhodnout o totožnosti nebo rozdílnosti statistických jednotek, ale také stanovit jejich pořadí (např. dosažení stupně školního vzdělání). Prvky škály jsou jednotlivá pořadí. Neumožňuje stanovit vzdálenost mezi dvěma sousedními statistickými jednotkami uspořádanými podle této škály. The ordinal scale enables you to not only decide on the identity or the diversity of the statistical units, but also to establish their order (e.g., achieve the degree of scholastic education). The scale elements are the individual order. This one doesn´t enable to determine the distance between two neighbouring statistical units arranged according to this scale. Kvantitativní metrická škála již umožňuje stanovit vzdálenost mezi dvěma sousedními statistickými jednotkami – z tohoto pohledu je nezbytné definovat jednotku škály (např. procentové ohodnocení exportní schopnosti nebo jiného parametru celkového ekonomického stavu, teplota ve stupních Celsia). Kvantitativní metrická škála vyjadřuje hodnoty statistického znaku bez možnosti věcně interpretovat počátek (nulový bod) škály – volba počátku škály je proto libovolná. The quantitative metric scale already enables to establish the distance between two neighbouring statistical units – from this perspective, it is needful to define the unit of scale (e.g. percentage evaluation of export ability or other parameter of the global economical condition, the temperature in degrees Celsius). The scale elements are the individual points of scale expressed the numerical sizes. The quantitative metric scale expesses the values of statistical sign without the possibility factually to interpret, in the beginning (zero point) of scale – the choice of scale beginning is the question of free choice. Absolutní metrická škála je kvantitativní metrická škála a navíc lze věcně interpretovat počátek škály – nula škály odpovídá skutečné nulové hodnotě zkoumaného statistického znaku (např. teplota ve stupních Kelvina, počet chyb při testování, délka školní docházky). Prvky škály jsou jednotlivé body škály vyjádřené nejen číselnou velikostí, ale také absolutní nulou škály. Pouze absolutní metrická škála umožňuje počítat podíly, podíl libovolných dvou bodů škály nezávisí na volbě jednotky škály. The absolute metric scale is a quantitative metric scale and, in addition, it can be interpreted in the beginning of the scale factually – the scale zero responds to real zero value of investigated statistical sign (e.g. the temperature in degrees Kelvin, the number of errors in testing, the length of school attendance). The scale elements are the individual points of scale of numeric sizes not only expressed but also the absolute zero of scale. Only the absolute metric scale enables to calculate the divisions, the proportion of any two points of scale doesn´t depend on the choice of scale unit. V zadaném příkladě jsou hodnoty statistického znaku „stupeň exportní schopnosti“ dány stupni 1, 2, …, 5. Je zřejmé, že musel být vyvinut způsob vyjádření exportní schopnosti (např. stupeň 1 – exportováno 100%-80% vytěžené rudy podnikem těžebného průmyslu, stupeň 2 – exportováno 80%-60% vytěžené rudy, … , stupeň 5 – exportováno 20%-0% 18 vytěžené rudy) – stupně 1, 2, …, 5 lze tedy ztotožnit se škálou, která je typickou kvantitativní metrickou škálou. Prvky škály jsou body škály vyjádřené číselnými velikostmi x1 = 1, x2 = 2, …, x5 = 5. Tato škála by měla odrážet „stejnou vzdálenost (např. 20%)“ exportní schopnosti mezi libovolnými dvěma sousedními prvky škály. In the assigned example the statistical sign values “degree of export ability” are given by the degrees 1, 2, …, 5. It is evident the way of export ability expression had to be produced (e.g. degree 1 – exported 100%-80% of mined ore by enterprise of mining industry, degree 2 – exported 80%-60% of mined ore, … , degree 5 – exported 20%-0% of mined ore) – so the degrees 1, 2, …, 5 can be identified the scale of, which is the typical quantitative metric scale. The scale elements are the points of scale expressed by numerical sizes x1 = 1, x2 = 2, … , x5 = 5. This scale should reflect “the identical distance (e.g. 20%)” of export ability between any two neighbouring scale elements. 19 1.3. Měření 1.3. Measurement Cíle: Goals: - proces měření (process of measurement) vyjádření výsledků měření (expression of measurement results) Osvojované pojmy a poznatky: Acquired concepts and knowledge pieces: Měření (measurement), absolutní četnost (absolute frequency), relativní četnost (relative frequency), kumulativní četnosti (cumulative frequencies) Kontrolní otázky: Check questions: - Co je to měření při statistickém zpracování hromadného náhodného jevu What is the measurement within statistical elaboration of collective random phenomenon - Na čem závisí volba metody měření What does the selection of measurement method depend on - Jaké podmínky musí splňovat metoda měření What conditions must the measurement method fulfil - Co jsou to výsledky měření What are the results of measurement - Jaká je statistická definice pravděpodobnosti What is the statistical definition of probability - Jak je definována absolutní a relativní četnost How is the absolute and relative frequency defined - Jak jsou definovány kumulativní četnosti How are the cumulative frequencies defined 20 Měření je proces, kterým je každé statistické jednotce SJ výběrového statistického souboru VSS (o rozsahu n statistických jednotek) přiřazován jeden z k prvků škály x1, x2, …, xk. Výsledky měření jsou zjištění, že prvek škály xi (i = 1, 2, …, k) byl naměřen ni krát. Součet všech hodnot ni (i = 1, 2, …, k), kterým se říká absolutní četnosti, musí být roven rozsahu n výběrového statistického souboru VSS. The measurement is the process by which is one of k scale elements x1, x2, …, xk assigned to each statistical unit SU of selective statistical set SSS (with extent n of statististical units). The measurement results are the findings, that the scale element xi (i = 1, 2, …, k) was measured ni times. The summation of all the values ni (i = 1, 2, …, k), so called the absolute frequencies, must be equal to the extent n of selective statistical set SSS. Možné výsledky měření xi (i = 1, 2, …, k) lze hodnotit podle toho, jak velkou mají pravděpodobnost, že při měření nastanou. Statistická definice pravděpodobnosti vychází z n krát nezávisle provedeného měření (počet měření n odpovídá rozsahu výběrového statistického souboru VSS) a ze zjištěných absolutních četností ni možných výsledků měření. Statistická pravděpodobnost p(xi) výsledku xi je pak dána tzv. relativní četností ni / n. Součet všech relativních četností musí být roven 1. The potential results of measurement (i = 1, 2, …, k) can be evaluated by the size of the probability which appears in the course of measurement. The statistical definition of probability works on n times independently carried out measurement (the number of measurement n corresponds to the extent of selective statistical set SSS) and on discovered the absolute frequencies ni of potential measurement results. The statistical probability p(xi) of result xi is then given by so called relative frequency ni / n. The summation of all the relative frequencies must be equal to 1. Mezi výsledky měření lze zařadit také kumulativní četnosti. Kumulativní četnost Σ (ni / n) udává pravděpodobnost, že bude naměřen výsledek měření menší nebo rovný výsledku xi. Je zřejmé, že kumulativní četnosti je možné zjišťovat jen u kvantitativních metrických nebo absolutních metrických škál. Kumulativní četnosti mají velký význam např. při konstrukci finančních a ekonomických rozvah. Also the cumulative frequencies can be classified as the results of the measurement. The cumulative frequency Σ (ni / n) is the probability that the measurement result will be measured lesser or equal to result xi. It is evident the cumulative frequencies can be detected only within quantitative metric or absolute metric scales. The cumulative frequencies, for example, are of great significance in the construction of financial or economical balance sheets. V rámci zadaného příkladu lze prostřednictvím tabulky Tab.1 vysledovat, že bylo pracováno se škálou o 5 prvcích x1=1, x2=2, …, x5=5 (viz první sloupec tabulky), jejichž absolutní četnosti byly postupně n1=9, n2=15, n3=20, n4=4, n5=2 (viz druhý sloupec tabulky). Relativní četnosti ni / n jsou pak uvedeny v třetím sloupci tabulky, kumulativní četnosti v sloupci čtvrtém. Z padesáti podniků výběrového statistického souboru (n=50) bylo 9 podniků s maximální exportní schopností (pravděpodobnost tohoto stupně je 0,18), 15 podniků se stupněm nižším než stupeň nejvyšší (pravděpodobnost 0,30), 20 podniků se střední exportní schopností (pravděpodobnost 0,40), 4 podniky se stupněm rozvinutosti nižším než je stupeň střední (pravděpodobnost 0,08) a 2 podniky s nejnižším stupněm exportní schopnosti (pravděpodobnost 0,04) Within the assigned example it is possible through table Tab.1 to discover that it was being worked with the scale created by 5 elements x1=1, x2=2, …, x5=5 (see the first column in table), their absolute frequencies were gradually n1=9, n2=15, n3=20, n4=4, n5=2 (see the 21 second column in table). The relative frequencies ni / n are then presented in the third column of the table, the cumulative frequencies in the fourth column. Of the fifty enterprises selective statistical set (n=50) 9 enterprises were with the maximum export ability (probability of this degree is 0.18), 15 enterprises were with the lower degree than the highest degree (probability 0.30), 20 enterprises were with the middle export ability (probability 0.40), 4 enterprises were with the degree of development lower than middle degree (probability 0.08) and 2 enterprises were with the lowest degree of export ability (probability 0.04). V rámci zadaného příkladu je kumulativní četnost např. výsledku x3=3 dána pravděpodobností 0,88. Tuto pravděpodobnost, že při zkoumání stupně exportní schopnosti bude zjištěn stupeň 1, 2 nebo 3, lze určit jako součet pravděpodobností p(1) + p(2) + p(3) = 0,18 + 0,30 + 0,40 = 0,88. Pravděpodobnost zjištění stupně středního je tedy značně vysoká. Within the assigned example the cumulative frequency, e.g. of result x3=3, is given by probability 0.88. This probability, that the degree 1, 2 or 3 will be determined within the investigation of export ability degree, can be determined by the summation of probabilities p(1) + p(2) + p(3) = 0.18 + 0.30 + 0.40 = 0.88. So the probability of detection of the middle degree is significantly high. V případě kvantitativní metrické škály a absolutní metrické škály lze měření považovat za zobrazení množiny statistických jednotek (např. výběrového statistického souboru) do množiny reálných čísel. In the case of quantitative metric scale or absolute metric scale the measurement can be considered the projection of statistical units set (e.g. within selective statistical set) into set of real numbers. Metody měření jsou závislé na odborné oblasti, v jejímž rámci byl vymezen zkoumaný výběrový statistický soubor VSS. Odlišné budou např. při zkoumání hromadného náhodného jevu v sociologii (rozmanité dotazníkové formy měření) a při zkoumání hromadného náhodného jevu v ekonomii (rozmanité způsoby měření exportní schopnosti před aplikací a po aplikaci ekonomické optimalizace podniku). The measurement methods depend on the expert field, which was defined in the investigated selective statistical set SSS. They will be different, e.g., in the investigation of a collective random phenomenon in sociology (various questionnaire forms of measurement) and the investigation of a collective random phenomenon in economy (various ways of export ability measurement before and after application of economical optimization of enterprise). Metoda měření musí splňovat podmínky validity (zda je měřeno to, co má být měřeno), reliability (reprodukovatelnost měření) a objektivnosti (zda různí posuzovatelé budou měřit statistické jednotky stejným způsobem). The measurement method shall comply with the conditions of validity (whether it is measured what is to be measured), reliability (reproducibility of measurements) and objectivity (whether the various evaluators will mesure the statistical unit in the same way). Výsledky měření zkoumaného výběrového statistického souboru VSS jsou dány údaji o hodnotách statistického znaku, tj. údaji o absolutních četnostech a relativních četnostech jednotlivých prvků škály a údaji o četnostech kumulativních. The measurement results of investigated selective statistical set SSS are given by the information on statistical sign values, i.e. by the information on the absolute frequencies and the relative frequencies of individual scale elements and by the information on the cumulative frequencies. 22 1.4. Elementární statistické zpracování 1.4. Elementary statistical processing Cíle: Goals: - Cíle zkoumání deskriptivní statistiky Goals of investigation of descriptive statistics - Empirický obraz výběrového statistického souboru Empirical picture of selective statistical set Osvojované pojmy a poznatky: Acquired concepts and knowledge pieces: Tabulky četností Frequencies tables Empirické rozdělení Empirical distribution Grafické vyjádření Graphical expression Grafické vyjádření empirického rozdělení Plotting function – Graphical expression of empirical distribution Polygon četnosti Frequency polygon Empirické parametry Empirical parameters Obecné moment, např. aritmetický průměr General moments, e.g. average-means (arithmetic mean) Centrální momenty, např. rozptyl-směrodatná odchylka Central moments, e.g. variance-standard deviation (determinative deviation) Normované momenty, např. šikmost, špičatost Standardized moments, e.g. obliqueness (skewness), pointedness (kurtosis) 23 Kontrolní otázky: Check questions: - Jaké jsou hlavní cíle elementárního statistického zpracování What are the main goals of the elementary statistical processing - Jak lze vhodným způsobem uspořádat výsledky měření How can be the measurement results arranged by suitable way - Jak lze vhodným způsobem parametrizovat výsledky měření How can be the parameters of measurement results expressed by suitable way - Co je to empirické rozdělení četností What is the empirical distribution of frequencies - Jak lze vhodným způsobem graficky vyjádřit výsledky měření How can be the measurement results graphically expressed by suitable way Jak lze graficky vyjádřit empirické rozdělení jednorozměrného statistického souboru How can be the empirical distribution of one-dimensional statistical set expressed by graphical way - Co je to polygon četností What is the frequency polygon - Jaký je význam grafického vyjádření empirického rozdělení What is the significance of graphical expression of empirical distribution - Jak lze dělit empirické parametry podle popisovaného rysu zkoumaného statistického souboru How can be the empirical parameters divided according to described feature of investigated statistical set - Jak lze dělit empirické parametry podle způsobu výpočtu How can be the empirical parameters divided according to calculation way - Jak jsou definovány obecné, centrální a normované moment How are defined the general, central and standardized moments - - Co je nejdůležitějším parametrem polohy, proměnlivosti (variability), šikmosti a špičatosti, jaká je statistická interpretace těchto parametrů What is the most important parameter of location, variability, skewness and kurtosis, what is the statistical interpretation of these parameters Jak je definována veličina „exces“ a jaký je její význam How is the “excess” quantity defined and what is its significance 24 Výsledky měření je potřebné uspořádat, graficky vyjádřit a parametrizovat vhodnými empirickými parametry. Tyto úkoly lze splnit pomocí elementárního statistického zpracování. Výsledkem elementárního statistického zpracování je empirický obraz zkoumaného výběrového statistického souboru VSS. Elementárním statistickým zpracováním je rovněž završena ta skupina hlavních statistických metod, kterou lze nazvat deskriptivní statistikou. The measurement results, it is necessary to arrange, to express graphically and to express by suitable empirical parameters. These assignments can be fulfilled using the elementary statistical processing. The empirical picture of investigated selective statistical set SSS is the result of the elementary statistical processing. The elementary statistical processing also completes this group of major statistical methods that can be called descriptive statistics. Dílčí úkoly „uspořádání“, „grafického vyjádření“ a „parametrizace“ lze vystihnout třemi základními výsledky elementárního statistického zpracování – „tabulkou“, „empirickými rozděleními (nejlépe v podobě polygonu)“ a „empirickými parametry“. The partial assignments “arrangement”, “graphical expression” and “expression by parameters” can be represented in three basic results of the elementary statistical processing – “table”, “empirical distributions (preferably in the shape of polygon)” and “empirical parameters”. 1.4.1.Tabulka 1.4.1. Table Tabulka představuje formu uspořádání výsledků měření. Při popisu tabulky lze sledovat tabulku Tab.1 uvedenou u zadaného ilustrujícího příkladu. The table represents a form of arrangement of the measurement results. In the description of the table stated in the assigned illustrating example, it can be watched the table Tab.1. Tabulka obsahuje osm sloupců. První čtyři sloupce jsou potřebné jednak pro zobrazení výsledků měření (splnění úkolu „uspořádání“), jednak pro znázornění empirických rozdělení (splnění úkolu „grafického vyjádření“). Zbývající čtyři sloupce mají pomocný význam a slouží k snadnému a rychlému výpočtu empirických parametrů (splnění úkolu „parametrizace“). The table contains eight columns. The first four columns are necessary partly for the display of the measurement results (fulfillment of task “arrangement”) partly for the representation of the empirical distributions (fulfillment of task “graphical expression”). The remaining four columns have the helping significance and they can be used to easy and quick calculation of empirical parameters (fulfillment of task “expression by parameters”). První čtyři sloupce obsahují: The first four columns contain: 1. sloupec označený 2. sloupec označený 3. sloupec označený 4. sloupec označený xi ni ni / n Σ (ni / n) 1. column marked xi 2. column marked ni 3. column marked ni / n 4. column marked Σ (ni / n) – prvky škály – absolutní četnosti prvků škály – relativní četnosti prvků škály – kumulativní četnosti – scale elements – absolute frequencies of scale elements – relative frequencies of scale elements – cumulative frequencies 25 Další čtyři sloupce obsahují součiny potřebné pro výpočet empirických parametrů: The following four columns contain the products needed for the calculation of empirical parameters: 5. sloupec obsahuje součiny 6. sloupec obsahuje součiny 7. sloupec obsahuje součiny 8. sloupec obsahuje součiny xi.ni xi2.ni xi3.ni xi4.ni 5. column contains the products 6. column contains the products 7. column contains the products 8. column contains the products xi.ni xi2.ni xi3.ni xi4.ni Tabulka je uzavřena součty údajů v jednotlivých sloupcích. V prvních čtyřech sloupcích mají tyto součty význam kontrolní, v dalších čtyřech sloupcích jsou potřebné pro výpočet empirických parametrů. The table is closed by summations of the data in individual columns. In the first four columns these summations have the checking significance, in the other four columns they are needed for the calculation of empirical parameters. 1.4.2. Empirická rozdělení četností 1.4.2. Empirical distributions of frequencies Empirická rozdělení četností lze členit na dva základní druhy. První druh přiřazuje prvkům škály xi odpovídající absolutní četnosti ni nebo relativní četnosti ni / n. Druhý druh přiřazuje prvkům škály xi odpovídající kumulativní četnosti Σ(ni / n). The empirical distributions of frequencies can be divided into two basic types. The first type assigns corresponding absolute frequencies ni or relative frequencies ni / n to the scale elements xi. The second type assigns corresponding cumulative frequencies Σ(ni / n) to the scale elements xi. Grafické vyjádření empirického rozdělení jednorozměrného statistického souboru je spojeno s používáním souřadnicového systému v rovině. V tomto souřadnicovém systému jsou vždy na vodorovnou osu nanášeny prvky škály xi, na svislou osu odpovídající četnosti. Grafické vyjádření těchto funkčních závislostí je dáno množinou bodů, jejichž první souřadnicí je vždy prvek škály xi, druhou souřadnicí je odpovídající četnost. Spojením sousedních bodů této množiny úsečkami lze obdržet lomenou čáru, která je nazývána „polygon“. Lze rozeznávat „polygon absolutních četností“, „polygon relativních četností“, „polygon kumulativních četností“. The graphical expression of empirical distribution of one-dimensional statistical set is connected with the use of the coordinate system in the plane. In this coordinate system the scale elements xi are always applied to horizontal axis, the corresponding frequencies to vertical axis. The graphical expression of these functional dependences is given by the set of points the first coordinate of which is always scale element xi, the second coordinate is corresponding frequency. By connection of neighbouring points of this set of the line segments it is possible to obtain the broken line which is called “polygon”. It is possible to distinguish “polygon of absolute frequencies”, “polygon of relative frequencies”, “polygon of cumulative frequencies”. 26 Vedle grafického vyjádření empirických rozdělení polygonem je používána řada pomocných grafických znázornění. Jejich „předností“ je odklon od matematicky exaktního aparátu a určitá rychlá orientace. Nedostatkem je pak nemožnost navázat prohloubeným aparátem matematické statistiky, především z hlediska zkoumání závislostí u vícerozměrných statistických souborů. Mezi tato pomocná grafická vyjádření patří sloupcové diagramy, sloupkové grafy, výsečové grafy apod. Všeobecně lze doporučit jednoznačný příklon k exaktnímu grafickému vyjadřování. In addition to the graphical expression of empirical distributions by polygon the ranks of helping graphical representations is used. Their “advantage” is a deviation from mathematically exact apparatus and a certain quick orientation. The impossibility to continue by a deepen apparatus of the mathematical statistics is the shortage, above all from the point of view of the investigation of dependencies for the multi-dimensional statistical sets. The bar charts, the bar graphs, the pie charts, etcetera, belong to these helping graphical representations. Generally, it is possible to recommend the unique resorting to exact graphical expression. Význam grafického vyjádření empirického rozdělení je značný. Grafické vyjádření umožňuje okamžité zkoumání, kterému teoretickému rozdělení (z hlediska teorie pravděpodobnosti) se přibližuje empirické rozdělení získané jako výsledek deskriptivní statistiky. Další význam spočívá v okamžitém orientačním vyhodnocení parametrů polohy, variability, šikmosti a špičatosti empirického rozdělení a tím i zkoumaného statistického souboru. The significance of the graphical expression of the empirical distribution is substantial. The graphical expression enables the immediate investigation which the theoretical distribution (in terms of probability theory) is close to the empirical distribution obtained as a result of descriptive statistics. The next significance consists in the immediate evaluation of parameters of location, variability, skewness and kurtosis of empirical distribution and by this way also of investigated statistical set. V rámci zadaného příkladu si lze procvičit např. konstrukci polygonů absolutní a kumulativní četnosti. Na obrázku Obr.2 je znázorněn polygon absolutních četností, na obrázku Obr.3 pak polygon kumulativních četností. Within the assigned example it is possible to practice, e.g., the construction of polygons of the absolute and the cumulative frequency. In figure Fig.2 the absolute frequencies polygon is represented, in figure Fig.3 then the cumulative frequencies polygon. 25 1 20 0,8 15 0,6 10 0,4 5 0,2 0 1 2 3 4 5 Fig.2 Absolute frequencies polygon 0 1 2 3 4 5 Fig.3 Cumulative frequencies polygon 27 1.4.3. Empirické parametry 1.4.3. Empirical parameters Empirické parametry stručně a jednoduše vystihují povahu zkoumaného statistického souboru. Většinou jsou empirické parametry vztahovány k výběrovému statistickému souboru, proto často nesou pojmenování „výběrové parametry“. Jako výběrové parametry mají samy statisticko-pravděpodobnostní charakter a z tohoto důvodu se chovají jako zvláštní skupina „statistických znaků“. Tento pohled nebude v dalším výkladu rozvíjen, je však nutno na něj upozornit, zvláště z hlediska hlubšího studia statistiky a teorie pravděpodobnosti. The empirical parameters briefly and simply express the nature of investigated statistical set. The empirical parameters are mostly related to a selective statistical set that´s why they often bear the naming “selective parameters”. As selective parameters they have themselves the statistics-probability character and from this reason they behave as a special group of “statistical signs”. This view will not be developed in following explanation but it is necessary to draw attention to it, especially from the point of view of a deeper study of statistics and probability theory. Empirické parametry lze dělit podle toho, který rys zkoumaného statistického souboru (zkoumaného statistického znaku) vystihují: The empirical parameters can be classified according to the feature of the investigated statistical set (investigated statistical sign): parametry polohy parametry proměnlivosti (variability) parametry šikmosti parametry špičatosti parameters of location parameters of variability parameters of obliqueness (skewness) parameters of pointedness (kurtosis) Druhým dělením je dělení empirických parametrů podle způsobu jejich výpočtu: The second classification is classification of empirical parameters according to the way of their calculation: momentové parametry (vystupují jako funkce všech hodnot statistického znaku) kvantilové parametry (reprezentují jen určité hodnoty statistického znaku) moment parameters (they work as a function of all values of statistical sign) quantile parameters (they represent only certain values of statistical sign) Kvantilové parametry úzce souvisejí s momentovými parametry, jsou však konstruovány odlišným způsobem. Empirickým kvantilem je vždy určitá hodnota statistického znaku (jenž lze vyjádřit kvantitativní metrickou nebo absolutní metrickou škálou). Tato hodnota dělí počet menších a větších hodnot statistického znaku v určitém poměru. Např. kvantil dělící hodnoty statistického znaku na dvě stejné části (tj. padesátiprocentní kvantil) je nazýván „medián“. Kvantilové parametry nebudou blíže zkoumány. The quantile parameters are closely related to the moment parameters but they are constructed by different way. The empirical quantile is always a certain value of statistical sign (which is expressed by quantitative metric or absolute metric scale). That value divides the number of smaller and greater values of statistical sign in certain ratio. E.g., the quantile dividing the values of statistical sign in the identical parts (i.e. fiftypercentage quantile) is called a “median”. The quantile parameters will not be investigated in more detail. 28 Momentové parametry jsou děleny na obecné momenty, centrální momenty a normované momenty. Pomocí obecného momentu 1. řádu lze výstižně charakterizovat parametr polohy (aritmetický průměr), pomocí centrálního momentu 2. řádu lze charakterizovat parametr proměnlivosti (empirický rozptyl), pomocí normovaného momentu 3. a 4. řádu pak parametry šikmosti a špičatosti. The moment parameters are divided into general moments, central moments and standardized moments. The location moment (arithmetic mean) can be accurately characterized using general moment of 1.order, the variability moment (empirical variance) can be accurately characterized using central moment of 2.order , the obliqueness (skewness) and pointedness (kurtosis) can be accurately characterized using standardized moments of 3. and 4.order. Jelikož normované momenty lze vypočítat pomocí centrálních momentů a centrální momenty pomocí momentů obecných, bude v dalším výkladu zvolen následující postup (písmenem x bude v rámci tohoto postupu označen zkoumaný statistický znak, označení hodnot statistického znaku xi, absolutních četností ni a rozsahu výběrového statistického souboru n se nemění): Uvedení obecných vztahů pro obecné a centrální momenty Vyjádření potřebných centrálních momentů pomocí momentů obecných Vyjádření potřebných normovaných momentů pomocí momentů centrálních As the standardized moments can be calculated using central moments and the central moments using general moments, the following procedure will be selected in next explanation (within this procedure the investigated statistical sign will be marked by letter x; the marks of statistical sign values xi, of absolute frequencies ni and of selective statistical set extent n don´t change themselves): Presentation of common relations for general and central moments Expression of needful central moments using general moments Expression of needful standardized moments using central moments a) Obecné vztahy pro obecné a centrální parametry a) The common relations for general and central moments 1 Obecný moment r-tého řádu: Or(x) = Σ ni .(xi)r n General moment of r-th order: Obecný moment 1. řádu: General moment of 1. order: O1(x) = x (aritmetický průměr ) (arithmetic mean) Centrální moment r-tého řádu: Cr(x) = 1 Σ ni.(xi – x )r n Central moment of r-th order: Centrální moment 2. řádu: Central moment of 2. order: C2(x) = Sx2 (empirický rozptyl) (empirical variance) Směrodatná odchylka: Sx = Determinative (standard) deviation: C2 ( x) 29 b) Vyjádření potřebných centrálních momentů pomocí momentů obecných b) The expression of needful central moments using general moments C2(x) = O2(x) – O1(x)2 C3(x) = O3(x) – 3.O2(x).O1(x) + 2.O1(x)3 C4(x) = O4(x) – 4.O3(x).O1(x) + 6.O2(x).O1(x)2 – 3.O1(x)4 c) Vyjádření potřebných normovaných momentů pomocí momentů centrálních c) The expression of needful standardized moments using central moments N3(x) = N4(x) = C3 ( x) C2 ( x) C2 ( x) C4 ( x ) C2 ( x)2 Postup pro výpočet obecných, centrálních a normovaných momentů byl uskutečněn pomocí kroků ad a), ad b) a ad c). Jelikož lze pomocí tohoto postupu určit všechny potřebné momentové parametry, lze nyní popsat parametr polohy, proměnlivosti, šikmosti a špičatosti. The procedure for calculation of general, central and standardized moments was realized using the steps ad a), ad b) and ad c). Since all the needful moment parameters can be determined using this procedure, now it is possible to describe the parameters of location, variability, obliqueness (skewness) and pointedness (kurtosis). Parametr polohy je určen obecným momentem 1. řádu O1(x) a nese název „aritmetický průměr“. Polohou empirického rozdělení četností je myšleno jeho umístění na vodorovné ose souřadnicového systému. The location parameter is determined by general moment of 1. order O1(x) and it bears the name “arithmetic mean”. The position of the frequency empirical distribution is its location on the horizontal axis of the coordinate system. Parametr proměnlivosti je určen centrálním momentem 2. řádu C2(x) a nese název „empirický rozptyl“ (odmocnina rozptylu pak nese název „směrodatná odchylka“). Směrodatná odchylka ukazuje, jakou výpovědní hodnotu má aritmetický průměr. Je-li směrodatná odchylka velká, výpovědní hodnota aritmetického průměru je malá a opačně. The variability parameter is determined by central moment of 2. order C2(x) and it bears the name “empirical variance” (the square root from variance then bears the name “standard deviation”). Determinative (standard) deviation shows what the information value is given to arithmetic mean. If the determinative (standard) deviation is large, the information value of arithmetic mean is small and vice versa. Parametr šikmosti je nejčastěji určován pomocí normovaného momentu 3. řádu N3(x) a nese pak název „koeficient šikmosti“. Je-li koeficient šikmosti kladný, pak prvky škály ležící vlevo od aritmetického průměru mají vyšší četnosti (kladně šikmé rozdělení četností – větší koncentrace nižších prvků škály, menších hodnot statistického znaku) a opačně. 30 The obliqueness parameter (skewness) is dominantly determined using standardized moment of 3. order N3(x) and it bears then the name “coefficient of skewness”. If the skewness coefficient is positive, then the scale elements lying to the left of the arithmetic mean have greater frequencies (positively skew distribution of frequencies – greater concentration of the lower scale elements, of the smaller values of statistical sign) and vice versa. Parametr špičatosti je nejčastěji určován pomocí normovaného momentu 4. řádu N4(x) a nese pak název „koeficient špičatosti“. Špičatějšímu rozdělení četností při daném rozptylu odpovídá větší hodnota koeficientu špičatosti. Používá se rovněž veličina „exces“, definovaná vztahem Ex = N4(x) – 3. Exces srovnává špičatost empirického rozdělení se špičatostí známého normovaného normálního rozdělení. Je-li exces kladný, je empirické rozdělení špičatější než toto rozdělení. The pointedness parameter (kurtosis) is dominantly determined using standardized moment of 4. order N4(x) and it bears then the name “coefficient of kurtosis”. The greater value of kurtosis coefficient corresponds to more pointed distribution of frequencies for a given variance. The quantity “excess”, defined by relation Ex = N4(x) – 3, is used as well. The excess compares the kurtosis of empirical distribution with the kurtosis of known standardized normal distribution. If the excess is positive, the empirical distribution is more pointed than this distribution. 1.4.4. Ilustrace výpočtu empirických parametrů 1.4.4. Illustration of calculation of empirical parameters Pro zadaný příklad bude nyní proveden výpočet empirických parametrů polohy, proměnlivosti, šikmosti a špičatosti. Nejdříve budou užitím 5. až 8. sloupce tabulky Tab.1 vypočítány obecné momenty 1. až 4. řádu: In the assigned example the calculation of the empirical parameters of location, variability, skewness and kurtosis will be now carried out. The soonest the general moments of 1. to 4. order will be calculated using 5. up to 8. column of table Tab.1. O1(x) = 2.50 O2(x) = 7.26 O3(x) = 23.50 O4(x) = 82.86 Další část postupu bude spočívat ve výpočtu centrálních momentů 2. až 4. řádu: Next part of the procedure will consist in the calculation of central moments of 2. up to 4. order: C2(x) = 1.031 C3(x) = 0.300 C4(x) = 2.922 (směrodatná odchylka –standard deviation Sx = 1.015) Závěrečná část výpočtu empirických parametrů bude směřovat k určení normovaných momentů 3. a 4. řádu a excesu: Final part of the procedure of empirical parameters calculation will be aimed at the determination of standardized moments of 3. and 4. order and excess: 31 N3(x) = N4(x)= C3 ( x) = 0.28 C2 ( x) C2 ( x) C4 ( x ) C2 ( x)2 = 2.75 Ex = N4(x) – 3 = – 0.25 Parametr polohy (aritmetický průměr) O1(x) ukazuje na umístění empirického rozdělení četností na vodorovné ose – aritmetický průměr stupňů exportní schopnosti je 2,5 (nižší hodnota než je střední stupeň exportní schopnosti). Location parameter (arithmetic mean) O1(x) shows to the placement of frequencies empirical distribution on the horizontal axis – the arithmetic mean of export ability is 2.5 (a lower value than the middle degree of export ability) Směrodatná odchylka vyjádřená odmocninou z C2(x) dává údaj o výpovědní hodnotě aritmetického průměru. Informaci o výpovědní hodnotě lze kvantifikovat následujícím způsobem – v rozmezí asi od stupně exportní schopnosti 1,5 do stupně exportní schopnosti 3,5 se nachází zhruba 70% podniků (použitelnost této informace závisí na tom, zda empirické rozdělení četností lze nahradit teoretickým normálním rozdělením). Determinative (standard) deviation expressed by the square root from C2(x) gives an indication of the arithmetic mean information value. An indication of the information value can be quantified by following way – in the range from export ability degree 1.5 to export ability degree 3.5 the 70% enterprises is roughly situated (the applicability of this information depends on whether the empirical distribution can be substituted by theoretical normal distribution). Kladný koeficient šikmosti N3(x) ukazuje na větší koncentraci nižších prvků škály, nižších stupňů rozvinutosti exportní schopnosti. Obrázek Obr.2 toto zjištění potvrzuje – mírná asymetrie vlevo vůči aritmetickému průměru. The positive skewness coefficient N3(x) shows to the greater concentration of lower scale elements, of lower degrees of export ability development. The figure Fig.2 confirms that determination –the slight asymmetry of the left to the arithmetic mean. Poměrně vysoká hodnota koeficientu špičatosti a rovněž hodnota excesu ukazují na srovnatelnost se špičatostí normovaného normálního rozdělení. Toto sdělení dodatečně podporuje závěr o dobré výpovědní hodnotě aritmetického průměru. Relatively the high value of kurtosis coefficient and also the value of excess show to a comparability with the kurtosis of standardized normal distribution. This communication additionally supports the conclusion of arithmetic mean good information value. 32 Část 2. Hlavní metody matematické statistiky, Pravděpodobnostní distribuce Part 2. The main methods of mathematical statistics, Probability distribution 2.1. Přiřazení teoretického rozdělení rozdělení empirickému 2.1. Assignment of theoretical distribution to empirical distribution Cíle: Goals: Pravděpodobnostní zkoumání výběrového statistického souboru: Výběr odpovídajícího teoretického rozdělení Probable investigation of selective statistical set: Choice of acceptable theoretical distribution Pravděpodobnostní obraz výběrového statistického souboru: Testování neparametrických hypotéz Probable picture of selective statistical set: Testing non-parametric hypotheses Osvojované pojmy a poznatky: Acquired concepts and knowledge pieces: Teoretické rozdělení Theoretical distribution, partial survey in alphabetical order: Bernoulli, Beta, Binomial, Chi-square, Discrete Uniform, Erlang, Exponential, F, Gamma, Geometric, Lognormal, Negative binomial, Normal, Poisson, Student´s, Triangular, Uniform, Weibull Testování neparametrických hypotéz Testing nonparametric hypotheses Test nulové hypotézy H0 Test of zero hypothesis H0 Přijetí nebo zamítnutí nulové hypotézy H0 Receiving or rejecting of zero hypothesis H0 Hladina statistické významnosti , např.  = 0,05 Level of statistical significance, e.g. at alpha = 0,05 33 Kontrolní otázky: Proč je výhodné nahradit empirické rozdělení rozdělením teoretickým Popište rozčlenění rozpětí hodnot statistického znaku na vhodný počet intervalů Co je to intervalové rozdělení četnosti, jaká je podmínka pro vytváření intervalového rozdělení četnosti v případě testování neparametrických hypotéz Co je to náhodný pokus a náhodná veličina Jak jsou členěny náhodné veličiny Jak se liší hodnoty diskrétní a spojité náhodné veličiny Jak je definováno teoretické rozdělení (rozdělení náhodné veličiny) Jak jsou členěna teoretická rozdělení Jaká je forma popisu diskrétního teoretického rozdělení Jaká je forma popisu spojitého teoretického rozdělení Jaký je rozdíl mezi pravděpodobnostní funkcí a hustotou pravděpodobnosti Jaký je význam binomického rozdělení Jaký je význam normálního rozdělení Jaká je formulace centrální limitní věty Uveďte tvar distribuční funkce binomického a normálního rozdělení Uveďte tvar pravděpodobnostní funkce (hustoty pravděpodobnosti) binomického rozdělení (normálního rozdělení) Na kolika teoretických parametrech závisí binomické a normální rozdělení, teoretické parametry popište Co je to normované normální rozdělení Jaké jsou obecné vztahy pro střední hodnotu a rozptyl pro diskrétní a spojité teoretické rozdělení Jaký je vztah mezi empirickými a teoretickými parametry Co vyjadřuje zákon velkých čísel Jaký je aparát neparametrického testování Co předpokládá nulová a alternativní hypotéza v případě neparametrického testování V čem spočívá podstata testování neparametrických hypotéz Jaká teoretická rozdělení jsou požívána pro testování neparametrických hypotéz Jaký je vztah teoretického rozdělení a statistického kritéria Jaký je vztah experimentální hodnoty a kritické teoretické hodnoty statistického kritéria Co je to kritický obor statistického kritéria Popište testovací techniku 2-testu Co je to hladina statistické významnosti Co je to chyba I. druhu 34 Check questions: Why is it advantegous to substitute an empirical distribution by theoretical distribution Describe the division of statistical sign values extent into suitable number of intervals What is the interval division of frequencies, what is the condition for creation of frequency interval division in the case of testing non-parametric hypotheses What is the random attempt and random variable How are the random variables divided How do the values of discrete and continuous random variable differ How is the theoretical distribution (the distribution of random variable) defined How are the theoretical distributions divided What is the form of discrete theoretical distribution description What is the form of continuous theoretical distribution description What is the difference between probability function and probability density What is the significance of binomial distribution What is the significance of normal distribution What is the formulation of central limit theorem Present the form of distribution function of binomial and normal distribution Present the form of probability function (probability density) of binomial distribution (normal distribution) How many of the theoretical parameters do binomial and normal distribution depend on, describe the theoretical parameters What is standardized normal distribution What are the common relations for mean value and variance for discrete and continuous theoretical distribution What is the relation between empirical and theoretical parameters What does the law of large numbers express What is the apparatus of non-parametric testing What do the zero and alternative hypothesis suppose in the case of non-parametric testing What is the essence of testing non-parametric hypotheses What are the theoretical distributions used for testing non-parametric hypotheses What is the relation of theoretical distribution and statistical criterion What is the relation of experimental value and critical theoretical value of statistical criterion What is the critical domain of statistical criterion Describe the testing technique of chi-square What is the level of statistical significance What is the error of I. type 35 Přiřazení teoretického rozdělení rozdělení empirickému je obsahové vystižení statistické metody, která nese název „testování neparametrických hypotéz“. V rámci této statistické metody bude potřebné zabývat se intervalovým rozdělením četností, pojmem „teoretické rozdělení“, aparátem neparametrického testování a zadaným příkladem. Význam testování neparametrických hypotéz spočívá především v tom, že je vždy výhodné nahradit empirické rozdělení rozdělením teoretickým – s teoretickým rozdělením je spojen jednoduchý matematický aparát, který umožňuje získat informace jinak nedostupné. The assignment of theoretical distribution to empirical distribution is the expression of content of statistical method which bears the name “testing non-parametric hypotheses”. Within this statistical method it will be needful to deal with the interval division of frequencies, the concept “theoretical distribution”, the apparatus of non-parametric testing and the assigned example. The significance of testing non-parametric hypotheses consists above all in the fact that it is always more advantageous to substitute an empirical distribution by theoretical distribution – the simple mathematical apparatus is connected with theoretical distribution and such apparatus enables to detect the information inaccessible by another way. 2.1.1. Intervalové rozdělení četností 2.1.1. Interval division of frequencies V některých případech (např. pro potřeby neparametrického testování) je užitečné rozčlenit rozpětí hodnot statistického znaku nebo rozpětí prvků metrické škály u zkoumaného jednorozměrného statistického souboru na určitý počet intervalů. Do každého z vytvořených intervalů pak budou zahrnuty odpovídající hodnoty statistického znaku nebo odpovídající prvky metrické škály. Zpravidla se doporučuje sestrojit 5 – 20 intervalů stejné délky, existují také empirická pravidla (vycházející z rozsahu n výběrového statistického souboru VSS) pro hrubé vymezení počtu k interval (např. Sturgesovo pravidlo k = 1 + 3.3 log10n). Patřičnou pozornost je zapotřebí věnovat také stanovení hranic intervalů. In some cases (e.g., for needs of non-parametric testing) it is useful to divide the extent of statistical sign values or the extent of metric scale elements into a certain number of intervals. In each from intervals created, then the corresponding values of statistical sign or the corresponding elements of metric scale will be included. Usually it is recommended to construct 5 – 20 intervals of the same length, also the empirical rules (working on an extent n of selective statistical set SSS) are in being for rough delimitation of interval number k (e.g. Sturges rule k = 1 + 3.3 log10n). It is needful to dedicate a relevant attention also for the determination of interval boundaries. V rámci zadaného příkladu bude zjišťováno, zda empirické rozdělení na obrázku Obr.1 lze nahradit normálním rozdělením. Tento záměr vede ke stanovení počtu intervalů a jejich hranic, tak jak je to uvedeno v tabulce Tab. 2. Within the assigned example it will be determined if the empirical distribution in figure Fig.1 can be substituted by normal distribution. This intention leads to the determination of intervals number and intervals boundaries how it is presented in table Tab.2. 36 xi 1 2 3 4 5 Σ interval ( - ∞; 1,5  ( 1,5; 2,5  ( 2,5; 3,5  ( 3,5; 4,5  ( 4,5; ∞  ni 9 15 20 4 2 50 ni/n 0,18 0,3 0,4 0,08 0,04 1,00 Σ ni/n 0,18 0,48 0,88 0,96 1,00 nixi 9 30 60 16 10 125 nixi2 9 60 180 64 50 363 nixi3 9 120 540 256 250 1175 nixi4 9 240 1620 1024 1250 4143 Tabulka Tab. 2: Intervalové rozdělení četností Table Tab. 2: Interval division of frequencies 2.1.2. Teoretické rozdělení 2.1.2. Theoretical distribution Pojem „teoretické rozdělení“ je jedním ze základních pojmů teorie pravděpodobnosti. Hromadný náhodný jev HNJ, který je předmětem statistiky i teorie pravděpodobnosti, je zkoumán v teorii pravděpodobnosti prostřednictvím pojmů „náhodný pokus“ a „náhodná veličina“. Náhodný pokus je realizací činností nebo procesů, jejichž výsledek nelze s jistotou předpovědět. Náhodná veličina NV je pak proměnnou, jejíž hodnota je jednoznačně určena výsledkem náhodného pokusu. The concept “theoretical distribution” is one from the fundamental concepts of probability theory. The collective random phenomenon CRP, which is the subject of both statistics and probability theory, is investigated in probability theory by means of the concepts “random attempt” and “random variable”. The random attempt is a realization of activities or processes the result of which isn´t possible to anticipate with certainty. The random variable RV is then variable the value of which is definitely determined by result of random attempt. „Hodnota náhodné veličiny HNV“ je pojem, který má výraznou teoretickou dimenzi. Určitou analogií tohoto pojmu, jehož původ lze nalézt v teorii pravděpodobnosti, je pojem „hodnota statistického znaku HSZ“, jehož původ lze objevit v deskriptivní statistice. Pojem „hodnota statistického znaku HSZ“ má tedy naopak výraznou dimenzi empirickou. “The value of random variable VRV” is concept which has strong theoretical dimension. By certain analogy of this concept, the origin of which can be discovered in probability theory, it is concept “the value of statistical sign VSS”, the origin of which can be discovered in descriptive statistics. The concept “value of statistical sign VSS” so has on the contrary strong empirical dimension. Náhodné veličiny NV lze členit na diskrétní (hodnoty diskrétní náhodné veličiny na sebe „nenavazují“ a budou označovány xi) a spojité (hodnoty spojité náhodné veličiny budou označovány x a tyto hodnoty na sebe spojitě „navazují“ – nelze nalézt nejbližší sousední hodnotu). Hodnotám náhodné veličiny lze přiřazovat pravděpodobnosti, s kterými nastanou při náhodném pokusu. Tyto pravděpodobnosti mohou být definovány klasicky (počet výsledků náhodných pokusů příznivých dané hodnotě dělený počtem všech výsledků náhodných pokusů) nebo např. kolmogorovsky (užitím teorie míry). The random variables RV can be divided into discrete (the values of discrete random variable “don´t follow” themselves and they will be marked xi) and continuous (the values of continuous random variable will be marked x and these values are continuously “following” themselves – it isn´t possible to find the nearest neighbouring value). To values of random 37 variable it is possible to assign the probabilities with which they come in the course of random attempt. These probabilities can be defined in a classical way (a number of random attempt results positive to given value divided by the number of all random attempt results) or e.g. according to Kolmogorov (by application of measure theory). Pravidlo, které každé hodnotě náhodné veličiny nebo každému intervalu hodnot přiřazuje pravděpodobnost, je nazýváno zákonem rozdělení náhodné veličiny nebo krátce rozdělením náhodné veličiny nebo také teoretickým rozdělením. Z hlediska spolupráce teorie pravděpodobnosti a statistiky odpovídá pojem „teoretické rozdělení“ statistickému pojmu „empirické rozdělení četnosti“. Podle povahy náhodné veličiny NV lze teoretická rozdělení dělit na diskrétní a spojitá. Teoretických rozdělení je používáno velké množství. The rule that every value of random variable or every interval of values assigns the probability is called the law of random variable distribution or shortly the random variable distribution or also the “theoretical distribution”. From the point of view of cooperation between probability theory and statistics the concept “theoretical distribution” is adequate to statistical concept “empirical distribution of frequency”. According to an essence of random variable RV the theoretical distributions can be divided into discrete and continuous ones. Důležitou formou popisu teoretického rozdělení je distribuční funkce F. Distribuční funkce F udává v případě diskrétní náhodné veličiny pravděpodobnost, že náhodná veličina NV nabude hodnoty menší nebo rovné než právě zvolená hodnota xi a tato kumulativní pravděpodobnost bude vyjádřena součtem dílčích pravděpodobností. V případě spojité náhodné veličiny distribuční funkce F udává obdobně pravděpodobnost, že náhodná veličina NV nabude hodnoty menší nebo rovné než právě zvolená hodnota x, ale tato kumulativní pravděpodobnost bude vyjádřena místo součtu dílčích pravděpodobností integrálem, jehož dolní mez je obvykle rovna 0 a horní mez odpovídá zvolené hodnotě x. Z hlediska spolupráce teorie pravděpodobnosti a statistiky odpovídá pojem „distribuční funkce“ statistickému pojmu „empirické rozdělení kumulativní četnosti“. The distribution function F is the important form of theoretical distribution description. The distribution function F in the case of discrete random variable quotes the probability that a random variable RV obtains the values smaller or equal to just chosen value xi and this cumulative probability will be expressed by a summation of partial probabilities. In the case of continuous random variable the distribution function F quotes that a random variable RV obtains values smaller or equal to just selected value x, but this cumulative probability instead of a summation will be expressed by an integral the lower limit of which is usually equal to 0 and upper limit is corresponding with selected value x. From the point of view of cooperation between probability theory and statistics the concept “distribution function” is adequate to statistical concept “empirical distribution of cumulative frequency”. a) Binomické rozdělení – příklad diskrétního teoretického rozdělení a) Binomial distribution – the example of discrete theoretical distribution Charakteristika hromadného náhodného jevu Je prováděno n nezávislých náhodných pokusů, pravděpodobnost sledovaného náhodného jevu je ve všech náhodných pokusech stejná a rovna p. Je hledána pravděpodobnost, že tento náhodný jev nastane 0, 1, …, n-krát. Podle této definice jsou hodnoty x0, x1, …, xn příslušné náhodné veličiny dány čísly 0, 1, …, n. 38 The characteristic of collective random phenomenon The n independent random attempts are carried out, the probability of monitored random phenomenon is the same in the all random attempts and it is equal to p. It is sought the probability that this phenomenon occurs itself 0, 1, …, n-times. According to this definition the values x0, x1, …, xn of relevant random variable are given by numbers 0, 1, …, n. Teoretické rozdělení, distribuční funkce Teoretické rozdělení je v diskrétním případě nazýváno pravděpodobnostní funkcí. Pro popsaný náhodný jev je pravděpodobnostní funkce pravidlem, které hodnotám xi náhodné veličiny přiřazuje pravděpodobnosti Pi pro i = 0, 1, …, n. Tvar pravděpodobnostní funkce je n n i Pi    p i 1  p  . i Příslušný tvar distribuční funkce (kumulativní pravděpodobnosti) F(xj) = Fj je dán součtem j Fj   Pi , i 0 kde sčítací index i nabývá hodnot od 0 do j. Binomické rozdělení závisí na dvou teoretických parametrech – p, n. Theoretical distribution, distribution function The theoretical distribution is called probability function in discrete case. For described random phenomenon the probability function is a rule which assigns the probabilities Pi for i = 0, 1, …, n to the values xi of random variable. The form of probability function is n n i Pi    p i 1  p  . i The relevant form of distribution function (cumulative probability) F(xj) = Fj is given by summation j Fj   Pi , i 0 where adding index i obtains the values from 0 to j. The binomial distribution depends on two theoretical parameters – p, n. Význam binomického rozdělení Typickým příkladem nezávislých náhodných pokusů je náhodný výběr prvků z nějakého souboru, jestliže každý vybraný prvek je vracen zpět, tzv. výběr s vracením. Lze ukázat, že v případě, kdy rozsah výběrového souboru je malý ve srovnání s rozsahem základního souboru, je rozdíl mezi výběrem s vracením a výběrem bez vracení zanedbatelný. Binomické rozdělení proto může sloužit jako vhodné kritérium, zda výběrový statistický soubor vznikl na základě náhodného výběru. 39 The significance of binomial distribution A typical example of independent random attempts is a random selection of elements from a set if the selected element is returned back, so called the selection with return. It can be shown that, in the case where the extent of selective set is small in comparison with the extent of basic set, the difference between the selection with return and the selection without return is insignificant. The binomial distribution can therefore serve as a suitable criterion, whether the selective statistical set was created on the basis of random selection. b) Normální rozdělení – příklad spojitého teoretického rozdělení b) Normal distribution – the example of continuous theoretical distribution Charakteristika hromadného náhodného jevu Spojitá náhodná veličina, jejíž hodnoty x(–,), může mít rozdělení normální. Graf funkce, která přiřazuje těmto hodnotám náhodné veličiny pravděpodobnosti, je dán velmi známou Gaussovou křivkou ve tvaru „zvonu“. Je tedy hledána pravděpodobnost, která bude přiřazena jednotkovému intervalu hodnot spojité náhodné veličiny v tom smyslu, že tento interval bude obsahovat hodnotu x. The characteristic of collective random phenomenon The continuous random variable whose values x(–,), can have a normal distribution. The graph of function which assigns the probabilities to these values of random variable is given by well-known Gauss curve in the shape of a “bell”. It is so sought a probability which will be assigned to unit interval of continuous random variable values in the sense that this interval will contain the value of x. Teoretické rozdělení, distribuční funkce Teoretické rozdělení je ve spojitém případě nazýváno hustotou pravděpodobnosti (hodnoty náhodné veličiny na sebe spojitě „navazují“, je nutno přiřazovat pravděpodobnosti jednotkovým intervalům hodnot, neboť nejbližší sousední hodnotu hodnotě x nelze nalézt). Tvar hustoty pravděpodobnosti normálního rozdělení je   x  1  2  e  x   2 2 2 . Příslušný tvar distribuční funkce (kumulativní pravděpodobnosti) F(t) je dán integrálem F t   t    x  dx,  kde dolní integrační mez nabývá hodnoty 0, mez horní pak hodnoty t. Theoretical distribution, distribution function The theoretical distribution is called probability density in continuous case (the random variable values continuously “follow” themselves, it is needful to assign the probabilities to unit intervals of values because the nearest neighbouring value to value x isn´t possible to find). The form of probability density is 40   x  1  2  e  x   2 2 2 . The relevant form of distribution function (cumulative probability) F(x) is given by integral F t   t    x  dx,  where lower integral limit acquires value 0, upper limit then value t. Normální rozdělení závisí na dvou teoretických parametrech – μ, σ. Tato závislost je obvykle zapisována N(μ,σ). Teoretický parametr μ je teoretickou analogií obecného momentu 1.řádu O1(x) a je tedy teoretickou obdobou empirického aritmetického průměru x . Teoretický parametr σ je teoretickou analogií odmocniny centrálního momentu 2.řádu C2(x) a je tedy teoretickou obdobou empirické směrodatné odchylky Sx. The normal distribution depends on two theoretical parameters – μ, σ. This dependence is usually recorded N(μ,σ). The theoretical parameter μ is a theoretical analogy of general moment of 1.order O1(x) and so it is theoretical analogy of empirical arithmetic mean x . The theoretical parameter σ is a theoretical analogy of the square root of central moment of 2.order C2(x) and so it is theoretical analogy of empirical standard (determinative) deviation Sx. Normální rozdělení lze normovat k hodnotám teoretických parametrů μ=0, σ=1 prostřednictvím normované náhodné veličiny u x  . Tato závislost je obvykle zapisována N(0,1) a tímto zápisem je pak označováno tzv. „normované normální rozdělení“ (viz obrázek Obr.4). Hustota pravděpodobnosti normovaného normálního rozdělení bude vzhledem k zavedené proměnné u označena r(u), distribuční funkce je často nazývána Laplaceovou funkcí a označována zápisem F(u). Pro hodnoty Laplaceovy funkce jsou vypracovány velmi podrobné statistické tabulky. Grafické znázornění hustoty pravděpodobnosti normovaného normálního rozdělení je na obrázku Obr.4. The normal distribution can be normalized to the values of theoretical parameters μ=0, σ=1 by means of standardized random variable u x  . This dependence is usually recorded N(0,1) and so called “standardized normal distribution” (see figure Fig.4) is then marked by this record. The probability density of standardized normal distribution will be marked   u  due to introduced variable u, the distribution function is often called Laplace function and marked by record F(u). Very detailed statistical tables are elaborated for the values of Laplace function. The graphical representation of standardized normal distribution probability density is in the figure Fig.4. 41 Obr.4 Grafické znázornění hustoty pravděpodobnosti   u  normovaného normálního rozdělení (na vodorovnou osu jsou nanášeny hodnoty u, na svislou osu hodnoty hustoty pravděpodobnosti   u  ) Fig.4 Graphical representation of probability density   u  of standardized normal distribution (the values u are applied in horizontal axis, the values of probability density   u  are applied in vertical axis) Význam normálního rozdělení Význam normálního rozdělení je popsán centrální limitní větou. Její podstatou je tvrzení, že náhodná veličina, která vznikla jako součet velkého počtu vzájemně nezávislých náhodných veličin má za velmi obecných podmínek přibližně normální rozdělení. Přesnou formulaci uvádí Ljapunovova věta, jejíž součástí je podmínka umožňující pracovat při dostatečně velkém rozsahu výběrového souboru s normálním rozdělením. Užitečné jsou také speciální tvary této věty – věta Linderbergova-Lévyova a věta Moivreova-Laplaceova (tato věta ukazuje, že při dostatečně velkém počtu nezávislých pokusů konverguje binomické rozdělení k rozdělení normálnímu). The significance of normal distribution The significance of normal distribution is described by central limit theorem. Its essence is the statement that the random variable, being created as the summation of a large number of mutually independent random variables, has approximately the normal distribution under very general conditions. The exact formulation is presented by Ljapunov theorem the component of which is the condition enabling to work with a normal distribution for sufficiently the big extent of selective set. The special forms of that theorem – Lindberg-Lévy theorem and Moivre-Laplace theorem (this theorem shows that for sufficiently the big number of independent attempts the binomial distribution is converging to normal distribution) are useful, too. 42 c) Parametry teoretických rozdělení c) Parameters of theoretical distributions Pro diskrétní teoretická rozdělení bude Pj označovat pravděpodobnostní funkci a xi hodnoty diskrétní náhodné veličiny NV. Pro spojitá teoretická rozdělení bude   x  označovat hustotu pravděpodobnosti a x hodnoty spojité náhodné veličiny. For the discrete theoretical distributions the Pj will mark the distribution function and the xi the values of random variable RV. For the continuous theoretical distributions the   x  will mark the probability density and the x the values of continuous random variable. Důležitými parametry všech teoretických rozdělení jsou teoretické obecné, centrální a normované momenty Oj, Cj a Nj. Teoretické obecné, centrální a normované momenty Oj, Cj a Nj lze vystihnout vzorci: b n O j   x  ( x)dx, O j   i j Pi j i 1 a b n C j    x  O1   ( x)dx, C j    i  O1  Pi j j i 1 a j j n   x  O1  i  O1  Nj     ( x)dx, N j    P  C   C  i i 1  a 2  2  b The theoretical general, central and standardized moments Oj, Cj and Nj are important parameters of all the theoretical distributions. The theoretical general, central and standardized moments Oj, Cj and Nj can be expressed through the formulas: b n a i 1 O j   x j  ( x)dx, O j   i j Pi b n C j    x  O1   ( x)dx, C j    i  O1  Pi j j i 1 a j j n   x  O1  i  O1  Nj     ( x)dx, N j    P  C   C  i i 1  a 2  2  b Často jsou používány názvy a označení „střední hodnota E a rozptyl D”. Střední hodnota E je parametr polohy, který měří úroveň náhodné veličiny NV. Rozptyl D je parametr proměnlivosti, který měří „rozptýlenost” hodnot náhodné veličiny. Střední hodnota E je rovna teoretickému obecnému momentu 1.řádu O1, rozptyl D je roven teoretickému centrálnímu momentu 2.řádu C2. Often the names and marks “mean value (expected value) E and dispersion (variance) D” are used, too. The expected value E is a location parameter which measures the level of random variable RV. The dispersion D is a variability parameter which measures the “diffusion” of random variable values. The expected value E is equal to theoretical general moment of 1.order O1, the dispersion D is equal to theoretical central moment of 2.order C2. 43 Teoretický obecný moment 1.řádu O1 je parametr polohy, teoretický centrální moment 2.řádu C2 je parametr variability, teoretický normovaný moment 3.řádu N3 je parametr šikmosti a teoretický normovaný moment 4.řádu N4 je parametr špičatosti. The theoretical general moment of 1.order O1 is the location parameter, the theoretical central moment of 2.order C2 is the variability parameter, the theoretical standardized moment of 3.order N3 is the skewness parameter and the theoretical standardized parameter of 4.order N4 is the kurtosis parameter. Vztah mezi empirickými a teoretickými parametry popisuje zákon velkých čísel. Při dodržování jistých podmínek lze očekávat, že empirické rozdělení a s ním spojené empirické parametry se bude blížit teoretickému rozdělení a s ním spojeným teoretickým parametrům. A to tím více, čím větší bude rozsah výběrového statistického souboru (čím větší bude počet realizovaných náhodných pokusů). Přibližování se empirických parametrů parametrům teoretickým nemá charakter matematické konvergence, ale konvergence pravděpodobnostní. The relation between empirical and theoretical parameters describes the law of large numbers. Subject to compliance with certain conditions, it can be expected that the empirical distribution and related empirical parameters will approximate the theoretical distribution and associated with him theoretical parameters. And the more, the greater the extent of selective statistical set (the larger the number of realized random attempts). Approaching the empirical parameters to the theoretical parameters has not character of mathematical convergence but probability convergence. 2.1.3. Popis vybraných pravděpodobnostních (teoretických) rozdělení 2.1.3. Description of selected probability (theoretical) distributions a) Diskrétní teoretické rozdělení – Alternativní rozdělení a) Discrete theoretical distribution – Alternative distribution Alternativní rozdělení je diskrétní teoretické rozdělení A(p) s jedním teoretickým parametrem p nula-jedničkové náhodné veličiny NV (náhodná veličina má hodnoty xi = i = 0, 1). Pravděpodobnostní a distribuční funkce Pi a Fi jako analogie empirické relativní a kumulativní četnosti a teoretické momenty Oj, Cj mají pro alternativní rozdělení A(p) tvary i Pi  p i 1  p  , kde i  0,1, Fi   Pi , kde i  1 1i j 0 teoretické momenty O1 , C2 , C3 , C4 O1  Ei  p, C2  Di  p 1  p  , C3  p 1  p 1  2 p  , C4  p 1  p  1  3 p  3 p 2  . The alternative distribution is discrete theoretical distribution A(p) with one theoretical parameter of zero-one random variable RV (the random variable has values xi = i = 0, 1). The probability and distribution functions Pi and Fi as analogies of empirical relative and cumulative frequency and theoretical moments Oj, Cj have for alternative distribution the forms 44 i Pi  p i 1  p  , where i  0,1, Fi   Pi , where i  1 1i j 0 theoretical moments O1 , C2 , C3 , C4 O1  Ei  p, C2  Di  p 1  p  , C3  p 1  p 1  2 p  , C4  p 1  p  1  3 p  3 p 2  . b) Diskrétní teoretické rozdělení – Binomické rozdělení b) Discrete theoretical distribution – Binomial distribution Binomické rozdělení je diskrétní teoretické rozdělení Bi(n, p) s dvěma teoretickými parametry n, p náhodné veličiny NV (náhodná veličina má hodnoty xi = i = 0,1, ….,n). Pravděpodobnostní a distribuční funkce Pi a Fi jako analogie empirické relativní a kumulativní četnosti a teoretické momenty Oj, Cj mají pro binomické rozdělení Bi(n, p) tvary i n n i Pi    p i 1  p  , kde i  0,1,...., n, Fi   Pi , kde i  n, j 0 i teoretické momenty O1 , C2 , C3 , C4 O1  Ei  np, C2  Di  np 1  p  , C3  np 1  p 1  2 p  , C4  3n 2 p 2 1  p   np 1  p  1  6 p  6 p 2  . 2 The binomial distribution is discrete theoretical distribution Bi(n, p) with two theoretical parameters n, p of random variable RV (the random variable has values xi = i = 0,1, ….,n). The probability and distribution functions Pi and Fi as analogies of empirical relative and cumulative frequency and theoretical moments Oj, Cj have for binomial distribution the forms i n n i Pi    p i 1  p  , where i  0,1,...., n, Fi   Pi , where i  n, j 0 i theoretical moments O1 , C2 , C3 , C4 O1  Ei  np, C2  Di  np 1  p  , C3  np 1  p 1  2 p  , C4  3n 2 p 2 1  p   np 1  p  1  6 p  6 p 2  . 2 c) Diskrétní teoretické rozdělení – Poissonovo rozdělení c) Discrete theoretical distribution – Poisson distribution Poissonovo rozdělení je diskrétní teoretické rozdělení Po(λ) s jedním teoretickým parametrem λ náhodné veličiny NV (náhodná veličina má hodnoty xi = i = 0,1, ….,  ). Pravděpodobnostní a distribuční funkce Pi a Fi jako analogie empirické relativní a kumulativní četnosti a teoretické momenty Oj, Cj mají pro Poissonovo rozdělení Po(λ) tvary 45 Pi  e   i i! i , kde i  0,1,...., , Fi   Pi , kde i  , j 0 teoretické momenty O1 , C2 , C3 , C4 O1  Ei   , C2  Di   , C3   , C4  3 2  . Binomické rozdělení Bi(n, p) lze aproximovat Poissonovým rozdělením Po(λ) pro n > 30 a pro p → 0 (stačí p ≤ 0,1). Pak je teoretický parametr Poissonova rozdělení λ = np. The Poisson distribution is discrete theoretical distribution Po(λ) with one theoretical parameter λ of random variable RV (the random variable has values xi = i = 0,1, ….,  ). The probability and distribution functions Pi and Fi as analogies of empirical relative and cumulative frequency and theoretical moments Oj, Cj have for Poisson distribution the forms Pi  e   i i! i , where i  0,1,...., , Fi   Pi , where i  , j 0 theoretical moments O1 , C2 , C3 , C4 O1  Ei   , C2  Di   , C3   , C4  3 2  . The binomial distribution Bi(n, p) may be approximated by Poisson distribution Po(λ) for n > 30 and for p → 0 (p ≤ 0.1 is sufficient). d) Diskrétní teoretické rozdělení – Geometrické rozdělení d) Discrete theoretical distribution – Geometric distribution Geometrické rozdělení je diskrétní teoretické rozdělení Ge(p) s jedním teoretickým parametrem p náhodné veličiny NV (náhodná veličina má hodnoty xi = i = 0,1, ….,  ). S rostoucími hodnotami i pravděpodobnosti Pi geometricky klesají. Jsou prováděny nezávislé pokusy a pravděpodobnost nastoupení sledovaného jevu (tj. pravděpodobnost úspěchu p) je pro všechny pokusy stejná a rovna p. Pravděpodobnost, že k úspěchu dojde teprve v pokusu i + 1, je dána pravděpodobnostní funkcí Pi. Pravděpodobnostní a distribuční funkce Pi a Fi jako analogie empirické relativní a kumulativní četnosti a teoretické momenty Oj, Cj mají pro geometrické rozdělení Ge(p) tvary i Pi  p 1  p  , kde i  0,1, 2,...., , Fi   Pi , kde i  , i j 0 teoretické momenty O1 , C2 O1  Ei  1 p 1 p , C2  Di  2 . p p The geometric distribution is discrete theoretical distribution Ge(p) with one theoretical parameter p of random variable RV (the random variable has values xi = i = 0,1, ….,  ). 46 The probabilities Pi geometrically decreases with increasing values i. The independent attempts are carried out and a probability taking the observed phenomenon (i.e. the probability of success) is for all the attempts the same and equal to p. The probability of success only in attempt i + 1 is given by probability function Pi. The probability and distribution functions Pi and Fi as analogies of empirical relative and cumulative frequency and theoretical moments Oj, Cj have for geometric distribution Ge(p) the forms i Pi  p 1  p  , where i  0,1, 2,...., , Fi   Pi , where i  , i j 0 theoretical moments O1 , C2 O1  Ei  1 p 1 p , C2  Di  2 . p p e) Diskrétní teoretické rozdělení – Hypergeometrické rozdělení e) Discrete theoretical distribution – Hypergeometric distribution Hypergeometrické rozdělení je diskrétní teoretické rozdělení HGe(N, M, n) s třemi teoretickými parametry N, M, n náhodné veličiny NV (náhodná veličina má hodnoty xi = i = max(0, M – N + n),…., min(M, n)). The hypergeometric distribution is discrete theoretical distribution HGe(N, M, n) with three theoretical parameters N, M, n of random variable RV (the random variable has values xi = i = max(0, M – N + n),…., min(M, n)). Hypergeometrické rozdělení má na rozdíl od předcházejících diskrétních rozdělení závislé opakované náhodné pokusy (např. je pracováno s N prvky, z nich má M prvků sledovaný znak a z těchto N prvků je vybráno n prvků bez vracení). The hypergeometric distribution, unlike the previous discrete distributions, has the dependent repeated random attempts (e.g. it is worked with N elements, M elements of which has observed sign and n elements is selected from these N elements without return). Pravděpodobnostní funkce Pi jako analogie empirické relativní četnosti a teoretické momenty Oj, Cj mají pro hypergeometrické rozdělení HGe(N, M, n) tvary  M  N  M     i  n  i   Pi  , kde i  max  0, M  N  n  ,..., min( M , n), N   n teoretické parametry O1 , C2 O1  Ei  n M M , C2  Di  n N N  M  N n . 1   N  N 1  The probability function Pi as analogy of empirical relative frequency and theoretical moments Oj, Cj have for hypergeometric distribution HGe(N, M, n) the forms 47  M  N  M     i ni  Pi    , where i  max  0, M  N  n  ,..., min( M , n), N   n theoretical moments O1 , C2 O1  Ei  n M M , C2  Di  n N N  M  N n . 1   N  N 1  Tvary teoretických parametrů O1, C2 pro N dostatečně velké vůči n odpovídají tvarům teoretických parametrů O1, C2 binomického rozdělení Bi(n, p) s pravděpodobností p M . N The forms of the theoretical parameters O1, C2 for N sufficiently large against n correspond to forms of theoretical parameters O1, C2 of binomial distribution Bi(n, p) with probability M . p N Hypergeometrické rozdělení HGe(N, M, n) lze pro n M  0, 05 , p  N N aproximovat binomickým rozdělením Bi(n, p). The hypergeometric distribution HGe(N, M, n) may be approximated for n M  0, 05 , p  N N by binomial distribution Bi(n, p). Hypergeometrické rozdělení HGe(N, M, n) lze pro malé zlomky n M a pro n velké , N N n M M  0, 05,  0,1, n  31,   n N N N aproximovat Poissonovým rozdělením Po(λ). The hypergeometric distribution HGe(N, M, n) may be approximated for small fractions n M and for n large , N N n M M  0, 05,  0,1, n  31,   n N N N by Poisson distribution Po(λ). 48 f) Diskrétní teoretické rozdělení – Multinomické rozdělení f) Discrete theoretical distribution – Multinomial distribution S-násobné multinomické rozdělení je diskrétní teoretické rozdělení s-Multi(n,p1,….,ps-1) s s teoretickými parametry n, p1,…, ps-1 (náhodné veličiny NV1,…, NVs mají hodnoty označené i1,…, is = 0, 1,…., n). The s-multiple multinomial distribution is discrete theoretical distribution s-Multi(n,p1,….,ps-1) with s theoretical parameters n, p1,…, ps-1 (the random variables RV1,…, RVs have values marked i1,…, is = 0, 1,…., n). Rozdělení s-Multi(n, p1,…, ps-1) je spojeno s neslučitelnými náhodnými jevy A1,…., As, které mohou nastat v n nezávislých pokusech s pravděpodobnostmi p1 ,…., ps (součet pravděpodobností je roven 1, v s-násobném multinomickém rozdělení je proto nezávislých jen s–1 pravděpodobností). Počty výskytu náhodných jevů Ai v n pokusech mají binomická rozdělení Bi(n, pi). Pravděpodobnostní funkce Pi jako analogie empirické relativní četnosti má pro multinomické rozdělení s-Multi(n, p1,…,ps-1) tvar Pi1 ,...,is    p1i1 ... ps is 1   p j  s   j 1   i1 !... is ! n   i j  ! j 1   n! s n s ij j 1 . The distribution s-Multi(n, p1,…, ps-1) is connected with incompatible random phenomena A1,…., As which can come in n independent attempts with the probabilities p1 ,…., ps (the summation of probabilities is equal to 1, s-multiple multinomial distribution is therefore only with s–1 independent probabilities). The numbers of random phenomena Ai occurrence in n attempts have the binomial distributions Bi(n, pi). The probability function Pi for multinomial distribution s-Multi(n, p1,…,ps-1) has as analogy of empirical relative frequency the form Pi1 ,...,is    p1i1 ... ps is 1   p j  s   j 1   i1 !... is ! n   i j  ! j 1   n! s n s ij j 1 . Jednotlivá binomická rozdělení Bi  n, pi  mají teoretické parametry O1  Ei  npi , C2  Di  npi 1  pi  . Rozdělení jedné náhodné veličiny (s = 2) je binomické rozdělení Bi(n, pi). Rozdělení dvojice náhodných veličin (s = 3) je trinomické rozdělení Tr(n,pi,pj). Pravděpodobnostní funkce Pij má pro trinomické rozdělení Tr(n, p1, p2) tvar Pij  n! n i  j p1i p2j 1  p1  p2  .. i ! j ! n  i  j ! 49 Multinomické rozdělení pro n → ∞, pi → 0 (i=1,…,s) lze pro λi = npi (λi jsou konečná čísla) aproximovat vícerozměrným Poissonovým rozdělením Po(λi). The individual binomial distributions Bi  n, pi  have the theoretical parameters O1  Ei  npi , C2  Di  npi 1  pi  . The distribution of one random variable (s = 2) is binomial distribution Bi(n, pi). The distribution of two random variables (s = 3) is trinomial distribution Tr(n,pi,pj). The probability function Pij for trinomial distribution Tr(n,pi,pj) has the form Pij  n! n i  j p1i p2j 1  p1  p2  . i ! j ! n  i  j ! The multinomial distribution for n → ∞, pi → 0 (i=1,…,s) may be approximated for λi = npi (λi are the finite numbers) by multi-dimensional Poisson distribution Po(λi). g) Spojité teoretické rozdělení – Normální a normované normální rozdělení g) Continuous theoretical distribution – Normal and standardized normal distribution Normální rozdělení je spojité teoretické rozdělení N(μ, σ) náhodné veličiny NV (náhodná veličina nabývá hodnot x   ;   ). Normální rozdělení má dva teoretické parametry μ, σ. Normované normální rozdělení je spojité teoretické rozdělení N(0,1) náhodné veličiny U (náhodná veličina nabývá hodnot u   ;   ). U normovaného normálního rozdělení jsou parametry μ, σ normovány na hodnoty 0, 1 nahrazením náhodné veličiny NV novou náhodnou veličinou U u  x    E  x    x    D  x , E  0, D   1.     2       x The normal distribution is continuous theoretical distribution N(μ,σ) of random variable RV (the random variable acquires the values x   ;   ). The normal distribution has two theoretical parameters μ, σ. The standardized normal distrinution is continuous theoretical distribution N(0,1) of random variable U (the random variable acquires the values u   ;   ). For standardized normal distribution the parameters μ, σ are standardized to values 0, 1 by the substitution of the random variable RV by new random variable U u  x    E  x    x    D  x , E  0, D   1.     2       x Hustoty pravděpodobnosti ρ(x), ρ(u) (odpovídající relativní četnosti), distribuční funkce F(x), F(u) (odpovídající kumulativní četnosti) a normovací podmínky (odpovídající empirické normovací podmínce) mají tvary 50  1   x  e  2 F t    x   2 2 2 2 1  u2 ,  u   e 2 t t    x  dx, F  t      u  du  F        x  dx  1, F          u  du  1  The probability densities ρ(x), ρ(u) (corresponding with relative frequency), the distribution functions F(x), F(u) (corresponding with cumulative frequency) and standardizing conditions (corresponding with empirical standardizing condition) have the forms  1   x  e  2 F t   t   x   2 2 2 2 1  u2 ,  u   e 2   x  dx, F  t    F   t    u  du         x  dx  1, F        u  du  1 Teoretické parametry O1, C2 lze vypočítat ve tvaru O1  E  x     x   x dx   , O1  E  u    C2  D  x     u  u du  0    ( x  O )   x dx   2 1 2 , C2  D  u      u  u du  1. 2  The theoretical parameters O1, C2 can be calculated in the form O1  E  x     x   x dx   , O1  E  u    C2  D  x    u  u du  0    ( x  O )   x dx   2 1   2 , C2  D  u     u  u du  1. 2  h) Spojité teoretické rozdělení – Lognormální rozdělení h) Continuous theoretical distribution – Lognormal distribution Lognormální rozdělení je spojité teoretické rozdělení LN(μ, σ) náhodné veličiny NV, která je rostoucí funkcí náhodné veličiny Y ve tvaru x = ey (náhodná veličina Y má normální rozdělení N(μ, σ)). Lognormální rozdělení má dva teoretické parametry μ, σ. Hustota pravděpodobnosti ρ(x) (odpovídající relativní četnosti) má tvar 51   ln x   2    x  exp    , kde 0  x  . 2   2  x 2   1 Teoretické parametry Ok, O1, C2 lze vypočítat ve tvaru   k 2 2  Ok  E  x k    x k   x dx  exp  k    2   0  2  2 O1  exp     , O2  exp  2   2  , 2   C2  D  x   O2  O12  exp  2   2  exp  2  1 . The lognormal distribution is continuous theoretical distribution LN(μ, σ) of random variable RV which is increasing function of random variable Y in the form x = ey (the random variable Y has normal distribution N(μ, σ)). The lognormal distribution has two theoretical parameters μ, σ. The probability density ρ(x) (corresponding with relative frequency) has the form   ln x   2   x  exp    2 2 x 2  1   , where 0  x  .   The theoretical parameters Ok, O1, C2 can be calculated in the form   k 2 2  Ok  E  x    x   x dx  exp  k    2   0  2  2 O1  exp     , O2  exp  2   2  , 2   k k C2  D  x   O2  O12  exp  2   2  exp  2  1 . 2.1.4. Aparát neparametrického testování 2.1.4. Apparatus of non-parametric testing Základem testování neparametrických (ale i parametrických) hypotéz je používání aparátu nulových hypotéz H0 a alternativních hypotéz Ha. The use of apparatus of the zero hypotheses H0 and the alternative hypotheses Ha is the foundation of the testing non-parametric (but also parametric) hypotheses. V případě neparametrických hypotéz nulová hypotéza předpokládá, že empirické rozdělení lze nahradit zamýšleným teoretickým rozdělením (jde-li o nahrazení normálním rozdělením, je hovořeno o testu normality). Alternativní hypotéza pak předpokládá, že tato domněnka není správná. Podstatou testování neparametrických hypotéz je srovnávání teoretických a empirických absolutních četností. Empirické absolutní četnosti jsou vypočítávány prostřednictvím elementárního statistického zpracování ve vztahu 52 k empirickému rozdělení. Teoretické absolutní četnosti pak prostřednictvím pravděpodobnostní funkce nebo hustoty pravděpodobnosti ve vztahu k zamýšlenému teoretickému rozdělení. In the case of non-parametric hypotheses the zero hypothesis supposes that empirical distribution can be substituted by intended theoretical distribution (regarding the substitution by normal distribution it had been a test of normality). An alternative hypothesis then supposes that this presumption isn´t correct. A comparison between theoretical and empirical absolute frequencies is the essence of testing non-parametric hypotheses. The empirical absolute frequencies are calculated by means of elementary statistical processing in relation to the empirical distribution. The theoretical absolute frequencies are then calculated through probability function or probability density in relation to the intended theoretical distribution. Parametrické hypotézy se týkají srovnávání empirických a teoretických parametrů a nulové a alternativní hypotézy zde hrají obdobnou roli. The parametric hypotheses relate to a comparison of empirical and theoretical parameters and the zero and alternative hypotheses play the similar role here. K ověřování neparametrických i parametrických hypotéz byla vyvinuta speciální skupina teoretických rozdělení – tato rozdělení neslouží k nahrazování empirických rozdělení, nýbrž fungují jako statistická kritéria. Jedinou výjimkou je normální rozdělení – ve své normované podobě může hrát roli statistického kritéria, ve své nenormované podobě může nahrazovat empirická rozdělení. For the verification of non-parametric and parametric hypotheses the special group of theoretical distributions was developed – these distributions are not intended to replace the empirical distributions but they work as statistical criteria. The normal distribution is the only exception – in its standardized shape it may play a role of statistical criterion, in its nonstandardized shape may substitute the empirical distributions. Mezi nejpoužívanější statistická kritéria patří normované normální rozdělení (u-test), Studentovo rozdělení (t-test), Pearsonovo χ2 rozdělení (χ2-test) a Fisherovo-Snedecorovo rozdělení (F-test). Pro všechna uvedená statistická kritéria jsou vypracovány podrobné statistické tabulky. Standardized normal distribution (u-test), Student´ distribution (t-test), Pearson´ 2 χ distribution (χ2-test, chi-square) and Fisher-Snedecor distribution (F-test) belong among the most frequent statistical criteria. The detailed statistical tables are elaborated for all presented statistical criteria. K ověření hypotéz H0 a Ha je zapotřebí vybrat vhodné statistické kritérium. Pro ověřování neparametrické hypotézy se nejčastěji používá χ2-test. Je-li podmínkou pro jeho použití vytvoření intervalového rozdělení četností, pak je potřebné, aby každý dílčí interval byl spojen s absolutní četností rovnou alespoň 5. Není-li tato podmínka splněna, je nutno spojit dílčí intervaly. Obdobně je zapotřebí postupovat při intervalovém rozdělení četností. For verification of hypotheses H0 and Ha the suitable statistical criterion is needful to select. The χ2-test is used the most frequently for verification of a non-parametric hypothesis. If the creation of interval division of frequencies is a condition for its application, it is then needful to connect the each partial interval with the absolute frequency equal to at least 5. If this condition isn´t fulfilled it is necessary to connect the partial intervals. Similarly, it is necessary to proceed to the interval division of frequencies. 53 Po výběru statistického kritéria (např. χ2-testu) je zapotřebí přistoupit k určení 2 2 experimentální hodnoty tohoto kritéria (např.  exp ) a kritické teoretické hodnoty (např.  teor ). Prostřednictvím kritické teoretické hodnoty bude zapsán tzv. kritický obor W příslušného statistického kritéria. After the selection of statistical criterion (e.g., χ2-test) it is needful to come up to the 2 determination of experimental value of this criterion (e.g.,  exp ) and critical theoretical value 2 (e.g.,  teor ). So called the critical domain W of relevant statistical criterion will be recorded by means of the critical theoretical value. Bude-li experimentální hodnota vybraného kritéria prvkem kritického oboru W, je nezbytné přijmout alternativní hypotézu Ha – tzn. empirické rozdělení nelze nahradit zamýšleným rozdělením teoretickým. V opačném případě (experimentální hodnota nebude prvkem kritického oboru W) lze přijmout nulovou hypotézu H0 – tzn. empirické rozdělení lze nahradit zamýšleným rozdělením teoretickým. If the experimental value of selected criterion will be an element of the critical domain W it is necessary to receive the alternative hypothesis Ha – i.e. the empirical distribution cannot be substituted by intended theoretical distribution. In the contrary case (the experimental value will not be an element of the critical domain W) the zero hypothesis H0 can be received – i.e. the empirical distribution can be substituted by intended theoretical distribution. Nezbytným prvkem testování neparametrických i parametrických hypotéz je stanovení hladiny významnosti α. Tato hladina významnosti udává pravděpodobnost chybného zamítnutí testované hypotézy (tj. pravděpodobnost tzv. chyby I. druhu). Nejčastějšími hladinami významnosti jsou hodnoty α = 0,05 a α = 0,01. Např. hladina významnosti 0,05 umožňuje při příznivém testu normality (tj. je přijata hypotéza H0 o možnosti nahradit empirické rozdělení rozdělením normálním a zamítnuta hypotéza Ha) učinit závěr, že bude-li 100 krát vybrán výběrový statistický soubor VSS ze základního statistického souboru ZSS, v 95 případech se ukáže, že empirické rozdělení lze nahradit rozdělením normálním. The determination of significance level α is an essential element of testing nonparametric and parametric hypotheses. This significance level quotes the probability of erroneous rejection of tested hypothesis (i.e. the probability of the error of I. type). The most frequent significance levels are the values α = 0.05 and α = 0.01. E.g., the significance level 0.05 enables for the positive test of normality (i.e. it is received the hypothesis H0 on the possibility to substitute the empirical distribution by normal distribution and the hypothesis Ha is refused) to determine the conclusion – if the selective statistical set SSS will be selected 100 times from basic statistical set BSS, in 95 cases it will be shown the empirical distribution can be substituted by normal distribution. Vlastní postup neparametrického testování si lze procvičit prostřednictvím řešení zadaného příkladu. The proper procedure of non-parametric testing can be exercised by means of the solution of the assigned example. 54 2.1.5. Ilustrace neparametrického testování 2.1.5. Illustration of non-parametric testing V rámci zadaného příkladu lze nyní sledovat postup při ověřování nulové hypotézy H0, že empirické rozdělení na obrázku Obr.2 lze nahradit rozdělením normálním (viz Obr.4). Within the assigned example it is now possible to monitor the procedure for the verification of the zero hypotheses H0 that the empirical distribution in figure Fig.2 can be substituted by a normal distribution (see Fig.4). Při testování bude použit χ2-test, při jeho aplikaci bude písmeno k označovat počet intervalů intervalového rozdělení četnosti, které odpovídají alespoň absolutní četnosti 5, písmeno r pak počet teoretických parametrů normálního rozdělení (tj. r = 2). Výraz ν = k–r–1 vyjadřuje počet stupňů volnosti, který umožňuje společně se zvolenou hladinou významnosti 2 určovat pomocí statistických tabulek kritickou teoretickou hodnotu  teor =  k2-r -1 . Hladina významnosti je volena α = 0,05. In the course of testing the χ2-test will be applied, in the course of its application the letter k will be to refer to the number of intervals of frequency interval division, the letter r then to the number of normal distribution theoretical parameters (i.e. r = 2). The formulation ν = k–r–1 expresses the number of freedom degrees which enables together with a selected 2 level of significance to determine the critical theoretical value  teor =  k2-r -1 using statistical tables. The significance level is selected α = 0,05. Písmeno F označuje Laplaceovu funkci závisející na normované náhodné veličině ui (ui je normovaná hodnota odrážející horní mez xi příslušného intervalu intervalového rozdělení četností). Pravděpodobnosti pi (vyjádřené integrálním počtem) jsou dány rozdílem příslušných hodnot Laplaceovy funkce, součiny n.pi pak vyjadřují teoretické absolutní četnosti, hodnoty ni označují empirické absolutní četnosti (viz tabulky Tab.1 a Tab.2). The letter F marks the Laplace function depending on standardized random variable ui (ui is standardized value reflecting the upper limit xi of relevant interval of frequency interval division). The probabilities pi (expressed by integral calculus) are given by the difference of Laplace function values, the products n.pi then express the theoretical absolute frequencies, the values ni denote the empirical absolute frequencies (see tables Tab.1 and Tab.2). Výpočet normovaných hodnot ui užitím vztahu (obecný moment 1. řádu O1 = 2,5, směrodatná odchylka Sx = 1, horní meze xi jsou x1 = 1,5, x2 = 2,5, x3 = 3,5, x4 = 4,5, x5 = ∞) ui  xi  O1 Sx vede k hodnotám u1 =  1, u2 = 0, u3 = 1, u4 = 2,5, u5 = ∞. The calculation of standardized values ui using the relation (general moment of 1.order O1 = 2,5, standard deviation Sx = 1, the upper limits xi are x1 = 1,5, x2 = 2,5, x3 = 3,5, x4 = 4,5, x5 = ∞) ui  xi  O1 Sx leads to the values u1 =  1, u2 = 0, u3 = 1, u4 = 2, u5 = ∞. 55 Výpočet pravděpodobností pi pomocí integrálního počtu a pomocí hodnot Laplaceovy funkce F(u): 1,5 p1     x dx, p1   2,5 p2   1,5 p4  p5     u du  F  1  0   x dx, p2     u du  F  0   F  1 1 3,5 p3  1 1    x dx, p     u du  F 1  F  0  3 2,5 0 4,5 2    x dx, p     u du  F  2   F 1 4 3,5 1      x dx, p     u du  F     F  2  4 4,5 2 The calculation of probabilities pi using the integral calculus and using the Laplace function values F(u): 1,5 p1     x dx, p1  1    u du  F  1   2,5 0    x dx, p     u du  F  0   F  1 p2  2 1,5 1 3,5 1    x dx, p     u du  F 1  F  0  p3  3 2,5 4,5  p4  3,5 0 2   x dx, p4     u du  F  2   F 1 1      x dx, p     u du  F     F  2  p5  4 4,5 2 Použití tvaru χ2-testu k  ni  npi  i 1 npi  exp   2 2 , pi  F  ui   F  ui 1  již umožňuje provést potřebné dílčí výpočty (viz tabulka Tab.3). The application of χ2-test form k  ni  npi  i 1 npi  exp   2 2 , pi  F  ui   F  ui 1  already enables to realize the needful partial calculations (see table Tab.3). 56 xi 1 2 3 4 5 Interval (– ∞; 1,5  ( 1,5; 2,5  ( 2,5; 3,5  ( 3,5; 4,5  ( 4,5; ∞  ni 9 15 20 4 2 ui –1 0 1 2  F(ui) 0,1625 0,5000 0,8175 0,9754 1,0000 pi 0,1625 0,3375 0,3175 0,1579 0,0246 npi 8,125 16,875 15,875 7,895 1,230 Tabulka Tab.3: Výpočty ui, F(ui), pi a n.pi Table Tab.3: The calculations of ui, F(ui), pi and n.pi Tabulka Tab.4 reaguje na požadavek, že při testu normality musí být v každém intervalu nejméně 5 výsledků měření. Při nesplnění této podmínky se sdruží sousední intervaly, aby bylo dosaženo pěti a více výsledků měření. Současně jsou v této tabulce provedeny další výpočty, umožňující stanovit experimentální hodnotu statistického kritéria: The table Tab.4 reacts to the requirement at least 5 and more measurement results must be in each interval in the course of normality test. The neighbouring intervals come together to reach the 5 and more measurement results. At the same time the additional calculations, enabling to establish the experimental value of statistical criterion, are carried out in this table. xi ni npi 1 2 3 4+5 9 15 20 6 8,1 16,9 15,9 9,1 ( ni - npi ) 2 npi 0,100 0,214 1,057 1,056 Σ = 2,427 = Tabulka Tab.4: Úprava počtu intervalů, výpočet 2  exp 2  exp 2 Table Tab.4: The adjustment of intervals number, the calculation of  exp V poslední části neparametrického testování bylo potřebné určit prostřednictvím vypočítaného počtu stupňů volnosti ν = k – r – 1 = 4 – 2 – 1 = 1 a pomocí statistických 2 2 2 tabulek kritickou teoretickou hodnotu  teor =  =  k2-r -1 =  4-2-1 = 12 = 3,84 při hladině významnosti α = 0,05. Prostřednictvím kritické teoretické hodnoty již bylo možno zapsat pravostranný kritický obor W =  2   , )  3,84, ). In the final part of non-parametric testing it was needful to determine the critical 2 2 2 theoretical value  teor =  =  k2-r -1 =  4-2-1 = 12 = 3.84 using the calculated number of freedom degrees ν = k – r – 1 = 4 – 2 – 1 = 1 and using the statistical tables with significance level α = 0.05. By means of the critical theoretical value already it was possible to record the right-sided critical domain W =  2   , )  3.84, ). 57 Jelikož experimentální hodnota statistického kritéria 2 2 = 2,427 (tj.  exp  W) lze  exp učinit průkazný závěr týkající se testu neparametrické hypotézy: 2 Experimentální hodnota  exp nepatří do kritického oboru, lze proto přijmout nulovou hypotézu H0 a lze empirické rozdělení (empirický polygon) nahradit na hladině významnosti α = 0,05 teoretickým normálním rozdělením. Tento závěr má značný význam – lze nejen používat jednoduchý matematický aparát spojený s normálním rozdělením při vyvozování dalších informací, ale lze také při testování parametrických hypotéz používat testovacích technik, jejichž použití je vázáno právě na normální rozdělení. 2 2 For the experimental value of statistical criterion  exp = 2.427 (i.e.  exp  W) it is possible to do the conclusive verdict related to non-parametric hypothesis test: 2 The experimental value  exp doesn´t belong to critical domain, the zero hypothesis H0 can be received and the empirical distribution (empirical polygon) can be substituted by theoretical normal distribution with the significance level α = 0.05. This conclusion is of considerable importance – in the course of deducing the additional information it is possible to use not only the simple mathematical apparatus connected with normal distribution but also in the course of parametric hypotheses testing it is possible to apply the testing techniques which are just bound to the normal distribution. 2.2. Srovnání empirických a teoretických parametrů – odhady teoretických parametrů, testování parametrických hypotéz 2.2. Comparison of empirical and theoretical parameters – estimations of theoretical parameters, testing parametric hypotheses Cíle: Goals: - Pravděpodobnostní zkoumání výběrového statistického souboru: Kvantifikace teoretických parametrů, srovnání teoretických a empirických parametrů - Probable investigation of selective statistical set: Quantification of theoretical parameters, Comparison between theoretical and empirical parameters - Pravděpodobnostní obraz výběrového statistického souboru: Bodový a intervalový odhad – např. interval spolehlivosti, Testování parametrických hypotéz - Probable picture of selective statistical set: Point & interval estimation – e.g. confidence interval, Testing parametric hypotheses 58 Osvojované pojmy a poznatky: Acquired concepts and knowledge pieces: Bodový odhad Point estimation Intervalový odhad Interval estimation Interval spolehlivosti Confidence interval Interval spolehlivosti pro střední hodnotu Confidence interval for mean value Interval spolehlivosti pro standardní odchylku Confidence interval for standard deviation Testování parametrických hypotéz Testing parametric hypotheses Aplikace u-testu Computed u-statistic Aplikace t-testu Computed t-statistic Aplikace F-testu Computed F-statistic Aplikace 2-testu Computed chi-square statistic Kontrolní otázky: Check questions: Proč odhady teoretických parametrů předcházejí srovnávání teoretických a empirických parametrů Why do the estimations of theoretical parameters come before the comparison of theoretical and empirical parameters Jaké podmínky musí splňovat dobré bodové odhady What conditions must good point estimation fulfil Jaké jsou metody bodových odhadů What are the methods of point estimations Jaké jsou přednosti intervalových odhadů What are the advantages of interval estimations Popište způsob konstrukce intervalů spolehlivosti Describe the way of confidence intervals construction Která statistická kritéria jsou používána pro konstrukci intervalů spolehlivosti Which are the statistical criteria used for confidence intervals construction Jaký je aparát parametrického testování What is the apparatus of parametric testing Jaký je rozdíl mezi jednovýběrovým a dvojvýběrovým testováním parametrických hypotéz What is the difference between one-selective and two-selective testing parametric hypotheses Jaký je postup při parametrickém testování What is the procedure for parametric testing Uveďte přehled nejobecnějších statistických kritérií Present a survey of the most general statistical criteria . 59 Další z hlavních metod statistiky „Srovnání empirických a teoretických parametrů“ navazuje na „Přiřazení teoretického rozdělení rozdělení empirickému“. Teoretické rozdělení je identifikováno a neparametrickým testováním přiřazeno, obsahuje však dosud neznámé hodnoty teoretických parametrů. Před provedením srovnání empirických a teoretických parametrů je potřebné teoretické parametry odhadnout. Pak lze přistoupit ke srovnávání empirických a teoretických parametrů s použitím aparátu parametrického testování. Another of the main methods of statistics “Comparison of empirical and theoretical parameters” builds on “Assignment of theoretical distribution to empirical distribution”. The theoretical distribution is identified and assigned by non-parametric testing, but it contains still the unknown values of theoretical parameters. Before an implementation of comparison between empirical and theoretical parameters it is needful to estimate the theoretical parameters. Then it is possible to approach to a comparison between empirical and theoretical parameters with the application of parametric testing apparatus. 2.2.1. Základy teorie odhadů 2.2.1. Basics of estimation theory Teoretické parametry (např. střední hodnotu E = μ a rozptyl D = σ2 u rozdělení normálního) je zapotřebí odhadnout. Odhady teoretických parametrů mohou být dvojího druhu: bodové a intervalové. It is necessary to estimate the theoretical parameters (e.g. mean value E = μ and dispersion D = σ2 for the normal distribution). Two kinds of the theoretical parameters estimations can be: the point and the interval ones. Dobré bodové odhady by měly splňovat podmínky konzistentnosti, nestrannosti, vydatnosti a dostatečnosti. Zde jsou tyto podmínky jen připomenuty, podrobnější informace lze získat v literatuře zabývající se teorií odhadů. Bodový odhad lze provést momentovou metodou nebo metodou maximální věrohodnosti. Momentová metoda spočívá v tom, že se empirické parametry považují za odhady odpovídajících teoretických parametrů. Metoda matematické věrohodnosti je podstatně matematicky náročnější. Nevýhodou bodových odhadů je především neznalost přesnosti, s kterou byl odhad učiněn. The good point estimations should fulfil the conditions of consistency, impartiality, abundance and sufficiency. Here these conditions are reminded only, more detailed information can be obtained in a literature dealing with estimation theory. The point estimation can be carried out by moment method or by method of maximum likelihood. The moment method is based on the effect that the empirical parameters are considered the estimations of corresponding theoretical parameters. The method of mathematical likelihood is essentially mathematically more demanding. The disadvantage of point estimations consists above all in the ignorance of exactness which the estimation was done with. Intervalové odhady odstraňují problém neznalosti přesnosti odhadu. Snaží se sestrojit interval, který by poskytoval rozumnou „záruku“ (dostatečně vysokou pravděpodobnost), že skutečná hodnota teoretického parametru leží uvnitř intervalu. Tato pravděpodobnost souvisí opět s volbou hladiny významnosti a sestrojený interval pak nese název „100 (1–α)% interval spolehlivosti“ (např. pro α = 0,05 půjde o 95% interval spolehlivosti). The interval estimations remove the problem of estimation exactness ignorance. They are trying to construct an interval providing the reasonable “guarantee” (sufficiently high probability) the real value of theoretical parameter is located inside interval. This probability relates to the selection of significance level again and the constructed interval then bears the 60 name “100 (1–α)% confidence interval” (e.g., for α = 0,05 the point will be 95% confidence interval). a) Konstrukce intervalu spolehlivosti pro střední hodnotu μ normálního rozdělení pomocí u-testu (podmínka konstrukce – rozptyl σ2 je předem zadán) vychází z tvaru testového kritéria u O1    n. Kritické hodnoty jsou –u(α/2), u(α/2), podmínky pro konstrukci intervalu spolehlivosti lze zapsat ve tvaru nerovností –u(α/2)< u< u(α/2). Po vyřešení uvedených nerovností lze získat interval spolehlivosti (intervalový odhad μ):      u   u   2 2 .    O1  ; O1   n n    a) The construction of confidence interval for mean value μ of normal distribution using u-test (the condition of construction – the variance σ2 is assigned in advance) works on the form of statistical criterion u O1    n. The critical values are –u(α/2), u(α/2), the conditions for construction of confidence interval can be recorded in the form of inequalities –u(α/2)< u< u(α/2). After the solution of presented inequalities it is possible to obtain the confidence interval (the interval estimation of μ):      u   u   2 2 .    O1  ; O1   n n    b) Konstrukce intervalu spolehlivosti pro střední hodnotu μ normálního rozdělení pomocí t-testu (podmínka konstrukce – rozptyl σ2 není předem znám) vychází z tvaru testového kritéria t O1   n. Sx Kritické hodnoty jsou –tn–1(α/2), tn–1(α/2), podmínky pro konstrukci intervalu spolehlivosti lze zapsat ve tvaru nerovností –tn–1(α/2) < t < tn–1(α/2). Po vyřešení uvedených nerovností lze získat interval spolehlivosti (intervalový odhad μ):     O1     2 S tn 1  n x ; O1   2 S tn 1  n x     61 b) The construction of confidence interval for mean value μ of normal distribution using t-test (the condition of construction – the variance σ2 isn´t assigned in advance) works on the form of statistical criterion t O1   n. Sx The critical values are –tn–1(α/2), tn–1(α/2), the conditions for construction of confidence interval can be recorded in the form of inequalities –tn–1(α/2) < t < tn–1(α/2). After the solution of presented inequalities it is possible to obtain the confidence interval (the interval estimation of μ):      tn 1  S x tn 1  S x  2 2  ,   O1  ; O1    n n   c) Konstrukce intervalu spolehlivosti pro rozptyl σ2 normálního rozdělení pomocí χ 2 -testu (podmínka konstrukce – nutno vypočítat empirický rozptyl Sx2) vychází z tvaru testového kritéria 2    n  1 S x 2 . 2  ,   2  , podmínky pro konstrukci intervalu spolehlivosti lze zapsat ve tvaru nerovností  1    < <    . Po vyřešení 2 2 Kritické hodnoty jsou  n12 1   2 n 1 2 2 n 1 2 2 n 1 uvedených nerovností lze získat interval spolehlivosti (intervalový odhad σ2):  n  1 S x 2 n  1 S x 2      ;   2   n 12 1   2 n 1 2  2      .   c) The construction of confidence interval for variance σ2 of normal distribution using χ 2 -testu (the condition of construction – the empirical variance Sx2 is needful to calculate) works on the form of statistical criterion 2   The critical values are  n12 1   confidence   interval can   be  n  1 S x 2 2    ,  n12  , the conditions for construction of 2 2 recorded in the form of inequalities  n12 1   2 < 2 <  n12  2 . After the solution of presented inequalities it is possible to obtain the confidence interval (the interval estimation of σ2):  n  1 S x 2 n  1 S x 2      ;   2   n 12 1   2 n 1 2  2      .   62 2.2.2. Ilustrace konstrukce intervalů spolehlivosti 2.2.2. Illustration of confidence intervals construction a) V rámci zadaného příkladu bude provedena konstrukce intervalu spolehlivosti pro střední hodnotu μ pomocí t-testu. Interval spolehlivosti je dán tvarem:      tn 1  S x tn 1  S x  2 2     O1  ; O1    n n   Kritické hodnoty jsou podle statistických tabulek při hladině statistické významnosti α = 0,05, při rozsahu n = 50 výběrového statistického souboru VSS, při směrodatné odchylce Sx = 1 (přibližná hodnota) a při aritmetickém průměru O1 = 2,5 rovny  t49 (0,025) =  1,96 (pro počet stupňů volnosti n–1 > 33 lze použít statistické tabulky pro u-test). Po dosazení do 95% intervalu spolehlivosti lze obdržet    2,221; 2,779 . a) Within the assigned example the construction of confidence interval will be carried out for mean value μ using t-test. The confidence interval is given by form:      tn 1  S x tn 1  S x  2 2     O1  ; O1    n n   For the significance level α = 0.05, for the extent n = 50 of selective statistical set SSS, for standard deviation Sx = 1 (approximative value) and for the arithmetic mean O1 = 2.5 the critical values are, according to the statistical tables, equal to  t49 (0.025) =  1.96 (for freedom degrees number n–1 > 33 it is possible to apply the statistical table for u-test). After implementation into 95% confidence interval it is possible to obtain    2.221; 2.779 . b) V rámci zadaného příkladu bude provedena konstrukce intervalu spolehlivosti pro rozptyl σ2 pomocí χ 2 -testu Interval spolehlivosti je dán tvarem:   2   n  1 S x 2     2  2  n 1 ;  .   1 2   n  1 S x 2  n 12   Kritické hodnoty jsou podle statistických tabulek při hladině statistické významnosti α = 0,05, při rozsahu n = 50 výběrového statistického souboru VSS, při směrodatné odchylce Sx = 1 (přibližná hodnota)  49 2 (1  ( / 2) )   49 2 (0,975)  30, 60  49 2 ( / 2)   49 2 (0, 025)  70, 22 63 Po dosazení do 95% intervalu spolehlivosti lze obdržet  2   0,705; 1,617  ,    0,839; 1, 272 . b) Within the assigned example the construction of confidence interval will be carried out for variance σ2 using χ 2 -test. The confidence interval is given by form:   2   n  1 S x 2     2  2  n 1 ;  .   1 2   n  1 S x 2  n 12   For the significance level α = 0.05, for the extent n = 50 of selective statistical set SSS, for standard deviation Sx = 1 (approximative value) the critical values are according to the statistical tables  49 2 (1  ( / 2) )   49 2 (0.975)  30.60  49 2 ( / 2)   49 2 (0.025)  70.22 After implementation into 95% confidence interval it is possible to obtain  2   0.705; 1.617  ,    0.839; 1.272 . 2.2.3. Základy testování parametrických hypotéz 2.2.3. Basics of parametric hypotheses testing Testování parametrických hypotéz opět vychází z aparátu nulové hypotézy H0 a alternativní hypotézy Ha. Tento aparát je doplněn obvyklým aparátem kritického oboru W. Vzhledem k centrální limitní větě je přirozeným předpokladem, že empirickému rozdělení lze přiřadit jako nejvhodnější teoretické rozdělení rozdělení normální. The parametric hypotheses testing again works on the apparatus of zero hypothesis H0 and alternative hypotheses Ha. This apparatus shall be accompanied by usual apparatus of critical domain W. Due to the central limit theorem it is the natural assumption that the normal distribution, as the most suitable theoretical distribution, may be assigned to empirical distribution. Parametrické testování lze rozčlenit na jednovýběrové testování hypotézy o střední hodnotě nebo o rozptylu (pak jsou požívány jednovýběrové testy u-test a t-test pro střední hodnotu a jednovýběrový χ2-test pro rozptyl) a na dvojvýběrové testování hypotézy o rovnosti středních hodnot nebo rozptylů (pak jsou používány dvojvýběrové testy u-test a t-test pro rovnost středních hodnot a dvojvýběrový F-test pro rovnost rozptylů). The parametric testing can be divided into one-selective testing hypotheses of the mean value or of the variance (then the one-selective tests u-test and t-test are used for mean value and one-selective χ2-test for variance) and into two-selective testing hypotheses of an equality of the mean values or of the variances (then the two-selective tests u-test and t-test are used for an equality of the mean values and two-selective F-test for an equality of the variances). V případě jednovýběrového testování lze hypotézy H0 a Ha psát ve tvaru H0: μ = μ0 nebo H0: σ = σ0, Ha: μ  μ0 nebo Ha: σ  σ0. 64 In the case of one-selective testing the hypothesis H0 and Ha can be written in the form H0: μ = μ0 or H0: σ = σ0, Ha: μ  μ0 or Ha: σ  σ0. Jednovýběrové parametrické testování vychází ze srovnávání empirického parametru μ nebo empirického parametru σ (těmito symboly jsou označeny výsledky elementárního statistického zpracování výběrového statistického souboru VSS, prostřednictvím těchto výsledků byly odhadnuty příslušné teoretické parametry μ, σ odpovídajícího normálního rozdělení) s nějakými vnějšími teoretickými údaji μ0, σ0, jejichž původ může být rozmanitý (studium literatury, výzkumné zprávy, komerční ukazatele apod.). Společným jmenovatelem těchto vnějších údajů může být zjištění, že zřejmě charakterizují určitý významný základní statistický soubor ZSS. Jednovýběrové parametrické testování pak z pohledu matematické statistiky odpovídá na otázku, zda zkoumaný výběrový statistický soubor VSS mohl být vybrán z popsaného významného základního statistického souboru ZSS. Při potvrzení hypotézy H0 lze na výsledky zkoumání výběrového souboru VSS nahlížet v kontextu vytvořeném základním souborem ZSS. Při přijetí hypotézy Ha nelze z tohoto kontextu vycházet. The one-selective parametric testing works on the comparison between an empirical parameter μ or an empirical parameter σ (by these symbols the results of elementary statistical processing of selective statistical set SSS are marked, by means of these results the relevant theoretical parameters μ, σ of corresponding normal distribution were estimated) and some external theoretical data μ0, σ0, origin of which can be various (study of literature, research reports, commercial indicators and the like). By the collective denominator of these external data it can be the determination that they probably characterize the certain significant basic statistical set BSS. The one-selective parametric testing, then from the point of view of the mathematical statistics, answers the question whether the investigated selective statistical set SSS could be chosen from the described significant basic statistical set BSS. In the case of hypotheses H0 verification it is possible to look at the results of selective statistical set SSS investigation in the context created by basic statistical set BSS. In the case of hypothesis Ha acceptance it is not possible to work on this context. V případě dvojvýběrového testování lze hypotézu H0 a Ha psát ve tvaru H0: μ1 = μ2 nebo H0: σ1 = σ2, Ha: μ1  μ2 nebo Ha: σ1  σ2. In the case of two-selective testing the hypothesis H0 and Ha can be written in the form H0: μ1 = μ2 or H0: σ1 = σ2, Ha: μ1  μ2 or Ha: σ1  σ2. Dvojvýběrové parametrické testování vychází ze srovnávání empirického parametru μ1 nebo empirického parametru σ1 (těmito symboly jsou označeny výsledky elementárního statistického zpracování výběrového statistického souboru VSS1, jejichž prostřednictvím byly odhadnuty příslušné teoretické parametry μ1, σ1 odpovídajícího normálního rozdělení) s nějakými vnějšími teoretickými údaji μ2, σ2, jejichž původ lze obvykle nalézt ve výsledcích zkoumání jiného výběrového statistického souboru VSS2. Dvojvýběrové parametrické testování pak z pohledu matematické statistiky odpovídá na otázku, zda oba výběrové statistické soubory VSS1 a VSS2 zkoumaly obdobný problem a zda tyto soubory mohou spolupracovat. Při potvrzení hypotézy H0 lze výběrové soubory VSS1 a VSS2 považovat za výběrové soubory vybrané z téhož základního souboru ZSS a obvykle se vyplatí snaha soubor 65 ZSS identifikovat. Při přijetí hypotézy Ha je nutno z pohledu matematické statistiky vyslovit pochybnosti o kompatibilitě souborů VSS1 a VSS2. The two-selective parametric testing works on the comparison between an empirical parameter μ1 or an empirical parameter σ1 (by these symbols the results of elementary statistical processing of selective statistical set SSS1 are marked, by means of these results the relevant theoretical parameters μ1, σ1 of corresponding normal distribution were estimated) and some external theoretical data μ0, σ0, origin of which can be usually found in the investigation results of another selective statistical set SSS2. The two-selective parametric testing, then from mathematical statistics point of view, answers the question whether both of selective statistical sets SSS1 and SSS2 have investigated an analogous problem and whether these sets can co-operate. In the case of confirmation of the hypotheses H0 it is possible to consider the selective sets SSS1 and SSS2 the selective sets chosen from the same basic statistical set BSS and usually the endeavour to identify the set BSS is worth. In the case of acceptance of the hypotheses Ha it is necessary, from mathematical statistics point of view, to articulate the doubts as to the compatibility of the sets SSS1 and SSS2. Postup při parametrickém testování je obdobný jako při testování neparametrickém. Nejdříve je potřebné naformulovat nulovou a alternativní hypotézu a zvolit hladinu významnosti α. Pak je potřebné vybrat vhodné statistické kritérium (u-test, t-test, χ2-test, Ftest), nalézt jeho kritickou hodnotu a zapsat odpovídající kritický obor W. Posléze je zapotřebí přikročit k výpočtu empirické hodnoty statistického kritéria a zjistit, zda je či není prvkem kritického oboru W. Je-li empirická hodnota prvkem oboru W, je zapotřebí přijmout alternativní hypotézu Ha, v opačném případě pak nulovou hypotézu H0. The procedure for parametric testing is similar to the procedure for non-parametric testing. First, it is needful to formulate a zero and an alternative hypothesis and to select the significance level α. Then it is needful to select a suitable statistical criterion (u-test, t-test, χ2-test, F-test), to discover its critical value and to record a corresponding critical domain W. Finally it is necessary to approach to the calculation of statistical criterion empirical value and to determine if it is or it isn´t the element of critical domain W. If the empirical value is an element of domain W it is necessary to accept the alternative hypothesis Ha, in the opposite case then the zero hypothesis H0. Přehled některých jednovýběrových statistických kritérií (n – rozsah souboru VSS): Survey of some one-selective statistical criteria (n – the extent of set SSS): a) Jednovýběrový u-test (testování hypotézy o střední hodnotě při známém rozptylu σ2) a) One-selective u-test (the testing hypothesis about the mean value of the known variance σ2) uexp    0 n , W  (; u  2   u  2  ; ) .  b) Jednovýběrový t-test (testování hypotézy o střední hodnotě při neznámém rozptylu σ2) b) One-selective t-test (the testing hypothesis about the mean value of the unknown variance σ2) texp    0 Sx n , W  (; tn1  2   tn1  2  ; ) . 66 c) Jednovýběrový χ 2 -test (testování hypotézy o rozptylu při neznámých parametrech μ, σ2) c) One-selective χ 2 -test (the testing hypothesis about the variance of the unknown parameters μ, σ2)  exp 2 n  1  2   , 0 2 W  0;  n 12 1   2     n 12  2  ; ) . Přehled některých dvojvýběrových statistických kritérií: Survey of some two-selective statistical criteria: a) Dvojvýběrový u-test (testování hypotézy o rovnosti středních hodnot při známých rozptylech σ12, σ22), n1, n2 jsou rozsahy výběrových statistických souborů VSS1, VSS2 a) Two-selective u-test (the testing hypothesis about the equality of mean values of the known variances σ12, σ22), n1, n2 are the extents of selective statistical sets SSS1, SSS2 uexp  1  2  12 n1   22 , W  (; u  2   u  2  ; ) . n2 b) Dvojvýběrový t-test (testování hypotézy o rovnosti středních hodnot při neznámých rozptylech σ12, σ22), n1, n2 jsou rozsahy výběrových statistických souborů VSS1, VSS2, Sx1, Sx2 jsou empirické směrodatné odchylky výběrových statistických souborů VSS1, VSS2 b) Two-selective t-test (the testing hypothesis about the equality of mean values of the unknown variances σ12, σ22), n1, n2 are the extents of selective statistical sets SSS1, SSS2, Sx1, Sx2 are the empirical standard deviations of selective statistical sets SSS1, SSS2 texp  1  2  n1  1 S 2 x1   n2  1 S x 2 2 n1n2  n1  n2  2  , n1  n2 W  (; tn1  n2  2  2   tn1  n2  2  2  ; ) c) Dvojvýběrový F-test (testování hypotézy o rovnosti rozptylů při neznámých parametrech μ1, μ2, σ12, σ22), n1, n2 jsou rozsahy výběrových statistických souborů VSS1, VSS2, Sx1, Sx2 jsou empirické směrodatné odchylky výběrových statistických souborů VSS1, VSS2 c) Two-selective F-test (the testing hypothesis about the equality of variances of the unknown parameters μ1, μ2, σ12, σ22), n1, n2 are the extents of selective statistical sets SSS1, SSS2, Sx1, Sx2 are the empirical standard deviations of selective statistical sets SSS1, SSS2 Fexp S x12  Sx 22 W  0; Fn1 1,n2 1 1   2    Fn1 1,n2 1  2  ; ) . 67 Poznámka: Do čitatele statistického kritéria Fexp  S x12 S x 22 se obvykle vkládá větší druhá mocnina z druhých mocnin empirických směrodatných odchylek Sx12, Sx22. Z tohoto pohledu se obvykle používá pravostranný kritický obor W =  Fn1 1,n2 1   ; ) s hodnotou α místo hodnoty α/2. The remark: The larger square power of square powers of the standard deviations Sx12, Sx22 is usually put into the numerator of statistical criterion Fexp  S x12 . S x 22 From this point of view the right-sided critical domain W =  Fn1 1,n2 1   ; ) with the value α instead of value α/2 is usually used. d) Párový t-test (převod dvojvýběrového t-testu na t-test jednovýběrový na základě nulové hypotézy H0: 1  2 = , kde nejčastěji  = 0) d) The paired t-test (the transformation of two-selective t-test on one-selective t-test on the basis of the zero hypothesis H0: 1  2 =  where the most frequent  = 0) 2.2.4. Ilustrace parametrického testování 2.2.4. Illustration of parametric testing a) Zadaný příklad – testování hypotézy o střední hodnotě a) Assigned example – testing hypotheses about mean value Zjistěte, zda zkoumaný výběrový statistický soubor VSS (μ = 2,5, n = 50) mohl být při hladině statistické významnosti α = 0,05 vybrán ze základního statistického souboru ZSS, který je charakterizován střední hodnotou a1) μ0 = 2,6, a2) μ0 = 2,9. Determine if the investigated selective statistical set SSS (μ = 2.5, n = 50) could be, for the significance level α = 0.05, selected from the basic statistical set BSS which is characterized by the mean value a1) μ0 = 2.6, a2) μ0 = 2.9. Informace o rozptylu chybí – je nutno použít jednovýběrový t-test: The information about variance is missing – it is needful to use the one-selective t-test:   0 texp  n , W  (; tn1  2   tn1  2  ; ) Sx Formulace nulové a alternativní hypotézy: H0: μ = μ0, Ha: μ ≠ μ0 The formulation of zero and alternative hypothesis: H0: μ = μ0, Ha: μ ≠ μ0 Určení kritických hodnot a kritického oboru: t49(0,025) = u(0,025) = 1,96, W = (  ∞;  1,96    1,96; ∞) The determination of critical values and and critical domain: t49(0.025) = u(0.025) = 1.96, W = (  ∞;  1.96    1.96; ∞) 68 Výpočet experimentální hodnoty statistického kritéria pro případ a1) The calculation of statistical criterion experimental value for the case a1) texp =  0,704, texp  W texp =  0.704, texp  W Interpretace výsledku: Experimentální hodnota texp nepatří do kritického oboru, na hladině statistické významnosti α = 0,05 lze přijmout nulovou hypotézu H0. Zkoumaný výběrový statistický soubor VSS mohl být vybrán z vnějšího souboru ZSS. Rozdíl   0 je na hladině významnosti α = 0,05 statisticky nevýznamný (lze si povšimnout, že hodnota 0 je v případě a1) prvkem 95% intervalu spolehlivosti) The result interpretation: The experimental value texp doesn´t belong to the critical domain, on the significance level α = 0.05 it is possible to accept the zero hypothesis H0. The investigated selective statistical set could be selected from an external set BSS. The difference   0 is statistically unimportant for the significance level α = 0.05 (it can be noted that the value 0 is the element of the 95% confidence interval in the case a1)) Výpočet experimentální hodnoty statistického kritéria pro případ a2): The calculation of statistical criterion experimental value for the case a2): texp =  2,814, texp  W texp =  2.814, texp  W Interpretace výsledku: Experimentální hodnota texp je prvkem kritického oboru, na hladině statistické významnosti α = 0,05 lze zamítnout nulovou hypotézu H0 . Zkoumaný výběrový soubor VSS nemohl být vybrán z vnějšího souboru ZSS. Rozdíl   0 je na hladině významnosti α = 0,05 statisticky významný (lze si povšimnout, že hodnota 0 není v případě a2) prvkem 95% intervalu spolehlivosti) The result interpretation: The experimental value texp is the element of the critical domain, on the significance level α = 0.05 it is possible to refuse the zero hypothesis H0. The investigated selective statistical set SSS couldn´t be selected from an external set BSS. The difference   0 is, on the significance level α = 0.05, statistically important (it can be noted that the value 0 isn´t the element of the 95% confidence interval in the case a2)) b) Zadaný příklad – testování hypotézy o rozptylu b) Assigned example – testing hypothesis about variance Zjistěte, zda zkoumaný výběrový statistický soubor VSS (μ = 2,5, Sx = σ = 1,005, n = 50) mohl být při hladině statistické významnosti α = 0,05 vybrán ze základního statistického souboru ZSS, který je charakterizován směrodatnou odchylkou b1) σ0 = 1, b2) σ0 = 0,5. Determine if the investigated selective statistical set SSS (μ = 2.5, Sx = σ = 1.005, n = 50) could be, for the significance level α = 0.05, selected from the basic statistical set BSS which is characterized by the standard deviation b1) σ0 = 1, b2) σ0 = 0.5. 69 Bude použit jednovýběrový χ 2 -test: The one selective χ 2 -test will be used:  n  1  2 2  exp  , W  0;  n 12 1   2     n 12  2  ; ) . 2 0 Formulace nulové a alternativní hypotézy: H0: σ = σ0, Ha: σ  σ0. The formulation of zero and alternative hypothesis: H0: σ = σ0, Ha: σ  σ0. Určení kritických hodnot a kritického oboru: 492  0,975  30,60 , 492  0,025  70, 22 , W  0; 30,60  70, 22; ) . The determination of critical values and and critical domain: 492  0.975  30.60 , 492  0.025  70.22 , W  0; 30.60  70.22; ) . Výpočet experimentální hodnoty statistického kritéria pro případ b1): The calculation of statistical criterion experimental value for the case b1): exp 2  49, 49, exp 2  W exp 2  49.49, exp 2  W Interpretace výsledku: Experimentální hodnota  exp 2 nepatří do kritického oboru, na hladině statistické významnosti α = 0,05 lze přijmout nulovou hypotézu H0. Zkoumaný výběrový statistický soubor VSS mohl být vybrán z vnějšího souboru ZSS. Podíl mezi σ a σ0 je na hladině významnosti α = 0,05 statisticky nevýznamný ((lze si povšimnout, že hodnota σ0 je v případě b1) prvkem 95% intervalu spolehlivosti). The result interpretation: The experimental value  exp 2 doesn´t belong to the critical domain, on the significance level α = 0.05 it is possible to accept the zero hypothesis H0. The investigated selective statistical set SSS could be selected from an external set BSS. The quotient between σ and σ0 is statistically unimportant for the significance level α = 0,05 (it can be noted that the value σ0 is the element of the 95% confidence interval in the case b1)) Výpočet experimentální hodnoty statistického kritéria pro případ b2): The calculation of statistical criterion experimental value for the case b2): exp 2  197,96, exp 2  W exp 2  197.96, exp 2  W Interpretace výsledku: Experimentální hodnota  exp 2 patří do kritického oboru, na hladině statistické významnosti α = 0,05 nelze přijmout nulovou hypotézu H0. Zkoumaný výběrový statistický soubor VSS nemohl být vybrán z vnějšího souboru ZSS. Podíl mezi σ a σ0 je na hladině významnosti α = 0,05 statisticky významný ((lze si povšimnout, že hodnota σ0 není v případě b2) prvkem 95% intervalu spolehlivosti). The result interpretation: The experimental value  exp 2 belongs to the critical domain, on the significance level α = 0.05 it isn´t possible to accept the zero hypothesis H0. The investigated selective statistical 70 set SSS couldn´t be selected from an external set BSS. The quotient between σ and σ0 is, on the significance level α = 0,05, statistically important (it can be noted that the value σ0 isn´t the element of the 95% confidence interval in the case b2)) c) Zadaný příklad – testování hypotézy o rovnosti středních hodnot c) Assigned example – testing hypotheses about equality of mean values Obdobné sledování exportní schopnosti jako u zadaného příkladu (zde byl zkoumán výběrový statistický soubor VSS1 n1 = 50 podniků s výsledkem μ1 = 2,5) vedlo u n2 = 100 podniků k průměrné exportní schopnosti c1) μ2 = 2,6, c2) μ2 = 2,9 (rozptyly byly srovnatelné, informace o velikosti rozptylů však chybí – je nutno použít dvojvýběrový t-test). Zjistěte, zda tento výběrový statistický soubor VSS2 mohl být na hladině statistické významnosti α = 0,05 vybrán z téhož základního statistického souboru ZSS jako soubor VSS1. An analogous observation of the export ability as within the assign example (here it was investigated the selective statistical set SSS1 n1 = 50 enterprises with the result μ1 = 2.5) has led to the average export ability c1) μ2 = 2.6, c2) μ2 = 2.9 for n2 = 100 enterprises (the variances were comparable, but the information about variance size is missing – it is needful to use two-selective t-test). Determine if this selective statistical set SSS2 could be, for the statistical significance level α = 0.05, selected from the same basic statistical set BSS as the set SSS1. Bude použit dvojvýběrový t-test: The two-selective t-test will be used: texp  1  2 n1 n2  n1  n2  2   n1  1 S x12   n2  1 S x 2 2 n1  n2  2   t W  (; tn1  n2  2  n1  n2  2 ,  2  ;  ) Formulace nulové a alternativní hypotézy: H0: μ1 = μ2, Ha: μ1 ≠ μ2 The formulation of zero and alternative hypothesis: H0: μ1 = μ2, Ha: μ1 ≠ μ2 Určení kritických hodnot a kritického oboru: The determination of critical values and and critical domain: t148(0,025) = 1,96, W = (  ∞;  1,96    1,96; ∞) t148(0.025) = 1.96, W = (  ∞;  1.96    1.96; ∞) Výpočet experimentální hodnoty statistického kritéria pro případ c1): The calculation of statistical criterion experimental value for the case c1): texp =  0,574, texp  W texp =  0.574, texp  W Interpretace výsledku: Experimentální hodnota texp nepatří do kritického oboru, na hladině statistické významnosti α = 0,05 lze přijmout nulovou hypotézu H0. Zkoumaný výběrový soubor VSS1 a další výběrový soubor VSS2 mohly být vybrány z jednoho a téhož vnějšího souboru ZSS. Rozdíl mezi μ1 a μ2 je na hladině významnosti α = 0,05 statisticky nevýznamný. The result interpretation: The experimental value texp doesn´t belong to the critical domain, it is possible to accept the zero hypotheses H0 for the significance level α = 0.05. The investigated selective 71 statistical set SSS1 and the additional selective set SSS2 could be selected from one and the same external set BSS. The difference between μ1 and μ2 is statistically unimportant with the significance level α = 0.05. Výpočet experimentální hodnoty statistického kritéria pro případ c2): The calculation of statistical criterion experimental value for the case c2): texp =  2,298, texp  W texp =  2.298, texp  W Interpretace výsledku: Experimentální hodnota texp patří do kritického oboru, na hladině statistické významnosti α = 0,05 nelze přijmout nulovou hypotézu H0. Zkoumaný výběrový soubor VSS1 a další výběrový soubor VSS2 nemohly být vybrány z jednoho a téhož vnějšího souboru ZSS. Rozdíl mezi μ1 a μ2 je na hladině významnosti α = 0,05 statisticky významný. The result interpretation: The experimental value texp belongs to the critical domain, on the significance level α = 0.05 it isn´t possible to accept the zero hypothesis H0. The investigated selective set SSS1 and the additional selective set SSS2 couldn´t be selected from one and the same external set BSS. The difference between μ1 and μ2 is statistically important with the significance level α = 0.05. d) Zadaný příklad - testování hypotézy o rovnosti rozptylů d) Assigned example – testing hypotheses about equality of variances Obdobné sledování exportní schopnosti jako u zadaného příkladu (zde byl zkoumán výběrový statistický soubor VSS1 n1 = 50 pacientů s výsledkem Sx12 = σ12 =1,01) vedlo u n2 = 100 pacientů k průměrné exportní schopnosti, která umožnila výpočet rozptylu d1) Sx22 = σ22 = 1, d2) Sx22 = σ22 = 1,631. Zjistěte, zda tento výběrový statistický soubor VSS2 mohl být na hladině významnosti α = 0,05 vybrán z téhož základního statistického souboru ZSS jako soubor VSS1. An analogous observation of the export ability as within the assign example (here it was investigated the selective statistical set SSS1 n1 = 50 enterprises with the result Sx12 = σ12 =1.01) has led to the average export ability for n2 = 100 enterprises which enabled the calculation of variance d1) Sx22 = σ22 = 1, d2) Sx22 = σ22 = 1.631. Determine if this selective statistical set SSS2 could be, for the statistical significance level α = 0.05, selected from the same basic statistical set BSS as the set SSS1. Bude použit dvojvýběrový F-test (s pravostranným kritickým oborem W): The two-selective F-test (with the right-sided critical domain W) will be used: Fexp  S x12 , W   Fn1 1,n2 1   ; ) pro případ d1), Sx 22 Fexp  Sx 22 , W   Fn1 1,n2 1   ; ) pro případ d2). S x12 Fexp  S x12 , W   Fn1 1,n2 1   ; ) for the case d1), Sx 22 Fexp  Sx 22 , W   Fn1 1,n2 1   ; ) for the case d2). S x12 72 Formulace nulové a pravostranné alternativní hypotézy: The formulation of the zero and right-sided alternative hypothesis: H0: σ1 = σ2, tj. Sx1 = Sx2 Ha: σ1 > σ2, tj. Sx1 > Sx2 (případ d1)) H0: σ2 = σ1, tj. Sx2 = Sx1 Ha: σ2 > σ1, tj. Sx2 > Sx1 (případ d2)) H0: σ1 = σ2, i.e. Sx1 = Sx2 Ha: σ1 > σ2, tj. Sx1 > Sx2 (the case d1)) H0: σ2 = σ1, i.e.. Sx2 = Sx1 Ha: σ2 > σ1, tj. Sx2 > Sx1 (the case d2)) Určení kritické hodnoty a pravostranného kritického oboru: The determination of critical value and right-sided critical domain: F49,99(0,05) = 1,545, W =  1,545; ∞) F49,99(0.05) = 1.545, W =  1.545; ∞) Výpočet experimentální hodnoty statistického kritéria pro případ d1): The calculation of statistical criterion experimental value for the case d1): Fexp = 1,01, Fexp  W Fexp = 1.01, Fexp  W Interpretace výsledku: Experimentální hodnota Fexp nepatří do kritického oboru, na hladině statistické významnosti α = 0,05 lze přijmout nulovou hypotézu H0. Zkoumaný výběrový soubor VSS1 a další výběrový soubor VSS2 mohly být vybrány z jednoho a téhož vnějšího souboru ZSS. Rozdíl mezi Sx12 = 1,01 a Sx22 = 1 je na hladině významnosti α = 0,05 statisticky nevýznamný. The result interpretation: The experimental value Fexp doesn´t belong to the critical domain, it is possible to accept the zero hypothesis H0 for the significance level α = 0.05. The investigated selective statistical set SSS1 and the additional selective set SSS2 could be selected from one and the same external set BSS. The difference between Sx12 = 1.01 and Sx22 = 1 is statistically unimportant with the significance level α = 0.05. Výpočet experimentální hodnoty statistického kritéria pro případ d2): The calculation of statistical criterion experimental value for the case d2): Fexp = 1,615, Fexp  W Fexp = 1.615, Fexp  W Interpretace výsledku: Experimentální hodnota Fexp patří do kritického oboru, na hladině statistické významnosti α = 0,05 lze odmítnout nulovou hypotézu H0. Zkoumaný výběrový soubor VSS1 a další výběrový soubor VSS2 nemohly být vybrány z jednoho a téhož vnějšího souboru ZSS. Rozdíl mezi Sx12 = 1,01 a Sx22 = 1,631 je na hladině významnosti α = 0,05 statisticky významný. The experimental value Fexp belongs to the critical domain, on the significance level α = 0.05 it is possible to refuse the zero hypothesis H0. The investigated selective set SSS1 and the additional selective set SSS2 couldn´t be selected from one and the same external set BSS. The difference between Sx12 = 1.01 and Sx22 = 1.631 is statistically important with the significance level α = 0.05. 73 2.3. Měření statistických závislostí – některé základy regresní a korelační analýzy 2.3. Measurement of statistical dependences – some fundaments of regression and correlation analysis Cíle: Goals: Zkoumání asociací: Statistická závislost - kauzální, nekauzální Association investigation: Statistical dependence – causal, non-causal Asociační obraz výběrového statistického souboru: Regresní analýza, Korelační analýza Association picture of selective statistical set: Regression analysis, Correlation analysis Osvojované pojmy a poznatky: Acquired concepts and knowledge pieces: Jednorozměrný a vícerozměrný výběrový statistický soubor Simple and multiple selective statistical set Statistická závislost Statistical dependence Jednoduchá a vícenásobná regresní závislost Simple and multiple regression dependence Lineární a nelineární regeresní závislost Linear and nonlinear regression dependence Regresní analýza Regression analysis Jednoduchá a vícenásobná korelace Simple and multiple correlation Korelační analýza Correlation analysis Pearsonův korelační koeficient Pearson´ correlation coefficient 74 Kontrolní otázky: Check questions: Jaký je rozdíl mezi jednorozměrným a vícerozměrným statistickým souborem What is the difference between simple and multiple statistical set Co je to statistická závislost What is the statistical dependence Jaký je rozdíl mezi jednoduchou a vícenásobnou regresní a korelační analýzou What is the difference between simple and multiple regression and correlation analysis V čem spočívají základní úkoly regresní analýzy Wherein do the regression analysis basic tasks lie V čem spočívají základní úkoly korelační analýzy Wherein do the correlation analysis basic tasks lie Co je to metoda nejmenších čtverců What is the method of the least squares Jaká je soustava normálních rovnic pro jednoduchou lineární a kvadratickou regresi What is the normal equations system for simple linear and quadratic regression Jaký je rozdíl mezi Pearsonovým korelačním koeficientem a indexem korelace What is the difference between Pearson´ correlation coefficient and correlation index 2.3.1. Vymezení problému 2.3.1. Delimitation of problem Dosud byl zkoumán jednorozměrný výběrový soubor VSS, u statistických jednotek tohoto souboru byl šetřen jen jeden statistický znak SZ. Měření statistických závislostí je spojeno s vícerozměrným výběrovým souborem VSS, u statistických jednotek bude souběžně zkoumáno více statistických znaků. The simple selective set SSS was investigated hitherto, only one statistical sign was explored for the statistical units of this set. The statistical dependences measurement is connected with a multiple selective set SSS, it will be simultaneously explored more statistical signs for the statistical units. Statistická závislost mezi znaky x, s je dána předpisem, který naměřeným nebo zadaným hodnotám znaku x (hodnoty znaku x nemusí mít charakter náhodné veličiny) přiřazuje právě jedno empirické rozdělení četností statistického znaku s (hodnoty znaku s naopak musí vykazovat charakter náhodné veličiny). The statistical dependence between the signs x, s is given by an instruction which assigns exactly one empirical distribution of the frequencies of statistical sign s (the values of sign s have to show the character of a random variable) to measured or entered values of sign x (the values of sign x contrarily not has to have the character of a random variable). 75 Jednoduchou (párovou) regresní závislostí se pak obecně rozumí jednostranná závislost dané náhodné veličiny s na jiné veličině x (nikoliv nutně náhodné) - jde o zkoumání dvojrozměrného výběrového statistického souboru VSS. Vícenásobnou (mnohonásobnou) regresní závislostí je závislost dané náhodné veličiny s na větším počtu jiných veličin x, y, z, … (nikoliv nutně náhodných) - jde o zkoumání vícerozměrného souboru VSS. The simple (paired) regression dependence then generally is one-sided dependence of the given random variable s on another variable x (not necessarily random) – the point is an inestigation of two-dimensional selective statistical set SSS. The multi-dimensional (multiple) regression dependence is the dependence of given random variable s on the larger number of another variable x, y, z, … (not necessarily random) – the point is an investigation of multiple set SSS. Užším pojmem než "regresní závislost" je pojem "korelační závislost". Jednoduchou (párovou) korelací lze chápat jako vzájemnou závislost dvou náhodných veličin (dvou statistických znaků x, s), která je spojena při změně hodnot jednoho statistického znaku (buď x nebo s) se změnou aritmetického průměru vyplývajícího ze šetření druhého statistického znaku (buď s nebo x). Ve vazbě na závislost většího počtu náhodných veličin (statistických znaků) by bylo možné obdobně definovat vícenásobnou (mnohonásobnou) korelaci. The concept “correlation dependence” is the narrower concept than “regression dependence”. The simple (paired) correlation can be understood as the mutual dependence of two random variables (two statistical signs x, s) which is associated, for a change of values of one statistical sign (either x or s), with a change of the arithmetic mean deduced from the exploration of the second statistical sign (either s or x). In the continuity with the dependence of larger number of random variables (statistical signs) it would be possible analogously to define the multiple correlation. Definice regresní a korelační závislosti se odlišují od definic funkcí o jedné nebo více proměnných, tedy od definic funkčních závislostí. The definitions of regression and corretation dependence are different from the definitions of the functions of one or more variables, and so from the functional dependences. Část matematické statistiky, která se zabývá studiem regresních a korelačních závislostí se nazývá regresní a korelační analýza. The part of mathematical statistics, which deals with the study of regression and correlation dependences, is called regeression and correlation analysis. Základní úkoly regresní analýzy spočívají v nalezení vhodné teoretické regresní funkce k vystižení sledované závislosti, v bodových a intervalových odhadech parametrů a hodnot teoretické regresní funkce a v ověřování souladu regresní funkce s experimentálními údaji. Podle typu hledané vhodné teoretické regresní funkce lze hovořit také o typech regresní analýzy – např. o polynomické regresi, exponenciální regresi, logaritmické regresi, hyperbolické regresi apod. Další výklad bude zaměřen jen na hledání vhodných teoretických regresních funkcí. The basic tasks of regression analysis consist in the detection of suitable regression function for the expression of observed dependence, in the point and interval estimation of the parameters and the values of theoretical regression function and in the verification of harmony of regression function with experimental data. According to the type of the appropriate theoretical regression function it can be spoken also about the types of regression analysis – e.g. on polynomial regression, exponential regression, logarithmic regression, 76 hyperbolic regression and the like. The following explanation will be aimed at the seeking of the suitable theoretical regression functions Základní úkoly korelační analýzy spočívají v měření těsnosti (síly, intenzity) korelace. Problematika jednoduché lineární a nelineární korelace je obvykle zkoumána za předpokladu, že změny náhodných veličin x, s (statistických znaků x, s) jsou dobře vystiženy lineární nebo nelineární regresní funkcí. Rovněž při zkoumání vícenásobné (mnohonásobné) korelace se vychází z popisu závislosti, který je dán regresní funkcí. Úkoly korelační analýzy lze pak převést na hledání vhodných korelačních koeficientů jako základních měr těsnosti daného typu korelace. Vedle korelačních koeficientů spojených s metrickými škálami je rovněž podstatné zkoumání koeficientů pořadové korelace – ty vycházejí z ordinálních škál. Další výklad bude zaměřen jen na používání jednoduchého vztahu pro koeficient lineární korelace. The basic tasks of correlation analysis consist in the measurement of correlation tightness (strength, intensity). The problems of simple linear and non-linear correlation is usually investigated, provided that the changes of random variables x, s (statistical signs x, s) are correctly expressed by linear or non-linear regression function. Also for an investigation of multiple correlation it is worked on the dependence description which is given by regression function. The tasks of correlation analysis can be then transferred to the seeking of correlation coefficients as the basic measures of tightness of the given correlation type. In addition to using the correlation coefficients associated with the metric scales it is also essential to explore the coefficients of ordinal correlation – these are worked on the ordinal scales. The following explanation will be aimed only at the use of a simple relation for the linear correlation coefficient. Při redukci počtu zkoumaných statistických znaků na dva lze problém měření regresních závislostí popsat ve zjednodušené podobě. Dvojrozměrný výběrový statistický soubor VSS je spojen se šetřením dvou statistických znaků SZ-x a SZ-s. Se znakem x je spojena metrická škála s prvky x1, x2, …, xn (prvky škály byly měřeny a výsledky těchto měření jsou dány absolutními četnostmi jednotlivých prvků), se znakem s pak výsledky měření s1, s2, …, sn (v těchto výsledcích jsou již zahrnuty absolutní četnosti naměřené u znaku x). Tím jsou k dispozici výsledky měření ve formě n uspořádaných dvojic xi, si. On the basis of the reduction of the number of investigated statistical signs of the two the problem of regression dependences measurement can be described in a simplified form. Two-dimensional selective statistical set SSS is connected with the exploration of two statistical signs SS-x and SS-s. The metric scale with elements x1, x2, …, xn is associated with the sign x (the elements of scale were measured and the results of these measurements are given by the absolute frequencies of individual elements), the measurement results s1, s2, …, sn are then connected with the sign s (the absolute frequencies measured for the sign x are included in these results). By this way the measurement results are at disposal in the form of n ordered pairs xi, si. Při popsaném zjednodušení lze při měření závislostí mezi znaky SZ-x a SZ-s použít metodu nejmenších čtverců (podmínkou je, aby chyby měření znaku SZ-s, jehož hodnoty vykazují charakter speciální náhodné veličiny, měly nulovou střední hodnotu a stejný, sice neznámý, ale konečný rozptyl). Nechť je v rámci jednoduché regrese teoretická regresní funkce popsána obecně rovnicí y = f(x). Pak lze součet nejmenších čtverců vyjádřit vztahem S = Σ(si - yi)2, kde yi jsou hodnoty funkce y = f(x) odpovídající hodnotám x = xi. Metoda nejmenších čtverců pak spočívá v hledání regresní funkce y = f(x) prostřednictvím minimální hodnoty součtu S. 77 On the basis of described simplification it is possible to use the method of least squares in measuring the dependence between the signs SZ-x and SZ-s (the condition is that the measurement errors of sign SZ-s, whose the values show the character of special random variable, have the zero mean value and the same, although unknown, but the final variance). Let the theoretical regression function generally described within the simple regression by an equation y = f(x). The summation of least squares can be then expressed by relation S = Σ(si - yi)2 where yi are the values of function y = f(x) corresponding to the values x = xi. The method of least squares then consists in the seeking of regression function y = f(x) by means of the minimum value of summation S. 2.3.2. Jednoduchá lineární a kvadratická regresní analýza 2.3.2. Simple linear and quadratic regression analysis Způsob hledání regresní funkce bude popsán prostřednictvím grafického vymezení problému na obrázku Obr.5 „Jednoduchá lineární regresní analýza“. Na tomto obrázku se vychází z n = 5 uspořádaných dvojic xi, si, které charakterizují statistickou závislost mezi statistickými znaky SZ-x a SZ-s. Na vodorovnou osu jsou nanášeny prvky škály x1, x2, …, x5 spojené se znakem x. Na svislou osu jsou nanášeny výsledky měření s1, s2, …, s5 znaku s (v těchto výsledcích jsou již zahrnuty absolutní četnosti naměřené u znaku x). Uspořádané dvojice xi, si jsou souřadnicemi pěti bodů A1 x1, s1, A2 x2, s2, A3 x3, s3, A4 x4, s4, A5 x5, s5. Těchto 5 bodů graficky vystihuje závislost mezi znaky SZ-x a SZ-s. Cílem jednoduché lineární regresní analýzy je tuto statistickou závislost vystihnout přímkou, jejíž analytické vyjádření y = f(x) je dáno obvyklým tvarem pro polynomickou funkci 1. řádu y = b0 + b1.x. The way of the regression function seeking will be described by means of the graphical delimitation of problem in the figure Fig.5 “Simple linear regression analysis”. In this figure it is work on n = 5 of the ordered pairs xi, si, which characterize the statistical dependence between statistical signs SS-x and SS-s. The scale elements x1, x2, …, x5, connected with the statistical sign x, are deposited on the horizontal axis. The measurement results s1, s2, …, s5 of the sign s (the absolute frequencies, measured for the sign x, are already included in these results) are deposited on the vertical axis. The ordered pairs xi, si are the coordinates of five points A1 x1, s1, A2 x2, s2, A3 x3, s3, A4 x4, s4, A5 x5, s5. These 5 points graphically express the dependence between the signs SS-x and SS-s. The goal of simple linear regression analysis is to express this statistical dependence by the straight line the analytical expression of which is given by the usual form y = b0 + b1.x for polynomial function of the 1.order. 78 Obr.5 Jednoduchá lineární regresní analýza Fig.5 Simple linear regression analysis Metoda nejmenších čtverců směřuje k hledání minimální hodnoty výrazu S = Σ(si – yi)2, v němž sčítací index i nabývá hodnot i = 1, 2, …, 5. Za yi bude dosazeno yi = b0 + b1.xi a bude hledáno minimum funkce S, která je funkcí dvou proměnných b0 a b1, tj. S = g(b0, b1). The least squares method is aimed at the seeking of minimum value of expression S = Σ(si – yi)2 in which the adding index i acquires the values i = 1, 2, …, 5. Through yi it will be installed yi = b0 + b1.xi and it will be looked for the minimum of function S which is the function of two variables b0 a b1, i.e. S = g(b0, b1). Podmínky pro hledání minima jsou dány provedením parciálních derivací funkce S podle obou proměnných a jejich anulováním (pro zájemce o přesné hledání extrémů funkcí o více proměnných lze doporučit, aby se seznámili se Sylvestrovou větou z oblasti matematické analýzy). The conditions for the seeking of minimum are given by the realization of partial derivatives of function S according to both variables and by their annulment (for the persons interested in the exact seeking of function extremes with more variables it is possible to recommend to acquaint themselves with Sylvestr´ theorem from the area of mathematical analysis). 79 Podmínky pro hledání minima funkce S lze tedy zapsat ve tvaru The conditions for the seeking of minimum of function S can be recorded in the form S S = 0, = 0. b1 b 0 Získaná soustava rovnic se nazývá soustava normálních rovnic pro jednoduchou lineární regresi a po provedení derivací nabývá známého tvaru Obtained system of the equations is called the system of normal equations for simple linear regression and after the realization of derivatives it acquires the known form si = nb0 + b1xi sixi = b0xi + b1xi2. Sčítací index i obecně nabývá hodnot i = 1, 2, …, n. Vyřešením soustavy normálních rovnic lze získat hodnoty parametrů b0, b1, zapsat rovnici přímky y = b0 + b1.x. Prostřednictvím získané regresní funkce lze pak činit podle obrázku Obr.5 předpovědi hodnot si odpovídající příslušným hodnotám xi pro i  5. Předpovědi těchto časových nebo i srovnávacích trendů by nebyly možné bez provedení lineární regresní analýzy. The adding index i generally acquires the values i = 1, 2, …, n. The values of parameters b0, b1 can be obtained through the solution of normal equations system and then it is possible to record the straight line equation y = b0 + b1.x. The predictions of values si corresponding with the relevant values xi for i  5 can be then done according to the figure Fig.5 through the obtained regression function. The predictions of the time or also the comparative trends would not be possible without the realization of linear regression analysis. Obdobným způsobem lze vyložit základy jednoduché kvadratické regrese. V tomto případě by zkoumaná statistická závislost byla vystihována polynomickou funkcí 2.řádu, jejímž grafem je parabola. Analytické vyjádření y = f(x) paraboly je dáno rovnicí y = b0 + b1x + b2x2, metoda nejmenších čtverců vede opět k hledání minima funkce S = Σ (si – yi)2. Tato funkce je funkcí již tří proměnných S = h(b0,b1,b2), k nalezení minima jsou již potřebné tři parciální derivace a jejich anulování vede k soustavě normálních rovnic By the analogous way it is possible to explain the fundaments of simple quadratic regression. In this case the investigated statistical dependence would be expressed by polynomial function of 2.order the graph of which is a parabola. The analytical expression y = f(x) of a parabola is given by the equation y = b0 + b1x + b2x2, the method of least squares leads again to the seeking of minimum of function S = Σ (si – yi)2. This function S = h(b0,b1,b2) is function of three variables, for the discovery of minimum the three partial derivatives are already needful and their annulment leads to the normal equations system S S S =0  =0  = 0.  b0  b1  b2 Po provedení derivací nabývá soustava normálních rovnic pro jednoduchou kvadratickou regresi tvaru After the realization of derivatives the normal equations system for simple quadratic regression acquires the form 80 si = nb0 + b1xi + b2xi2 sixi = b0xi + b1xi2 + b2xi3 sixi2 = b0xi2 + b1xi3 + b2xi4. Sčítací index i nabývá pro obrázek Obr.5 (v případě kvadratické regrese by ovšem skupina bodů A1 x1, s1, A2 x2, s2, A3 x3, s3, A4 x4, s4, A5 x5, s5 měla tvarově místo přímky mapovat průběh paraboly) hodnot i = 1, 2, …,5, v obecném případě pak hodnot i = 1, 2, …, n. Vyřešením soustavy normálních rovnic lze získat hodnoty parametrů b0, b1, b2, zapsat rovnici paraboly y = b0 + b1.x + b2.x2. Prostřednictvím získané regresní funkce lze pak činit podle obrázku Obr.5 předpovědi hodnot si odpovídající příslušným hodnotám xi pro i  5. Předpovědi těchto časových nebo i srovnávacích trendů by nebyly možné bez provedení kvadratické regresní analýzy. The adding index i acquires the values i = 1, 2, …,5 in the figure Fig.5, in the general case then the values i = 1, 2, …, n (in the case of quadratic regression the group of points A1 x1, s1, A2 x2, s2, A3 x3, s3, A4 x4, s4, A5 x5, s5 should naturally map the progress of the parabola instead of the straight line). The values of parameters b0, b1, b2 can be obtained by the solution of normal equations system and then it is possible to record the parabola equation y = b0 + b1.x + b2.x2. The predictions of values si corresponding with the relevant values xi for i  5 can be then done according to the figure Fig.5 by means of obtained regression function. The predictions of the time or also the comparative trends would not be possible without the realization of quadratic regression analysis. 2.3.3. Jednoduchá lineární a kvadratická korelační analýza 2.3.3. Simple linear and quadratic correlation analysis K vymezení problému je opět možné použít grafické cesty naznačené prostřednictvím obrázku Obr.5. Po provedení jednoduché lineární regresní analýzy (výsledek naznačen na Obr. 5 zakreslenou přímkou) je možné přistoupit k zjišťování těsnosti statistické závislosti mezi statistickými znaky SZ-x a SZ-s zkoumaného výběrového statistického souboru VSS. For the delimitation of problem it is again possible to use the graphical way indicated by means of the figure Fig.5. After the realization of simple linear regression analysis (the result is indicated by the drawn straight line in Fig.5) it is possible to approach to the determination of statistical dependence tightness between the statistical signs SS-x and SS-s of investigated selected statistical set SSS. Nejužívanější měrou těsnosti jednoduché lineární korelace je Pearsonův korelační koeficient kxs. Tento koeficient je dán vztahem kxs = Sxs , Sx.Ss nabývá hodnot z intervalu k xs  1, 1 (tento závěr lze snadno odvodit z tzv. Schwarzovy nerovnosti). Hodnoty blížící se hodnotě 1 zprava odpovídají případu pozitivní korelace (hodnoty obou statistických znaků SZ-x a SZ-s současně rostou nebo klesají, tomuto případu odpovídá obrázek Obr.5). Hodnoty blížící se hodnotě –1 zleva popisují korelaci negativní (zatímco hodnoty jednoho statistického znaku rostou, hodnoty druhého znaku klesají). Hodnoty kolem 0 naznačují, že znaky nekorelují (nelze vysledovat žádné společné trendy 81 v nárůstech či poklesech hodnot znaků). Pearsonův korelační koeficient jako empirický parametr má charakter náhodné veličiny a může být používán jako bodový odhad teoretického korelačního koeficientu. The most used measure of simple linear correlation tightness is Pearson´correlation coefficient kxs. This coefficient is given by relation kxs = Sxs , Sx.Ss it acquires the values from interval k xs  1, 1 (this conclusion can be easily deduced from so called Schwarz´ inequality). The values approaching to 1 from the right correspond with the case of positive correlation (the values of both statistical signs SS-x and SS-s increase or decrease at the same time, the figure Fig.5 is connected with this case). The values approaching to –1 from the left describe the negative correlation (while the values of one statistical sign are increasing the values of the second sign are decreasing). The values around 0 indicate the signs don´t correlate (it is possible to express no collective trends in the increases or the decreases of the signs values). The Pearson´ correlation coefficient as the empirical parameter has the character of a random variable and it can be used as a point estimation of theoretical correlation coefficient. Ve vztahu pro Pearsonův korelační koeficient se vyskytuje vedle obvyklých směrodatných odchylek Sx a Ss (tj. odmocnin centrálních momentů C2(x) a C2(s)) spojených se zkoumáním znaků SZ-x a SZ-s také smíšený centrální moment 2.řádu C2(x,s) = Sxs. Smíšený centrální moment 2.řádu je definován vztahem (k je počet prvků škály pro oba statistické znaky) S xs   ni  xi  O1x  si  O1s  , kde sčítací index i nabývá obecně hodnot i = 1, 2, …, k. n In the relation for Pearson´ correlation coefficient the mixed central moment C2(x,s) = Sxs of 2.order also occurs in addition to the usual standard deviations Sx and Ss (i.e. the square roots of central moments C2(x) and C2(s)) connected with the investigation of statistical signs SS-x and SS-s. The mixed central moment of 2.order is defined by relation (k is number of scale elements for both statistical signs) ni  xi  O1x  si  O1s  , where the adding index i acquires commonly values n i = 1, 2, …, k. S xs   Vedle Pearsonova korelačního koeficientu jsou k měření těsnosti jednoduché lineární korelace používány i jiné veličiny (např. velikost menšího z úhlu sevřeného sdruženými regresními přímkami nebo koeficient determinace). Pro měření jednoduché kvadratické korelace (statistická závislost je vystižena kvadratickou regresní funkcí) je používán „index korelace“. Vztahu pro „index korelace“ lze použít i pro zkoumání jiných jednoduchých nelineárních korelací – do tohoto vztahu je pouze zapotřebí dosadit místo kvadratické regresní funkce použitou regresní funkci. Apart from the Pearson´ correlation coefficient the other quantities are also used for the measurement of simple linear correlation tightness (e.g. the size of the smaller of the angles 82 included by the associated regression straight lines or the determination coefficient). The “index of correlation” is used for the measurement of simple quadratic correlation (the statistical dependence is expressed by quadratic regression function). The relation for correlation index can be used also for the investigation of other simple non-linear correlations – within this relation it is only necessary to install the used regression function instead of quadratic regression function. 2.3.4. Ilustrace měření závislostí 2.3.4. Illustration of dependence measurement a) Jednoduchá lineární regrese a) Simple linear regression Sledování ekonomického stavu u zadaného příkladu (byl zkoumán výběrový statistický soubor VSS o rozsahu n = 50 podniků, u podniků byl šetřen statistický znak SZ-x „stupeň exportní schopnosti“) bylo spojeno se sledováním druhého statistického znaku SZ-s s použitím obdobné metrické škály (prvek škály 1 odpovídá nejlepší hodnotě, bylo provedeno elementární statistické zpracování). Zjištěné hodnoty xi (stupně rozvinutosti) a si (ohodnocení vhodného parametru ekonomického stavu) jsou uvedeny v tabulce. Cílem je odhadnout typ regresní závislosti obou řad statistických údajů, vyjádřit ji vhodnou regresní funkcí a zjistit těsnost korelace pomocí vhodného koeficientu. The observation of economical state within the assigned example (it was investigated the selective statistical set SSS with the extent n = 50 enterprises, the statistical sign SS-x “export ability” was explored for the enterprises) was connected with the observation of the second statistical sign SS-s on the basis of use of the analogous metric scale (the scale element 1 corresponds with the best value, it was realized the elementary statistical processing). The determined values xi (the development degrees) and si (the evaluation of suitable parameter of the economical state) are presented in the table. The goal is to estimate the type of regression dependence of both statistical data, to express it by suitable regression function and to determine the tightness of correlation by means of suitable coefficient. Znak SZ-x: hodnoty xi The sign SS-x: values xi 1 2 3 4 5 Znak SZ-s: hodnoty si The sign SS-s: values si 1,8 2,2 3,8 4,2 4,6 Odhadnutý typ regresní závislosti: Jednoduchá lineární regrese vyjádřená regresní přímkou y = b0 + b1.x The estimated type of regression dependence: The simple linear regression expressed by regression straight line y = b0 + b1.x Soustava normálních rovnic pro lineární regresi: Thy system of normal equations for the linear regression: si = nb0 + b1xi sixi = b0xi + b1xi2 83 Soustava normálních rovnic po konkrétní případ: The system of normal equations for the concrete case: 5b0 + 15b1 = 16,6 (5b0 + 15b1 = 16.6) 15b0 + 55b1 = 57,4 (15b0 + 55b1 = 57.4) Nalezení regresní funkce: The discovery of regression function: y = 1,48 + 0,64.x (y = 1.48 + 0.64.x) Zkoumání trendů: Pro hodnotu xi = 6 znaku SZ-x lze po dosazení vypočítat odpovídající hodnotu si = 5,32 znaku SZ-s (z vyššího stupně rozvinutosti lze vypočítat zvýšenou hodnotu příslušného parametru ekonomického stavu) The investigation of trends: After the installment of sign SS-x value xi = 6 it is possible to calculate the corresponding value si = 5,32 of sign SS-s (on the basis of the greater degree of development it is possible to calculate the increased value of relevant parameter of the economical state) Výpočet koeficientu korelace: - Hodnoty dané elementárním statistickým zpracováním obou statistických znaků vycházejí Ss = 1,166, O1s  3,02 , Sx = 1,015, O1x  2,5 - Výpočet smíšeného centrálního momentu 2. řádů dává hodnotu Sxs = 0,763 - Dosazení do vztahu pro Pearsonův koeficient umožňuje získat těsnost korelace Sxs kxs = = 0,645 Sx.Ss - Interpretace výsledku – těsná pozitivní korelace The calculation of correlation coefficient: - The values given by the elementary statistical processing of both statistical signs are equal to Ss = 1.166, O1s  3.02 , Sx = 1.015, O1x  2.5 - The calculation of mixed central moment of 2.order gives the value Sxs = 0.763 - The installment into the relation for Pearson´ coefficient enables to determine the Sxs correlation tightness kxs = = 0.645 Sx.Ss - The interepretation of result – tight positive correlation b) Jednoduchá kvadratická regrese b) Simple quadratic regression Sledování ekonomického stavu u zadaného příkladu (byl zkoumán výběrový statistický soubor VSS o rozsahu n = 50 podniků, u podniků byl šetřen statistický znak SZ-x „stupeň exportní schopnosti“) bylo spojeno se sledováním druhého statistického znaku SZ-s. Tento znak byl popsán procentovým vyjádřením ve spojení s obdobnou metrickou škálu. Zjištěné hodnoty xi (stupně rozvinutosti) a si (procentové ohodnocení vhodného parametru ekonomického stavu) jsou uvedeny v tabulce. Cílem je odhadnout typ regresní závislosti obou řad statistických údajů a vyjádřit ji vhodnou regresní funkcí. 84 The observation of economical state within the assigned example (it was investigated the selective statistical set SSS with the extent n = 50 enterprises, the statistical sign SS-x “export ability” was explored for the enterprises) was connected with the observation of the second statistical sign SS-s. This sign was described by the percentage expression in association with analogous metric scale. The determined values xi (the development degrees) and si (the percentage evaluation of suitable parameter of the economical state) are presented in the table. The goal is to estimate the type of regression dependence of both statistical data and to express it by suitable regression function. Znak SZ-x: hodnoty xi The sign SS-x: values xi Znak SZ-s: hodnoty si The sign SS-s: values si 1 2 3 4 5 20 % 10 % 6% 2% 2% Odhadnutý typ regresní závislosti: Jednoduchá kvadratická regrese vyjádřená regresní parabolou y = b0 + b1x + b2x2 The estimated type of regression dependence: The simple quadratic regression expressed by regression parabola y = b0 + b1x + b2x2 Soustava normálních rovnic pro kvadratickou regresi: The system of normal equations for the quadratic regression: si = nb0 + b1xi + b2xi2 sixi = b0xi + b1xi2 + b2xi3 sixi2 = b0xi2 + b1xi3 + b2xi4 Soustava normálních rovnic po konkrétní případ: The system of normal equations for the concrete case: xi 1 2 3 4 5  15 xi2 1 4 9 16 25 55 xi3 1 8 27 64 125 225 5b0 + 15b1 + 55b2 = 40 15b0 + 55b1 + 225b2 = 76 55b0 + 225b1 + 980b2 = 196 xi4 1 16 81 256 625 979 si 20 10 6 2 2 40 sixi 20 20 18 8 10 76 sixi2 20 40 54 32 50 196 85 Nalezení regresní funkce: The discovery of regression function: - Nejdříve bude provedena úprava příslušných matic (dosažením nulových prvků pod hlavní diagonálou) - First, the adjustment of relevant matrices (through the achievement of zero elements under the main diagonal) will be carried out 5 15 55 15 55 / 40 55 225 / 76 225 980 / 196 5 0 0 15 10 60 55 / 40 60 / – 44 375 / – 244 5 0 0 15 10 0 55 60 15 / 40 / – 44 / 20 - Na základě upravených matic lze provést výpočet hodnot koeficientů b0, b1, b2 b2 = 1,33, b1 = – 12,4, b0 = 30,54 - On the basis of adjusted matrices it is possible to carry out the calculation of coefficients values b0, b1, b2 b2 = 1.33, b1 = – 12.4, b0 = 30.54 - Dosazením do obecné rovnice paraboly lze získat analytické vyjádření regresní paraboly y = 1,33x2 – 12,4x + 30,54 a po úpravě obdržet tvar y = 1,33 (x – 4,7)2 + 1,21. Odtud jsou zřejmé souřadnice vrcholu paraboly V [4,7; 1,21] - By the installment into general equation of parabola it is possible to obtain the analytical expression of regression parabola y = 1.33x2 – 12.4x + 30.54 and after the adjustment to obtain the form y = 1.33 (x – 4.7)2 + 1.21. From here the coordinates V [4.7; 1.21] of the top of the parabola are evident - Nyní již může být sestrojen graf regresní paraboly jako výsledek provedené jednoduché kvadratické regresní analýzy - Now the graph of regression parabola can be already constructed as a result of realized simple quadratic regression analysis 30 25 20 15 10 5 0 1 2 3 4 5 Zkoumání trendů: Pro hodnotu xi = 0,5 znaku SZ-x lze po dosazení vypočítat odpovídající hodnotu si = 24,67% znaku SZ-s (z velmi vysokého stupně exportní schopnosti lze vypočítat vysokou hodnotu příslušného parametru ekonomického stavu) The investigation of trends: The corresponding value si = 24.67% of sign SS-s can be calculated on the basis of installment of sign SS-x value xi = 0.5 (from a very high degree of export ability it is possible to calculate a high value of the relevant parameter of the economical state) 86 Část 3. Aplikace Part 3. Applications 3.1. Description of statistical and probability base of financial options 3.1.1. Introduction An imperative of data mining and a need of cooperation of the human with today´s computers are emphasized by D.A.Keim (Keim, 2002): “The progress made in hardware technology allows today´s computer systems to store very large amounts of data. Researchers from the University of Berkeley estimate that every year 1 Exabyte (= 1 Million Terabyte) of data are generated, of which a large portion is available in digital form. This means that in the next three years more data will be generated than in all of human history before”. “If the data is presented textually, the amount of data which can be displayed is in range one hundred data items, but this is like a drop in the ocean when dealing with data sets containing millions of data items”. “For data mining to be effective, it is important to include the human in the data exploration process and combine the flexibility, creativity, and general knowledge of the human with the enormous storage capacity and the computational power of today´s computers.” The financial derivatives are such derivative contracts in which the underlying securities are financial instruments such as stocks, bonds or an interest rate. The important constituent of financial derivatives is created by financial options. The statistical and probability base of financial options is exactly processed. The Black-Scholes model observes the evolution of the option´s key underlying variables in continuous-time. The Binomial and Trinomial model (the simplest variants of the Mulltinomial model) observe the evolution of the option's key underlying variables in discrete-time. The statistical and probability base of financial options is connected, above all, with the Black-Scholes model and the Multinomial model. These statistical and probability applications will be described by means of data mining approach. 3.1.2. Financial options (quoted according to www.economywatch.com) Financial options are those derivative contracts in which the underlying assets are financial instruments such as stocks, bonds or an interest rate. The options on financial instruments provide a buyer with the right to either buy or sell the underlying financial instruments at a specified price on a specified future date. Although the buyer gets the rights to buy or sell the underlying options, there is no obligation to use this option. However, the seller of the contract is under an obligation to buy or sell the underlying instruments if the option is used. Two types of financial options exist, namely call options and put options. Under a call option, the buyer of the contract gets the right to buy the financial instrument at the specified price at a future date, whereas a put option gives the buyer the right to sell the same at the specified price at the specified future date. The price that is paid by the buyer to the seller for using this level of flexibility is called the premium (the fair price). The prescribed future price is called the strike price. 87 The theoretical calculation of premium is connected namely with both the BlackScholes model (continuous statistical model based on normal distribution) and the Binomial or Trinomial model (discrete statistical models based on binomial or trinomial distribution). Financial options are either traded in an organized stock exchange or over-the-counter. The exchange traded options are known as standardized options. The options exchange is responsible for this standardization. This is done by specifying the quantity of the underlying financial instrument, its price and the future date of expiration. The details of these specifications may very vary from exchange to exchange. However, the broad outlines are similar. Financial options are used either to hedge against risks by buying contracts that will pay out if something with negative financial consequences happens, or it allows the traders to magnify the profits while the risks are limiting disadvantage. Financial options involve the risk of losing some or all of the contract prices, if the market moves against the trend expected, and counterpart risk, such as broker insolvency or contractors who do not fulfil their contractual obligations. 3.1.3. Statistical and probability base of Black-Scholes model (quoted according to “mars.wiwi.hu-berlin.de/ebooks/html/sfe/sfenode41.html.” and “Zaskodny,P., Pavlat,V., Budik,J. (2007). Financial Derivates and Their Evaluation, Prague, Czech Republic: University of Finance and Administration”) The Black-Scholes model observes the evolution of the option´s key underlying variables in continuous-time. This is done by means of both the standard normal probability densities ρ(d1), ρ(d2) and the standard normal distribution functions N(d1), N(d2). The variables d1, d2 are connected with Spot price S, Strike price X, Risk-Free Rate r, Annual Dividend d, Time to Maturity τ, and Volatility σ. The basic formulas for Black-Scholes model (Value Function – Fair Price for call option is marked “ C  ”, Value Function – Fair Price for put option is marked “  P ”): C   Se  d N  d1   Xe  r N  d 2  ,  P  Xe  r N   d 2   Se  d N  d1  d1  ln S N  d1   X   r  d    d1  2 2  , d 2  d1      d1  d  d1 , N  d 2    d2   d  d d  2 2  2 2 1  d21 1  d22   d1   e ,   d2   e 2 2 3.1.4. Statistical and probability base of Binomial and Trinomial model (quoted according to “mars.wiwi.hu-berlin.de/ebooks/html/sfe/sfenode41.html.” and “Zaskodny,P., Pavlat,V., Budik,J. (2007). Financial Derivates and Their Evaluation, Prague, Czech Republic: University of Finance and Administration”) The Binomial model observes the evolution of the option's key underlying variables in discrete-time. This is done by means of a binomial tree, for a number of time steps between 88 the valuation and expiration dates (the number of time steps is marked “n”). Each node, in the tree, represents a possible price of the underlying at a given point in time. At each step, it is assumed that the underlying instrument will move up or down by a specific factor (u or d) per step of the tree (where, by definition, u≥1 and 0<d≤1). So, if S is the spot price, then in the next period the price will be either Sup = S.u or Sdown = S.d. The number of up factors is marked “j”, the number of down factors is “n–j”. X is the Strike price and S is the Spot price of the underlying security. Under the risk neutrality assumption, today's fair price of a derivative is equal to the expected value of its future payoff discounted by the risk-free rate. Therefore, expected value is calculated using the option values from the later two nodes (Option up and Option down) weighted by their respective probabilities – "probability" p of an up move in the underlying, and "probability" (1-p) of a down move. The expected value is then discounted at q, the riskqd free rate corresponding with the life of the option ( p  ). ud The basic formulas for Binomial model (Value Function – Fair Price for call option is marked “ C  ”, Value Function – Fair Price for put option is marked “  P ”): C   1 qn n  C j 0 j j , Cj = max (0, Sj – X) 1 n   j Pj , Pj = max (0, X – Sj) q n j 0 n n j  j    p j 1  p  j    P  S j  u j d n j S , S kj  u j d k  j S n n!    , m! 1.2.......m  k  n  k !k! qd uq . p ,1  p  ud ud The Trinomial model observes the evolution of the option's key underlying variables in discrete-time. This is done by means of a trinomial tree, for a number of time steps between the valuation and expiration dates (the number of time steps is marked “n”). Each node, in the tree, represents a possible price of the underlying at a given point in time. The fair price can be determined numerically. The Binomial model after Cox-RossRubinstein can be used. In this section it will be introduced a less complex but numerically efficient approach based on trinomial trees. It is related to the classical numerical procedures for solving partial differential equations, which are also used to solve the Black-Scholes differential equations. The Trinomial model follows the procedure of the binomial model whereby the price at each time step can change to three instead of two directions. At each step, it is assumed that the underlying instrument will move up or down by a specific factor (e.g. two up factors u1, u2 and one down factor d) per step of the tree (where, by definition, u1,u2≥1 and 0<d≤1). So, if S is the Spot price, then in the next period the price will either be Su1 = S.u1, Su2 = S.u2 or Sd = S.d. The probability with which the price moves from S to Su1, Su2, Sd is represented as p1, p2, p3 (p1+ p2+ p3 = 1). The number of u1 factors is marked “j”, the number of u2 factors is marked “i”, and the number of d factors is “n–j–i”. 89 The basic formulas for Trinomial model (Value Function – Fair Price for call option is marked “ C  ”, Value Function – Fair Price for put option is marked “  P ”): 1 n n C   n   ij Cij , i  j  nmax q i 0 j 0 Cij  max  0, Sij  X  Sij  u1j u2i d n i  j S n n S    ij Sij , i  j  nmax i 0 j 0 n n i  j  ij    p1i p2j 1  p1  p2   ij  n n   i 0 j 0 ij  1, i  j  nmax n n!    ij  i ! j ! n  i  j ! 3.1.5. Statistical and probability data mining tools – Normal, Binomial and Trinomial distribution a) Standard normal probability density ρ(x) and standard normal distribution function N(x) N  x  x    x  dx  2 1  x2   x  e 2 b) Binomial and Trinomial probability function n n j  j    p j 1  p   j n n i  j  ij    p1i p2j 1  p1  p2   ij  3.1.6. Conclusion The statistical and probability base of financial options as a part of statistical data mining tools is created by - Normal distribution, - Binomial distribution, - Trinomial distribution. 90 3.2. Description of statistical and probability base of Greeks 3.2.1. Introduction In mathematical finance, the Greeks are the quantities representing the sensitivities of derivatives such as options to a change in underlying parameters on which the value function of an instrument or portfolio of financial instruments is dependent. The name is used because the most common of these sensitivities are often denoted by Greek letters. The Greeks in the Black-Scholes model are relatively easy to calculate, a desirable property of financial models, and are very useful for derivatives traders, especially those who seek to hedge their portfolios from unfavourable changes in market conditions. For this reason, those Greeks which are particularly for Hedging Delta, Gamma and Vega are welldefined for measuring changes in Price, Time and Volatility. The statistical and probability base of financial options is also connected with the Greeks. These statistical applications will be described by means of data mining approach. 3.2.2. Greeks (quoted according to http://en.wikipedia.org/wiki/Greeks_(finance) ) The Greeks are the quantities describing the sensitivities of financial options to a change in underlying parameters on which the fair price (the value function) of an instrument or portfolio of financial instruments is dependent. Collectively these have also been called the Risk Sensitivities, Risk Measures or Hedge Parameters. The Greeks are vital tools in Risk Management. Each Greek measures the sensitivity of the fair price (the value function) of a financial instrument or portfolio to a small change in a given underlying parameter, so that component risks may be treated in isolation, and the portfolio rebalanced accordingly to achieve a desired state (see for example Delta Hedging). According to 3.2.1. the Greeks in the Black-Scholes model are relatively easy to calculate, a desirable property of financial models, and are very useful for derivatives traders, especially those who seek to hedge their portfolios from adverse changes in market conditions. For this reason, those Greeks which are particularly for Hedging Delta, Gamma and Vega are well-defined for measuring changes in Price, Time and Volatility. The most common of the Greeks are the first order derivates: Delta, Dual Delta, Vega, Theta and Rho as well as Gamma, a second-order derivate of fair price (value function). Although Rho is a primary input into the Black-Scholes model, the overall impact on the fair price (the value function) of an option corresponding with changes in the risk-free rate is generally insignificant and therefore higher-order derivates involving the risk-free interest rate are not common. The most used of the Greeks are some second order derivates: Gamma, Dual Gamma, Vomma, Vanna, Charm, DvegaDtime. Also the most used of the Greeks are some third order derivates: Speed, Zomma, Color, Ultima. The Greeks in the Binomial model observe the evolution of the option's key underlying variables in discrete-time. The most used of the Greeks are the Delta and Gamma. Those Greeks are well-defined for Hedging Delta and Gamma. The most common of the Greeks in the Black-Scholes and Binomial models are the Delta, Vega, Theta and Gamma. The most used of the Option Hedging are the Hedging Delta and Gamma. The remaining sensitivities (and hedging connected with them) in this list are common enough that they have common names, but this list is by no means exhaustive. 91 3.2.3. Value function (quoted according to Záškodný,P., Havlíček,I., Budinský,P. (2010-2011), Partial Data Mining Tools in Statistics Education – in Greeks and Option Hedging (In: Tarábek,P., Záškodný,P. (2010-2011), Educational and Didactic Communication 2010, Bratislava, Slovak Republic: Didaktis, www.didaktis.sk.) According to 3.1.2. the financial options are those derivative contracts in which the underlying assets are financial instruments such as stocks, bonds or an interest rate. The options on financial instruments provide a buyer with the right to either buy or sell the underlying financial instruments at a specified price on a specified future date. Although the buyer gets the rights to buy or sell the underlying options, there is no obligation to exercise this option. However, the seller of the contract is under an obligation to buy or sell the underlying instruments if the option is exercised. According to 3.1.2. two types of financial options exist, namely call options and put options. Under a call option, the buyer of the contract gets the right to buy the financial instrument at the specified price at a future date, whereas a put option gives the buyer the right to sell the same at the specified price at the specified future date. The price that is paid by the buyer to the seller for exercising this level of flexibility is called the premium (the fair price, the value function). The prescribed future price is called the strike price. The theoretical calculation of premium is connected namely with both the BlackScholes Model (continuous statistical model based on normal distribution) and the Binomial or Trinomial Model (discrete statistical models based on binomial or trinomial distribution). In this explanation the priority will be given to Black-Scholes Model. The Black-Scholes model traces the evolution of the option´s key underlying variables in continuous-time. This is done by means of both the standard normal probability densities ρ(d1), ρ(d2) and the standard normal distribution functions N(d1), N(d2). The variables d1, d2 are connected with Spot price S, Strike price X, Risk-Free Rate r, Annual Dividend d, Time to Maturity τ, Volatility σ, and Annual Dividend Yield d. Value Function V (as Fair Price or as Premium) can be expressed as a function of five quantities V = f (S, X, r, τ, σ) The basic formulas for Black-Scholes model (Value Function V – Fair Price for call option is marked “ C  ”, Value Function – Fair Price for put option is marked “  P ”): C   Se  d N  d1   Xe  r N  d 2  ,  P  Xe  r N   d 2   Se  d N  d1  d1  ln S N  d1   X   r  d    2 2  , d d1 2  d1    d2    d  d  d , N  d      d  d  d  1 1  2 2  2 2 1  d21 1  d22   d1   e ,   d2   e 2 2 2 92 3.2.4. Segmentation and definitions of Greeks a) Greeks of first order The speeds of value function change:  V S V X V   vega    V   V  r Dual   b) Greeks of individual second order The accelerations of value function change & the speeds of first order greeks change:  2V  2 S  2V X 2  2V Vomma   2  2V Out of Use  2   2V Out of Use  2 r Dual   c) Greeks of combined second order The speeds of first order greeks change: Vanna   2V S  Charm   2V S   2V DvegaDtime    93 d) Greeks of third order The speeds of second order greeks change:  3V S 3  3V Zomma  2 S   3V Color  2 S   3V Ultima   3 Speed  3.2.5. Indications of Greeks a) Greeks of First Order V  DvalueDspot S V Dual    DvalueDstrike X V   Vega    DvalueDvol  V    DvalueDtime  V   DvalueDrate r  b) Greeks of Second Order  2V    DdeltaDspot S 2 S  2V Dual Dual     DdualdeltaDstrike X 2 X  2V  Vomma    DvegaDvol  2   2V   Vanna     DdeltaDvol  DvegaDspot S   S   2V      Charm     DdeltaDtime  D   theta  Dspot S   S DvegaDtime        2V    D   theta  Dvol  DvegaDtime     94 c) Greeks of Third Order  3V   2     DgammaDspot S 3 S S 2  3V   2  2 Zomma  2     DgammaDvol S   S  S 2 Speed  Color   2     3V   2     DgammaDtime S 2   S  S 2 Ultima   3V vomma  2    DvommaDvol  3   2 3.2.6. Formulas for Greeks (CO – Call Option, PO – Put Option) a) Formulas for Delta Greek  CO  e d N  d1   PO  e d N  d1  b) Formulas for Dual Delta Greek Dual  Dual CO  e r N  d2  Dual  PO  e r N  d2  c) Formulas for Vega Greek   CO, PO  e d S   d1    Xe r   d2   d) Formulas for Theta Greek  S   d1   CO  e d  rXe r N  d 2  2  S   d1    PO  e d  rXe r N  d 2  2  e) Formulas for Rho Greek  CO   Xe r N  d2  PO   Xe r N  d2  f) Formula for Gamma Greek    d1  CO , PO  e d S  g) Formula for Dual Gamma Greek Dual    d2  Dual CO , PO  e r X  95 i) Formulas for Vomma Greek Vomma dd dd Vomma CO , PO  Se d   d1   1 2   1 2   j) Formulas for Vanna Greek Vanna d d   d2  Vanna CO , PO  e d   d1  2    1  1   S  S    k) Formulas for Charm Greek Charm 2  r  d   d 2  CharmCO  de d N  d1   e  d   d1  2  Charm PO  de d N  d1   e  d   d1  2  r  d   d 2  2  l) Formulas for DvegaDtime Greek DvegaDtime   r  d  d1  1  d1d 2  DvegaDtimeCO , PO  e  d S   d1    d   2       r  d  d1  1  d1d 2  DvegaDtimeCO , PO    d   2     m) Formulas for Speed Greek Speed  d   d  d   SpeedCO , PO  e d 2 1  1  1    1  1 S   S       n) Formulas for Zomma Greek Zomma   d1  d d 1 Zomma CO , PO  e d  d1d2  1    1 2  2 S     o) Formulas for Color Greek Color   d1   2  r  d   d 2   ColorCO , PO  e d d1   2d  1   2S      2  r  d   d 2    ColorCO , PO    2d  1  d1   2     p) Formulas for Ultima Greek Ultima S   d1   Ultima CO , PO  e d d1d 2 d1d 2   2  1     d 2  d1  2  Ultima CO , PO        d d d d   2  1     d 2  d1  2 1 2 1 2    96 3.2.7. Needful statistical and probability relations for deduction of Greeks formulas a) Value Function C   Se  d N  d1   Xe  r N  d 2  ,  P  Xe  r N  d 2   Se  d N  d1  ln S d1  X   r  d  2    2 ,d 2 ln S  X   r  d  2 2   d 2  d1    b) Standard Normal Probability Densities 1   d1   2 e  d12 2 ,   d2     d1     d 2  e  d   e 2 e d1   1  2 2 2 e  d 22 2 ,   d 2     d1  e d1  e S  r  2 2  d  d2 e e ,e X    S  r  2 2 d e e X c) Standard Normal Distribution Functions N  d1   d1    d1  d  d1 , N  d 2    d2   d  d d  2 2  N  d1   N  d1   1, N  d 2   N  d 2   1 N  d1  d1    d1  , N  d 2  d 2    d2  3.2.8. Conclusion, References The results of explanation: - Description of Value Function as Fair Price - Description of Greeks of First Order - Description of Greeks of Second Order - Description of Greeks of Third Order - Names and Indications of Greeks - Survey of Formulas for Greeks Calculation - Survey of Needful Relations for Greeks Calculation 2 2  97 References - Keim,D.A. (2002) Information Visualization and Visual Data Mining. IEEE Transactions on Visualization and Computer Graphics. Vol.7, No.1, January-March 2002 - Záškodný,P., Tarábek,P. (2010-2011) Data Mining Tools in Statistics Education In: Tarábek,P., Záškodný,P. (2010-2011), Educational and Didactic Communication 2010 Bratislava, Slovak Republic: Didaktis, ISBN 978-80-89160-78-5 www.didaktis.sk. - Záškodný,P., Havlíček,I., Budinský,P. (2010-2011) Partial Data Mining Tools in Statistics Education – in Greeks and Option Hedging In: Tarábek,P., Záškodný,P. (2010-2011), Educational and Didactic Communication 2010 Bratislava, Slovak Republic: Didaktis, ISBN 978-80-89160-78-5 www.didaktis.sk. 98 3.3. Data mining tools in statistics education 3.3.1. Introduction In the introduction of chapter 3.3. the quotations showing the importance of educational data mining are presented. These quotations from i) to vi) are selected according to C.Romero, S.Ventura (2006) (In: Tarábek,P., Záškodný,P. (2009) Educational and Didactic Communication 2009, Bratislava, Slovak Republic: Didaktis, www.didaktis.sk, ISBN 978-80-89160-69-3). i) Currently there is an increasing interest in data mining and educational systems (well-known learning content management systems, adaptive and intelligent web-based educational systems), making educational data mining as a new growing research community ii) After preprocessing the available data in each case, data mining techniques can be applied in educational systems – statistics and visualization, clustering, classification and detection, association rule mining and pattern mining, text mining iii) Data mining oriented towards students – to show recommendations and to use, interact, participate and communicate by students within educational systems iv) Data mining oriented towards educators (and academic responsible-administrators) – to show discovered knowledge and to design, plan, build and maintenance by educators (administrators) within educational systems v) Data mining tools provide mining algorithms, filtering and visualization techniques. The examples of Data Mining tool: - Tool name: Mining tool, Authors: Zaïane and Luo (2001), Mining task: Association and patterns - Tool name: Multistar, Authors: Silva and Vieiva (2002), Mining task: Association and classification - Tool name: Synergo/ColAT, Authors: Avouris et al (2005), Mining task: Visualization vi) Future research lines in educational data mining - Mining tools more facilitate the application of data mining by educators or not expert users - Standardization of data and methods (preprocessing, discovering, postprocessing) - Integration with the e-learning system - Specific data mining techniques The main principle of chapter 3.3.: Data Mining in Statistics Education (DMSTE) as Problem Solving The main goal of chapter 3.3.: Delimitation of Complex Tool and Partial Tool of DMSTE The procedure of chapter 3.3.: - Data Preprocessing in Statistics Education - Data Processing in Statistics Education - Complex Tool of DMSTE – Curricular Process (CP-DMSTE) - Partial Tool of DMSTE – Analytical Synthetic Modelling (ASM-DMSTE) - Application of CP-DMSTE and ASM-DMSTE - Supplement describing the principles of data mining approach 99 The results of chapter 3.3.: 1. Educational Communication of Statistics as Result of Data Preprocessing 2. Educational Communication of Statistics as Five Transformations T1-T5 of Knowledge from Statistics to Mind of Educant 3. Curricular Process of Statistics as Result of Data Processing 4. Curricular Process of Statistics as Structuring, Algorithm Development and Formalization of Educational Communication of Statistics 5. Curricular Process as Succession of Five Transformations T1-T5 of Curriculum Variant Forms 6. Curriculum Variant Forms as Forms of Education Content Existence 7. Formalization of Curriculum Variant Form (Four of Universal Structural Elements: Sense and Interpretation, Set of Objectives, Conceptual Knowledge System, Factor of Following Transformation) 8. Variant Forms of Curriculum – Conceptual Curriculum (Communicable Scientific System of Statistics), Intended Curriculum (Educational System of Statistics), Projected Curriculum (Instructional Project of Statistics and Its Textbook), Implemented Curriculum-1 (Preparedness of Educator to Education), Implemented Curriculum-2 (Results of Education in Mind of Educant), Attained Curriculum (Applicable Results of Education) 9. Curricular Process as CP-DMSTE (Structuring, Algorithm Development and Formalization of Five Transformations Succession T1-T5) 10. Analytical Synthetic Modeling as ASM-DMSTE (Modeling Inputs and Outputs of Transformations T1-T5) 11. Analytical Synthetic Models as Results of Problems Solving (Real or Mediated Problems) 12. Application of CP-DMSTE and ASM-DMSTE (Visualia of Conceptual Curriculum in Area of Statistics with Concrete Basic Statistical Set, Need of Visualiae of All Curriculum Variant Forms as Application of CP-DMSTE) 3.3.2. Data mining (see also Supplement of chapter 3.3.) Data Mining – analytical synthetic way of extraction of hidden and potencially useful information from large data files (continuum data-information-knowledge, knowledge discovery) Data Mining Techniques – the system functions of structure of formerly hidden relations and patterns (e.g. classification, association, clustering, prediction) Data Mining Tool – a concrete procedure how to reach the intended system functions Complex Tool – a resolution of complex problem of relevant science branch Partial Tool – a resolution of partial problem of relevant science branch (e.g. analytical synthetic modeling, needful mathematical or statistical procedures) Result of Data Mining – a result of data mining tool application Representation of Data Mining Result – a description of this what is expressed Visualization of Data Mining Result – optical retrieval of data mining result Data Mining Cycle – Data Definition, Data Gathering, Data Preprocessing, Data Processing, Discovering Knowledge or Patterns, Representation and Visualization of Results See P.Tarabek, P.Zaskodny, V.Pavlat, P.Prochazka, V.Novak, J.Skrabankova (2009-2010, 2009-2010abcde and quoted sources). Quoted sources in 2009-2010abcde: E.g. American Library Association, M.C.Borba, E.M.Villarreal, G.M.Bowen, W-M Roth, C.Brunk, J.Kelly, R.Kohavi, Mineset, B.V.Carolan, G.Natriello, N.Delavari, M.R.Beikzadeh, S.PhonAmnuaisuk, U-D Ehlers, J.M.Pawlowski, U.M.Fayyad, G.Piatelsky-Shapiro, P.Smyth, J.Fox, D.Gabel, J.K.Gilbert, O.de Jong, R.Justi, D.F.Treagust, J.H.Van Driel, M.Reiner, M.Nakhleh, W.Hämäläinen, T.H.Laine, E.Sutinen, M.Hesse, A.H.Johnstone, M.J.Kearns, U.V.Vazivani, D.A.Keim, R.Kwan, 100 R.Fox, FT Chan, P.Tsang, Le Jun, J.Luan, J.Manak, National research Council-NRC, R.Newburgh, I.Nonaka, H.Takeuchi, C.J.Petroselli, E.F.Redish, D.Reisberg, C.Romero, S.Ventura, N.Rubenking, R.E.Scherr, M.Sabella, D.A.Simovici, C.Djeraba, V.Spousta, L.Talavera, E.Gaudioso, E.R.Tufte, J.Tuminaro, R.Vilalta, C.Giraud-Carrier, P.Brazdil, C.Soares, D.M.Wolpert. 3.3.3. Data preprocessing in statistics education Result of Data Preprocessing – Educational Communication of Statistics a succession of transformations of education content forms (taken over from physics education): as - The transformation T1 is transformation of scientific system of statistics to communicable scientific system of statistics (the first form of education content existence), - The transformation T2 is transformation of communicable scientific system of statistics to educational system of statistics (the second form of education content existence), - The transformation T3 is transformation of educational system of statistics to both instructional project of statistics and preparedness of educator to education (the third and fourth forms of education content existence), - The transformation T4 is transformation of both instructional project of statistics and preparedness of educator to results of education (the fifth form of education content existence), - The transformation T5 is transformation of results of statistics education to applicable results of statistics education (the sixth form of education content existence) See J.Brockmeyer (1982), P.Zaskodny a kol. (2004, 2007), P.Tarabek, P.Zaskodny (2001, 20072008abc, 2008-2009, 2009-2010), P.Zaskodny (2001, 2006, 2009). 3.3.4. Data processing in statistics education Result of Data Processing – Curricular Process of Statistics as a succession of transformations of algorithmized and formalized education content forms (taken over from physics education): i. The form of education content existence - “variant form of curriculum” ii. The curriculum - “education content” (see Prucha, 2005) iii. The variant forms of curriculum have got the universal structure (four structural elements sense and interpretation, set of objectives, conceptual knowledge system, factor of following transformation) iv. The variant forms of curriculum were selected on the basis of fusion of Anglo-American curricular tradition and European didactic tradition v. The curricular process is defined as the succession of transformations T1-T5 of curriculum variant forms: “conceptual curriculum” (output of T1, the first variant form of curriculum) - the communicable scientific system “intended curriculum” (output of T2, the second variant form of curriculum) - the educational system of statistics 101 “projected curriculum” (output of T3, the third variant form of curriculum) - the instructional project of statistics “implemented curriculum-1” (output of T3, the fourth variant form of curriculum) - the preparedness of educator to education “implemented curriculum-2” (output of T4, the fifth variant form of curriculum) – the results of education “attained curriculum” (output of T5, the sixth variant form of curriculum) - applicable results of education See P.Prochazka, P.Zaskodny (2009-2010c). Quoted sources in 2009-2010c: E.g. A.V.Kelly, M.K.Smith, W.Doyle, M.Pasch, A.M.Sochor, V.V.Krajevskij, I.J.Lerner, J.McVittie, K.Carter, G.M.Blenkin, L.Stenhouse, E.Newman, G.Ingram, F.Bobitt, R.W.Tyler, H.Taba, C.Cornblet, S.Grundy, D.Lawton, P.Gordon, M.Certon, M.Gayle, G.J.Posner. 3.3.5. Complex and partial tool of DMSTE – CP-DMSTE, ASM-DMSTE Complex tool of DMSTE is given by curricular process of statistics (CP-DMSTE). CPDMSTE delimits the correct education content via succession of transformations T1-T5. Partial tool of DMSTE is given by analytical synthetic modeling (ASM-DMSTE). ASM-DMSTE describes the mediated or real problem solving within the inputs and outputs of individual transformations T1-T5. In this paper, the description of ASM-DMSTE is realized by means of both visualia Vis.1 and Legend to Vis.1. Legend to Vis.1 a (Identified Complex Problem) – Investigated area of reality, investigated phenomenon Bk (Analysis) – Analytical segmentation of complex problem to partial problems bk (Partial problems PP-k) – Result of analysis: essential attributes and features of investigated phenomenon Ck (Abstraction) – Delimitation of partial problems essences by abstraction with goal to acquire the partial solutions ck (Partial solutions PS-k) – Result of abstraction: partial concepts, partial pieces of knowledge, various relations, etc. Dk (Synthesis) – Synthetic finding dependences among results of abstraction dk (Partial conclusions PC-k) – Result of synthesis: principle, law, dependence, continuity Ek (Intellectual reconstruction) – Intellectual reconstruction of investigated phenomenon / investigated area of reality e (Total solution of complex problem “a”) – Result of intellectual reconstruction: analytical synthetic structure of final knowledge (conceptual knowledge system) 102 Vis.1 General Analytical Synthetic Model of Problem Solving a - Identified Complex Problem ANALYSIS b1 - Partial Problem No. 1 (PP-1) C1 C2 c1-Partial Solution No.1(PS-1) c2-Partial Solution No.2(PS-2) D1 b2 - Partial Problem No. 2 (PP-2) bk - Partial Problem No. k (PP-k) C3 C4 ABSTRACTION c3-Partial Solution No.3(PS-3) c4-Partial Solution No.4(PS-4) D2 d1 - Partial Conclusion No. 1 (PC-1) E1 Bk ck-Partial Solution No.k(PS-k) SYNTHESIS d2 - Partial Conclusion No. 2 (PC-2) E2 Ck Dk dk - Partial Conclusion No. k (PC-k) RECONSTRUCTION Ek e - Total Solution Complex Problem "a" formed by means of PC-1, PC-2, .., PC-k 5. Application of of Partial Tool ASM-DMSTE The application of ASM-DMSTE is the visualia Vis.2 from the area of statistics education. The visualia Vis.2 is analytical synthetic model of statistics with concrete basic statistical set. This visualia constitutes a part of statistics conceptual curriculum as a part of communicable scientific system of statistics (a part of output of transformation T1). The visualized result Vis.2 of data mining in statistics education constitutes the paramorphic model and hypertextual representation, represents the external conceptual knowledge systems as external representation of general social experience. The visualized result also represents the concrete type of data file – the representation of statistics with concrete basic statistical set. 103 Vis.2: Analytical synthetic model of statistics formed by four partial models a1-e1, a2-e2, a3-e3, a4-e4 (a part of conceptual curriculum of statistics – a part of communicable scientific system of statistics – output of transformation T1) Collective random phenomenon and reason of its investigation a-1 Statistical unit Variants (values) of statistical sign Statistical sign Choice of statistical units Selective statistical set (SSS) as a part of basic statistical set, Goals of statistical examination e-1=a-2 Creating of scale Measurement Frequencies tables (Empirical distribution) Empirical picture of selective statistical set, Choice of acceptable theoretical distribution Testing of non-parametric hypotheses Graphical expression Necessity of probable investigation e-2=a-3 Quantification theoretical parameters of Point & interval estimation (e.g. confidence interval) Empirical & probable picture of selective statistical set, Statistical dependence (causal, non-causal) Empirical parameters Comparison of theoretical and empirical parameters Testing of parametric hypotheses Necessity of association investigation e-3=a-4 Regression analysis Correlation analysis Empirical & probable & association picture of selective statistical set Interpretation and conclusions as the statistical & probable dimension e-4 of investigation collective random phenomenon Applied statistics (e.g. financial options and their mathematical and statistical elaboration by means of greeks calculation and option hedging models) 104 LEGEND to whole visualia Vis.2 a-1 e-1 , a-2 e-2 , a-3 e-3 , a-4 e-4 One – Sample Analysis, Two / Multiple – Sample Analysis LEGEND to partial models of visualia Vis.2 a-1 e-1 Formulation of statistical examination a-2 e-2 Relative & Cumulative Frequencies (Empirical distribution) Plotting functions: e.g. Plot Frequency Polygon (Graphical expression) Average-Means, Variance-Standard Deviation, Obliqueness (Skewness), Pointedness (Kurtosis) (Empirical parameters) a-3 e-3 Theoretical Distribution (partial survey in alphabetical order): Bernoulli, Beta, Binomial, Chi-square, Discrete Uniform, Erlang, Exponential, F, Gamma, Geometric, Lognormal, Negative binomial, Normal, Poisson, Student´s, Triangular, Trinomial, Uniform, Weibull Testing of Non-parametric Hypotheses (Hypothesis test for H0 – receive or reject H0): e.g. computed Wilcoxon´s test, Kolmogorov-Smirnov test, Chi-square test e.g. at alpha = 0,05 Point & Interval Estimation: e.g. confidence interval for Mean, confidence interval for Standard Deviation Testing of Parametric Hypotheses (Hypothesis test for H0 – receive or reject H0): e.g. computed u-statistic, t-statistic, F-statistic, Chi-square statistic, Cochran´s test, Barlett´s test, Hartley´s test e.g. at alpha = 0,05 a-4 e-4 Statistical dependence: e.g. confidence interval for difference in Means (Equal variances, Unequal variances) e.g. confidence interval for Ratio of Variances Regression analysis: simple – multiple, linear – non-linear Correlation analysis: e.g. Rank correlation coefficient, Pearson´ correlation coefficient 105 3.3.6. Conclusion, References Modeling as a partial tool of data mining – quotation acoording to J.K.Gilbert (2008) (In: Tarábek,P., Záškodný,P. (2009) Educational and Didactic Communication 2009, Bratislava, Slovak Republic: Didaktis, www.didaktis.sk, ISBN 978-80-89160-69-3).: “In a nightmare world, we would perceive the world around us being continuous and without structure. However, our survival as a species has been possible because we have evolved the ability do “cut up” that world mentally into chunks about which we can think and hence give meaning to”. “This process of chunking, a part of all cognition, is modelling and the products of the mental actions that have taken place are models. Science, being concerned with the provision of explanations about the natural world, places an especial reliance on the generation and testing of models”. References 1. Used Publications i. Brockmeyerová,J. (1982) Introduction into Theory and Methodology of Physics Education. Prague, Czech Republic: SPN ii. CSRG (2009). Curriculum Studies Research Group. České Budějovice: University of South Bohemia, Czech Republic, http://sites.google.com/site/csrggroup/ iii. Gilbert,J.K. (2008) Visualization: An Emergent Field of Practice and Enquiry. In: Visualization: Theory and Practice in Science (Models and Modeling in Science Education). New York: Springer Science + Business Media iv. Keim,D.A. (2002) Information Visualization and Visual Data Mining. IEEE Transactions on Visualization and Computer Graphics. Vol.7, No.1, January-March 2002 v. Průcha,J (2005) Moderní pedagogika (Modern Educational Science), Prague, Czech Republic: Portál 2. Used Papers, Monographs, and Books of Author (2001-2010) i. Tarábek,P., Záškodný,P. (2001) Structural Textbook and Its Creation. Bratislava, Slovak Republic: Didaktis, ISBN 80-85456-76-1 ii. Záškodný,P. (2001) Statistical Dimension of Scientific Research. KONTAKT, 2, 5, 2001 ISSN 1212-4117 iii. Tarábek,P., Záškodný,P. (2007-2008a) Educational and Didactic Communication 2007, Vol.1 – Theory. Bratislava, Slovak Republic: Didaktis, www.didaktis.sk, ISBN 987-80-89160-56-3 iv. Tarábek,P., Záškodný,P. (2007-2008b) Educational and Didactic Communication 2007, Vol.2 – Methods. Bratislava, Slovak Republic: Didaktis, www.didaktis.sk, ISBN 987-80-89160-56-3 v. Tarábek,P., Záškodný,P. (2007-2008c) Educational and Didactic Communication 2007, Vol.3 – Applications. Bratislava, Slovak Republic: Didaktis, www.didaktis.sk, ISBN 987-80-89160-56-3 106 vi. Tarábek,P., Záškodný,P. (2008-2009) Educational and Didactic Communication 2008. Bratislava, Slovak Republic: Didaktis, www.didaktis.sk, ISBN 978-80-89160-62-4 vii. Tarábek,P., Záškodný,P. (2009-2010) Educational and Didactic Communication 2009. Bratislava, Slovak Republic: Didaktis, www.didaktis.sk, ISBN 978-80-89160-69-3 viii. Záškodný,P. a kol. (2004) Základy zdravotnické statistiky. České Budějovice, Czech Republic: South Bohemia University ISBN 80-7040-663-1 ix. Záškodný,P. (2006) Survey of Principles of Theoretical Physics (with Application to Radiology) (in English). Lucerne, Switzerland, Ostrava, Czech Republic: Avenira, Algoritmus, ISBN 80-902491-9-1 x. Záškodný,P. a kol. (2007) Základy ekonomické statistiky. Prague, Czech Republic: Institute of Finance and Administration ISBN 80-86754-00-6 xi. Záškodný,P. (2009) Curicular Process of Physics (with Survey of Principles of Theoretical Physics) (in Czech). Lucerne, Switzerland, Ostrava, Czech Republic: Avenira, Algoritmus, ISBN 978-80-902491-0-3 xii. Záškodný,P. (2009-2010) Data Mining Tools in Science Education (in: vii.) xiii. Záškodný,P., Pavlát,V. (2009-2010a) Data Mining – A Brief Recherche (in: vii.) xiv. Záškodný,P., Novák,V. (2009-2010b) Data Mining – A Brief Summary (in: vii.) xv. Záškodný,P., Procházka,P. (2009-2010c) Collective Scheme of Both Educational Communication and Curricular Process (in: vii.) xvi. Záškodný,P. , Škrabánková,J.(2009-2010d) Modelling and Visualization of Problem Solving (in: vii.) xvii. Záškodný,P. (2009-2010e) Representation of Results of Data Mining (in: vii.) 107 3.3.7. Supplement of chapter 3.3. – The principles of data mining approach 3.3.7.1. Quotations from sources i) Definitions of Data Mining J.Luan (2002) Definition of Data Mining a) Data Mining is the process of discovering meaningful new correlations, patterns, and trends by sifting through large amounts of data stored in repositories and by using pattern recognition technologies as well as statistical and mathematical techniques b) The notion of Data Mining for higher education: Data Mining is a process of uncovering hidden trends and patterns that lend them to predicative modeling using a combination of explicit knowledge base, sophisticated analytical skills and academic domain knowledge N.Rubenking (2001) Definition of Data Mining Data Mining is the process of automatically extracting useful information and relationships from immense quantities of data. In its purest form, Data Mining doesn´t involve looking for specific information. Rather than starting from a question or a hypothesis, Data Mining simply finds patterns that are already present in the data. R.Kohavi (2000) Definition of Data Mining as Knowledge Discovery Data Mining (or Knowledge Discovery) is the process of identifying new patterns and insights in data Interpretation of Data Mining As the volume of data collected and stored in databases grows, there is a growing need to provide data summarization, identify important patterns and trends, and act upon findings Le Jun (2008) Definition of Data Mining as New Technology Data Mining is extraction of hidden predictive information from large database. Data Mining is a powerful new technology with great potential to help an scientific area focus on the most important information in its data N.Delavari, M.R.Beikzadeh, S.Phon-Amnuaisuk (2005) Definition of Data Mining Searched knowledge (meaningful knowledge, previously unknown and potentially useful information discovered) is hidden among the raw educational data set and it is extractable through Data Mining R.Kwan, R.Fox, FT Chan, P.Tsang (2008), Le Jun (2008) Data, Information, Knowledge Data, Information, Knowledge are different terms, which differentiate in means and values. a) Data is a collection of facts and quantitative measures, which exists outside of any context from which conclusions can be drawn. b) Information is data that people interpret and place in meaningful context, highlighting patterns, causes of relationships in data. 108 c) Knowledge is the understanding human development as reaction to and use of information, either individually or as an organization. Data-Information-Knowledge Continuum a) Data, information and knowledge are separated but linked concepts which can form a datainformation-knowledge continuum. b) Data becomes information when people place it in context through interpretation that might seek to highlighting. c) Knowledge can be described as a belief that is justified through discussion, experience and perhaps action. It can be shared with others by exchanging information in appropriate contexts. ii) Data Mining and Problem Solving L.Talavera, E.Gaudioso (2002) Data Mining as Analysis Problem In this paper we propose to shape the analysis problem as a data mining. J.Tuminaro, E.F.Redish (2005), E.F.Redish (2005) Problem solving Problem solving and the use of math in physics courses Student Use of Math in the Context of Physics Problem Solving: A Cognitive Model M.C.Borba, E.M.Villarreal (2005) Problem solving Problem solving as context Problem solving as skill Problem solving as art Process of modeling, process of problem solving The process of modeling or model building is a part of the process of problem solving Steps of problem solving process (process of problem solving as entailing several steps): The starting point is a real problematic situation The first step is to create a real model, making simplifications, idealizations, establishing conditions and assumptions, but respecting original situation In the second step, the real model is mathematized, to get a mathematical model The third step implies the selection of suitable mathematical methods and working within mathematics in order to get some mathematical results In the fourth step, these results are interpreted for and translated into the real situation iii) Forms of Data Mining, Data Mining System, Goals of Data Mining, Scope of Data Mining R.Kohavi (2000) Forms of Data Mining (Structured mining etc.) Structured mining, Text mining, Information retrieval 109 W.Hämäläinen, T.H.Laine, E.Sutinen (2003) Data Mining system, educational system Data Mining system in educational system: the educational system should be served by Data Mining system to monitor, intervene in, and counsel the teaching-studying-learning process R.Kohavi (2000) Goals of Data Mining Data Mining serves two goals: -Insight: Identified patterns and trends are comprehensible -Prediction: A model is built that predicts (scores) based on input data. Prediction as classification (discrete variable) or as regression (continuous variable) Scope of Data Mining The majority of research in DM has concentrated on building the best models for prediction. A learning algorithm is given the training set and produces a model that can map new unseen data into the prediction. iv) Results of Data Mining, Applications of Data Minings, Interdisciplinarity of Data Mining R.Kohavi (2000), D.M.Wolpert (1994), M.J.Kearns, U.V.Vazivani (1994) Some theoretical results in Data Mining - No free lunch (All concepts are equally likely, then learning is impossible) - Consistency (non-parametric models - target concept given enough data, parametric models as linear regression are known to be of limited power) - enough data = consistency - PAC learning (probably approximately correct learning) is a concept introduced to provide guarantees about learning - Bias-Variance decomposition U.M.Fayyad, G.Piatelsky-Shapiro, P.Smyth (1996) Interdisciplinarity of Data Mining Data Mining, sometimes referred to as knowledge Discovery, is at the intersection of multiple research area, including machine learning, statistics, pattern recognition, databases and visualization J.Luan (2002) Potential applications of Data Mining “There are several ways to examine the potential applications of Data Mining a) One is to start with the functions of the algorithms to reason what can be utilized for b) Another is to examine the attributes of a specific area where data are rich, but mining activities are scare c) And another is to examine the different functions of a specific area to identify the needs that can translate themselves into Data Mining project” Notes: a) - See Curricular Process as Data Mining Algorithm b) - See Curriculum: Theory and Practice as scientific area in which mining activities are scare c) - Some of the most likely places where data miners (educational researchers who wear this hat) may initiate Data Mining projects are: Variant Forms of Curriculum 110 v) Data Mining techniques . N.Delavari, M.R.Beikzadeh, S.Phon-Amnuaisuk (2005) Data Mining techniques “DM techniques can be used to extract unknown pattern from the set of data and discover useful knowledge. It results in extracting greater value from the raw data set, and making use of strategic resources efficiently and effectively.” J.Luan (2001) Data Mining techniques as Data Mining functions “Prediction, clustering, classification, association” Le Jun (2008) Data Mining techniques – application of Data Mining tools “Application of DM tools: To solve the task of prediction, classification, explicit modeling and clustering. The application can help understand learners´ learning behaviors” C.Romero, S.Ventura (2006) Data Mining techniques in educational systems “After preprocessing the available data in each case, Data Mining techniques can be applied in educational systems – statistics and visualization, clustering, classification and outlier detection, association rule mining and pattern mining, text mining” J.Luan (2002) Clustering and prediction – the most striking aspects of Data Mining techniques - “The clustering aspect of Data Mining offers comprehensive characteristics analysis of investigated area” - “The predicting function estimates the likelihood for a variety of outcomes” B.V.Carolan, G.Natriello (2001) Clustering “Data-Mining Resources to identify structural attributes of educational research community-e.g. clustering as collaboration of physicists and biologists” D.A.Simovici, C.Djeraba (2008) Clustering, Taxonomy of clustering a) “Clustering is the process of grouping together objects that are similar. The groups formed by clustering are referred to as clusters.” b) “Clustering can be regarded as a special type of classification, where the clusters serve as classes of objects” c) “It is widely used data mining activity with multiple applications in a variety of scientific activities from biology and astronomy to economics and sociology” d) “Taxonomy of clustering (we follow here the taxonomy of clustering) - Exclusive or nonexclusive: Clustering may be exclusive or may not be exclusive. It is exclusive, where an exclusive clustering technique yields clusters that are disjoint. It is nonexclusive, where a nonexclusive technique produces overlapping clusters. 111 - Intrinsic or extrinsic: Clustering may be intrinsic or extrinsic. Intrinsic - based only on dissimilarities between the objects to be clustered. Extrinsic - which objects should be clustered together and which should not, such information is provided by an external source. - Hierarchical or partitional: Clustering may be hierarchical or partitional. Hierarchical - in hierachical clustering algorithms, a sequence of partitions) is constructed. Partitional - partitional clusterings creates a partition of the set of objects whose blocks are the clusters such that objects in a cluster are more similar to each other than to objects that belong to different clusters” vi) Data Mining tools C.Brunk, J.Kelly, R.Kohavi (1997) Data Mining tool ““Mineset” is a Data Mining tool that integrates Data Mining and visualization very tightly. Models built can viewed and interacted with.” C.Romero, S.Ventura (2006) Data Mining tools “Data Mining tools provide mining algorithms, filtering and visualization techniques. The examples of Data Mining tool: - Tool name: Mining tool, Authors: Zaïane and Luo (2001), Mining task: Association and patterns - Tool name: Multistar, Authors: Silva and Vieiva (2002), Mining task: Association and classification - Tool name: Synergo/ColAT, Authors: Avouris et al (2005), Mining task: Visualization” D.A.Simovici, C.Djeraba (2008) Mathematical tools for Data Mining a) “This book was born from experience of the authors as researches and educators, which suggests that many students of Data Mining are handicapped in their research by the lack of formal, systematic education in its mathematics. The book is intended as a reference for the working data miner.” b) “In our opinion, three areas of math are vital for DM: - set theory, including partially ordered sets and combinatorics, - linear algebra, with its many applications in principal component analysis and neural networks, - and probability theory, which plays a foundational role in statistics, machine learning and DM” vii) Modeling, Model J.K.Gilbert, M.Reiner, M.Nakhleh (2008), J.K.Gilbert (2008), J.K.Gilbert, R.Justi ( 2002) Definition of Modelling, Model “We have evolved the ability do “cut up” that world mentally into chunks about which we can think and hence give meaning to. This process of chunking (Data Mining clustering), a part of all cognition, is modelling and the products of the mental actions that have taken place are models” Significance of Modelling, Model “Modelling as an element in scientific methodology and models at the outcome of modelling are both important aspects of the conduct of science and hence of science education” “Categorization of models a) Historical models (Curriculum models) - learning specific consensus (the P-N junction model of transistor). Curriculum models can be used to provide an acceptable explanation of 112 a wide range of phenomena and specific facts, that´s why, it is useful way of reducing, by chunking, the ever-growing factual load of science curriculum b) New qualitative models - developed by following the sequence of learning: To revise an established model, To construct a model de novo (to reconstruct an established model) c) New quantitative models - developed by following the sequence of learning: quantitative version of a useable qualitative model of phenomenon d) Progress in the scientific enquiry is indicated by the value of particular combination of qualitative and quantitative models in making successful predictions about it properties” C.M.Borba, E.M.Villarreal (2005) Definition of modeling “Modeling can be understood as a pedagogical approach that emphasizes students´ choice of a problem to be investigated in the classroom. Students, therefore, play an active role in curriculum development instead of being just the recipients of tasks designed by others.” “Problem solving - problem solving as context - problem solving as skill - problem solving as art” Process of modeling, process of problem solving “The process of modeling or model building is a part of the process of problem solving.” “Steps of problem solving process Process of problem solving as entailing several steps: a) The starting point is a real problematic situation b) The first step is to create a real model, making simplifications, idealizations, establishing conditions and assumptions, but respecting original situation c) In the second step, the real model is mathematized, to get a mathematical model d) The third step implies the selection of suitable mathematical methods and working within mathematics in order to get some mathematical results e) In the fourth step, these results are interpreted for and translated into the real situation” J.K.Gilbert, O.de Jong, R.Justi, D.F.Treagust, J.H.van Driel (2002) “Model as a major learning and teaching tool Models are one of the main products of science, modelling is an element in scientific methodology, (and) models are a major learning and teaching tool in science education” “Model of Modeling Framework 1. Decide on purpose - Select source for model and Have experience - Produce mental model 2. Produce mental model - Express in mode(s) of representation 3. Express in mode(s) of representation - Conduct thought experiments 4a. Conduct thought experiments (pass) - Design and perform empirical tests 4b. Conduct thought experiments (fail) - Reject mental model (Modify mental model) and back to Select source for model (negative result) 5a. Design and perform empirical tests (pass) - Fulfill purpose and Consider scope and limitations of model and back to Decide on purpose (positive result) 5b. Design and perform empirical tests (fail) - Reject mental model (Modify mental model) and back to Select source for model (negative result)” 113 R.Justi, J.K.Gilbert (2002) “Role of chemistry textbooks in the teaching and learning of models and modelling This role may be discussed from two main angles: - the way that chemical models are introduced in textbooks (note: projected curriculum, a learning model) - and the teaching models that they present (note: Implemented curriculum-1, a teaching model)” “Teaching model, Learning model, Analogies A teaching model is a representation produced with the specific aim of helping students to understand some aspect of content. Assuming the abstract nature of chemical knowledge, they (learning models) are used very frequently in chemical textbooks mainly in the form of overt analogies, as drawings and as diagrams (specifically to “the atom”, “chemical bonding” and “chemical equilibrium”)” “Some future research directions a) How can teachers´pedagogical content knowledge about models and modelling be improved? b) The role of models and modelling in the development of chemical knowledge? c) How can it be made evident to teachers that the introduction of model-based teaching and learning approach can be way to shift the emphasis in chemical education from transmission of existing knowledge to a more contemporary perspective in which students will really understand the nature of chemistry and be able to deal critically with chemistry-related situations?” viii) Representation (Creativity) J.K.Gilbert, M.Reiner, M.Nakhleh (2008), J.K.Gilbert (2008) “Levels of Representation The “Representation in Science Education” is concerned with challenges that students face in understanding the three “levels” at which models can be represented - “macro”, “sub-micro”, “symbolic” - and the relationships between them.” A.H.Johnstone (1993), D.Gabel (1999) “Representations as distinct representational levels a) The models produced by science are expressed in three distinct representational levels b) The macroscopic level - this consists of what is seen in that which is studied c) The sub-microscopic level - this consists of representations of those entities that are inferred to underlie the macroscopic level, giving rise to the properties that it displays - molecules and ions are used to explain the properties of pure solutions, of radiotherapy) d) The symbolic level (this consists of any qualitative abstractions used to represent each item at the sub-microscopic level - chemical equations, mathematical equations)” J.K.Gilbert (2008), M.Hesse (1966), G.M.Bowen, W.-M.Roth (2005)) “The ontological categorization of representations a) Two approaches to the ontological categorization of representations are put forward, one based on the purpose which the representation is intended to serve, the other on the dimensionality 1D,2D,3D - of the representation. b) The purpose for which a Model is Produced - All models are produced by the use analogy. The target (which is the subject of the model) is depicted by a partial comparison with a source. The classification is binary: The target and the source 114 are the same things (they are homomorphs - an aeroplane, a virus), They are not (they are paramorphs - paramorphs are used to model process rather than objects) c) The dimensionality of the Representation The idea that modelling involves the progressive reduction of the experienced world to a set of abstract signs can be set out in terms of dimensions are follows: - Macro level - Perception of the world-as-experienced - 3D, 2D - Sub-micro level - Gestures, concrete representations (structural representations) - 3D - Photographs, virtual representations, diagrams, graphs, data arrays - 2D - Symbolic level - Symbols and equations - 1D” E.R.Tufte (1983), J.K.Gilbert (2008), D.Reisberg (1997) “External and internal representations, Series of internal representations and creativity a) Visualization is concerned with External Representation, the systematic and focused public display of information in the form of pictures, diagrams, tables, and the like b) Visualization is also concerned with Internal Representation, the mental production, storage and use of an image that often (but not always) is the result of external representation c) External and internal representations are linked in that their perception uses similar mental processes d) Visualization is thus concerned with the formation of an internal representation from an external representation. An internal representation must be capable of mental use in the making of predictions about the behaviour of a phenomenon under specific conditions e) It is entirely possible that once a series of internal representations have been visualized, that they are amalgamated/recombined to form a novel internal representation that is capable of external representation - this is creativity” ix) Visualization J.K.Gilbert, M.Reiner, M.Nakhleh (2008), J.K.Gilbert (2008) Definition of Visualization “The making of meaning for any such representation is “visualization”. Visualization is central the production of representations of these models (curriculum models, qualitative and quantitative models and their combinations).” J.K.Gilbert (2008) Visualization and Internal Representation “Visualization is also concerned with Internal Representation, the mental production, storage and use of an image that often (but not always) is the result of external representation.” R.Kohavi (2000) “Essence of Visualization - Data Summarization As the volume of data collected and stored in databases grows, there is a growing need to provide data summarization (e.g. through visualization), identify important patterns and trends, and act upon findings.” C.Brunk, J.Kelly, R.Kohavi (1997) “Serviceability of Visualization One way to did users in understanding the models is to visualize them.” 115 D.A.Keim (2002) “Serviceability of Visualization a) Information Visualization techniques may help to solve the problem b) Data Mining will use Information Visualization technology for an improved data analysis” Application of Visualization “Application of Visualization is Visual Data Exploration” “Benefits of Visual Data Exploration - University of Berkeley - every year 1 Exabyte of data (1018 bytes, Gigabyte = 109 bytes) - Finding the valuable information hidden in them, however, is a difficult task - The data presented textually - The range of some one hundred data items can be displayed (a drop in the ocean) - The basic idea of visual data exploration is to present the data in some visual form, allowing the human to get insight into the data, draw conclusions, and directly interact with the data (to combine the flexibility, creativity and general knowledge of the human with the enormous storage capacity and the computational power of today´s computers) - The visual data exploration process can be seen a hypothesis generative process (coming up with new hypotheses and the verification of the hypotheses can be done via visual data exploration) - The main advantages of visual data exploration: Visual data exploration can easily deal with inhomogenous and noisy data, visual data exploration is intuitive and requires no understanding of mathematical and statistical algorithms, visual data exploration techniques are indispensable in conjuction with automatic exploration techniques - Visual data exploration paradigm: overview first, zoom and filter, details-on-demand” x) Metavisualization N.R.C. (2006) “Metavisualization - spatial thinking The associated visualization which can be called “spatial thinking”” J.K.Gilbert, M.Reiner, M.Nakhleh (2008), J.K.Gilbert (2008), “Metavisualization - learning from representations It is of such importance in science and hence in science education that the acquisition of fluency in visualization is highly desirable and may be called “metavisual capability” or “metavisualization”. A fluent performance in visualization has been described as requiring metavisualization and involving the ability to acquire, monitor, integrate, and extend learning from representations. Metavisualization - learning from representations.” “Criteria for Metavisualisation Four criteria are suggested for attainment of metavisual status. The person concerned must be able to: a) demonstrate an understanding of the “convention of representation” for all the modes and submodes of 3D,2D,1D representations (what they can and cannot represent) b) demonstrate a capacity to translate a given model between the modes and sub-modes in which it can be depicted c) demonstrate the capacity to be able to construct a representation within any mode and sub-mode of dimensionality for a given purpose d) demonstrate the ability to solve novel problems using a model-based approach” “Developing the Skills of Metavisualization level 1 - representation as depiction level 2 - early symbolic skills 116 level 3 - syntactic use of formal representations level 4 - semantic use of formal representations level 5 - reflective, rhetorical use of representations” xi) Visual DM techniques D.A.Keim (2002) “Classification of Visual Data Mining Techniques (abstraction criterium) - Techniques as x-y plots, line plots, and histogram, but they are limited to relatively and lowdimensional data sets - Novel information visualization techniques allowing visualization of multidimensional data without inherent 2D or 3D semantics.” D.A.Keim (2002) “Classification of Visual DM Techniques based on three criteria a), b), c) a) The data to be visualized (one or two- dimensional data, multidimensional data, text and hypertext, hierarchies and graphs, algorithms and software): Dimensionality of date set = the number of variables of data set. Text and hypertext = in the age of the world wide web one important data type is text and hypertext Hierarchies and graphs = data records often have some relationship to other pieces of information, i.e. a graph consists of set objects, called nodes, and connections between these objects, called edges. Algorithms and software = the goal of V is to support software development by helping to understand algorithms, e.g. by showing the flow of information in a program, to enhance the understading of written code, e.g. by representing the structure of thousands of source code lines as graphs b) The visualization techniques (Standard 2D/3D displays, Geometrically-transformed displays, Icon-based displays, Dense pixel displays, Stacked displays-treemaps, dimensional stacking) Geometrically-transformed displays = these techniques aim at finding “interesting” transformations of multidimensional data sets. The class of geometric display techniques includes also the well-known Parallel Coordinate Technique (PCT). The PCT maps the k-dimensional space onto the two display dimensions by using k equidistant axes which are parallel to one of display axes Icon-based displays = the idea is to map the attribute values of a multidimensional data item to the features of an icon c) The interaction (IT) and distortion (DT) techniques used (interactive projection, interactive filtering, interactive zooming, interactive distortion, interactive linking and brushing) Interaction techniques allow the data analyst to directly interact with visualizations and dynamically change the visualizations according to exploration objectives Distortion techniques help in the data exploration process by providing means for focusing on details while preserving an overview of the data Interactive filtering, Interactive zooming - in exploring large data sets it is important to interactively partition the data into segments and focus on interesting subsets. This can be done by a direct selection of the desired subset (BROWSING) or by a specification of properties of the desired subset (QUERYING).” 117 xii) Educational Data Mining C.Romero, S.Ventura (2006) Educational Data Mining a) Currently there is an increasing interest in data mining and educational systems (well-known learning content management systems, adaptive and intelligent web-based educational systems), making educational data mining as a new growing research community b) After preprocessing the available data in each case, data mining techniques can be applied in educational systems – statistics and visualization, clustering, classification and detection, association rule mining and pattern mining, text mining c) Data Mining oriented towards students – to show recommendations and to use, interact, participate and communicate by students within educational systems d) Data Mining oriented towards educators (and academic responsible-administrators) – to show discovered knowledge and to design, plan, build and maintenance by educators (administrators) within educational systems e) Data Mining tools provide mining algorithms, filtering and visualization techniques. The examples of Data Mining tool: - Tool name: Mining tool, Authors: Zaïane and Luo (2001), Mining task: Association and patterns - Tool name: Multistar, Authors: Silva and Vieiva (2002), Mining task: Association and classification - Tool name: Synergo/ColAT, Authors: Avouris et al (2005), Mining task: Visualization f) Future research lines in educational Data Mining - Mining tools more facilitate the application of data mining by educators or not expert users - Standardization of data and methods (preprocessing, discovering, postprocessing) - Integration with the e-learning system - Specific data mining techniques W.Hämäläinen, T.H.Laine, E.Sutinen (2003) Data Mining system, educational system “Data Mining system in educational system: the educational system should be served by Data Mining system to monitor, intervene in, and counsel the teaching-studying-learning process” R.E.Scherr, M.Sabella, E.F.Redish (2007) Curriculum development “Conceptual knowledge is only one aspect of good knowledge structure: how and when knowledge is activated and used are also important.” Representation of knowledge structure “The nodes represent knowledge. The lines represent relations between different nodes.” R.Newburgh (2008) “Linear and lateral (structural) thought process (in physics) Why do we lose physics students? a) There is a wide spectrum in thought process. Of the two major types one is linear (i.e. sequential) and the other lateral (i.e. seeking horizontal connections). b) Those who developed physics - from Galileo to Newton to Einstein to Heisenberg - were almost exclusively linear thinkers. Paradigm for linear thought is Eucledian thinking, Eucledian logic (many physicists chose physics for their career as a result of their exposure to geometry - a consequence of this is that textbooks are usually written in a Eucledian format). The sense of discovery is lost. Many students do not recognize that the Eucledian format is not a valid description how we do physics. Their way of approaching problems is different but just as valid. Too many 118 physics teachers refuse to recognize the limitations of this approach (thereby causing would-be students who do not think in a Eucledian fashion to leave). c) The format of our textbooks is Eucledian. Newton´s laws, Hamilton-Jacobi theory, and Maxwell´s equations are often presented as quasi-axioms in advanced texts. The laboratories become fixed exercises in which the student must confirm some principle already established. He knows the answer before he does the experiment. d) Now I yield to no one in my admiration for Euclid. He has been an inspiration to many of us. We understand his genius but also see his limitations. Unfortunately there are many who do not follow his way of thinking. e) By presenting alternate approaches to students (specifically uses of lateral thinking), false starts that must be corrected, and lessons that are discoveries not memorization, we can retain more students in physics. f) We should remember that lateral thinking is essential to the formation of analogies, an activity that one cannot describe as Euclidean. Doing science without analogies seems to me an impossibility.” J.K.Gilbert, O.de Jong, R.Justi, D.F.Treagust, J.H.van Driel (2002), R.Justi, J.K.Gilbert (2002) Model as a major learning and teaching tool “Models are one of the main products of scince, modelling is an element in scientific methodology, (and) models are a major learning and teaching tool in science education.” Role of chemistry textbooks in the teaching and learning of models and modelling “This role may be discussed from two main angles: - the way that chemical models are introduced in textbooks - and the teaching models that they present.” Teaching model, Learning model, Analogies “A teaching model is a representation produced with the specific aim of helping students to understand some aspect of content. Assuming the abstract nature of chemical knowledge, they (learning models) are used very frequently in chemical textbooks mainly in the form of overt analogies, as drawings and as diagrams (specifically to “the atom”, “chemical bonding” and “chemical equilibrium”)” Some future research directions a) “How can teachers´pedagogical content knowledge about models and modelling be improved?” b) “The role of models and modelling in the development of chemical knowledge?” c) “How can it be made evident to teachers that the introduction of model-based teaching and learning approach can be way to shift the emphasis in chemical education from transmission of existing knowledge to a more contemporary perspective in which students will really understand the nature of chemistry and be able to deal critically with chemistry-related situations?” J.K.Gilbert, O.de Jong, R.Justi, D.F.Treagust, J.H.van Driel (2002), J.H.van Driel (2002) “Curriculum for Chemical Eduaction a) The central question is concerns the design of curricula for chemical education (note: curricular process) which make chemistry interesting and relevant for various groups of learners (professional chemists, general educational purposes-it is useful for all citizens in the future) b) In recent decades, curricula have been changed, on the one hand for general educational purposes, this has led to context-based approaches to teaching chemistry, on the other hand for professional chemists specific chemistry courses have been developed in the context of vocational training, aimed at developing the specific chemical competencies that are needed for various professions. c) Finally, chemistry is nowadays also presented in informal ways, for instance, in science centres and through chemistry “shows”.” 119 U-D.Ehlers, J.M.Pawlowski (2006) “Quality and Standardization in E-learning - Quality development: Methods and approaches Methods, models, concepts and approaches for the development, management and assurance of quality in e-learning are introduced - E-learning standards The main goal of e-learning standards is to provide solutions to enable and ensure interoperability and stability of systems, components and objects.” R.Kwan, R.Fox, FT Chan, P.Tsang (2008), Le Jun (2008) Knowledge management, Data Mining “We set up a few objects and value propositions of the initiative which was set up to improve teaching and learning, to enhance the quality of curriculum, and to extent learning support. We apply Data Mining tools to discover behavioral characteristics. A few strategies for knowledge management in the curriculum development in distance education will be discussed.” Le Jun (2008), I.Nonaka, H.Takeuchi (1995), I.Nonaka, H.Takeuchi (2005) Types of knowledge, Interaction of types “Many knowledge management experts agree that there are two general types of knowledge: a) Tacit knowledge is linked to personal perspective intuition, emotion, belief, experience and value. It is intangible, not easy to articulate, and difficult to share with others. b) Explicit knowledge has a tangible dimension that can be more easily captured, codified and communicated Based on I.Nonaka, H.Takeuchi these two versions of knowledge can interact when the “knowledge conversion” occurs: - socialization: from tacit to tacit - externalization: from tacit to explicit - combination: from explicit to explicit - internalization: from explicit to tacit” Le Jun (2008), I.Nonaka, H.Takeuchi (2005) “Research methods for knowledge management a) Data Mining techniques b) Web text mining is discovery knowledge from based non-structural text (text representation, feature extraction, text categorization, text clustering, text summarization, semantic analysis, and information extraction) c) Learning theory Learning theories are classified into four paradigms: behavioral theory, cognitive theory, constructive theory, social learning theory. We emphasize: Learning is continuous process that was indistinguishable from ongoing work practice - by discovering the problems, recognizing their types, and by solving problems in routine work and learning. Learners can continuously refine their cognitive, information, social and learning competencies. d) Knowledge management Knowledge sharing and application of the SECI model (see I.Nonaka, H.Takeuchi)” 120 xiii) Metadata Mining Process R.Vilalta, C.Giraud-Carrier, P.Brazdil, C.Soares (2004) Meta-learning – Support Data Mining „Current data mining tools are characterized by a plethora of algorithms but a lack of guidelines to select the right method according to the nature of the problem under analysis. Producing such guidelines is a primary goal by the field of meta-learning; the research objective is to understand the interaction between the mechanism of learning and the concrete contexts in which that mechanism is applicable. The field of meta-learning has seen continuous growth in the past years with interesting new developments in the construction of practical model-selection assistants, task-adaptive learners, and a solid conceptual framework. In this paper, we give an overview of different techniques necessary to build meta-learning systems. We begin by describing an idealized meta-learning architecture comprising a variety of relevant component techniques. We then look at how each technique has been studied and implemented by previous research. In addition, we show how metalearning has already been identified as an important component in real-world applications.“ J.Fox (2007) Definition Metadata Mining process “Since metadata is just another type of data, applying data mining to metadata is technically straightforward. XML - eXtensible Markup Language” American Library Association (1999) “Definition of Metadata a) As for most people the difference between data and information is merely a philosophical one of no relevance in practical use, other definitions are: Metadata is information about data. Metadata is information about information. Metadata contains information about that data or other data b) There are more sophisticated definitions, such as: Metadata is structured, encoded data that describe characteristics of information-bearing entities to aid in the identification, discovery, assessment, and management of the described entities.” 3.3.7.2. Brief summary Data Mining – an analytical synthetic way of extraction of hidden and potencially useful information from the large data files (continuum data-information-knowledge, knowledge discovery) Data Mining Techniques – system functions of the structure of formerly hidden relations and patterns (e.g. classification, association, clustering, prediction) Data Mining Tool – a concrete procedure how to reach the intended system functions Complex Tool – a resolution of the complex problem of relevant science branch Partial Tool – a resolution of the partial problem of relevant science branch Result of Data Mining – a result of the data mining tool application Representation of Data Mining Result – a description of this what is expressed Visualization of Data Mining Result – an optical retrieval of the data mining result 121 3.3.7.3. Data mining cycle, References i) Quotations from Sources U.M.Fayyad, G.Piatelsky-Shapiro, P.Smyth (1996) “Cycle of Data mining Data Mining can be viewed as a cycle that consists of several steps: - Identify a problem where analyzing data can provide value - Collect the data - Preprocess the data obtain a clean, mineable table - Build a model that summarizes patterns of interest in a particular representational form - Interpret/Evaluate the model - Deploy the results incorporating the model into another system for further action.” J.Luan (2002) “Steps for Data Mining preparation (algorithm, building, visualization) a) Investigate the possibility of overlaying Data Mining algorithms directly on a data warehouse b) Select a solid querying tool to build Data Mining files. These files closely resemble multidimensional cubes c) Data Visualization and Validation. This means both examining frequency counts as well as generating scatter plots, histograms, and other graphics, including clustering models d) Mine your data” Le Jun (2008) “Main processes of Data Mining - The main processes include data definition, data gathering, preprocessing, data processing and discovering knowledge or patterns (Data Mining techniques can be implemented rapidly on existing software and hardware) - Application of Data Mining tools: To solve the task of prediction, classification, explicit modeling and clustering. The application can help understand learners´learning behaviors.” ii) Brief Summary of Data Mining Cycle - Data Definition, Data Gathering - Data Preprocessing, Data Processing - Data Mining Techniques and Data Mining Tools, - Discovering Knowledge or Patterns, - Representation and Visualization of Data Mining Results, - Application. References i. Tarábek,P., Záškodný,P. (2009-2010) Educational and Didactic Communication 2009. Bratislava, Slovak Republic: Didaktis, www.didaktis.sk, ISBN 978-80-89160-69-3 ii. Záškodný,P., Pavlát,V. (2009-2010a) Data Mining – A Brief Recherche (in: i.) iii. Záškodný,P., Novák,V. (2009-2010b) Data Mining – A Brief Summary (in: i.) 122 Část 4. STATISTICKÉ TABULKY Part 4. STATISTICAL TABLES Tabulka I.: Hodnoty distribuční funkce normovaného normálního rozdělení Table I.: Values of distribution function of standardized normal distribution u F(u) u F(u) u F(u) u F(u) 0,00 0,01 0,02 0,03 0,04 0,500 00 0,503 99 0,507 98 0,511 97 0,515 95 0,35 0,36 0,37 0,38 0,39 0,636 83 0,640 58 0,644 31 0,648 03 0,651 73 0,70 0,71 0,72 0,73 0,74 0,758 04 0,761 15 0,764 24 0,767 30 0,770 35 1,05 1,06 1,07 1,08 1,09 0,853 14 0,855 43 0,857 69 0,859 93 0,862 14 0,05 0,06 0,07 0,08 0,09 0,519 94 0,523 92 0,527 90 0,531 88 0,535 86 0,40 0,41 0,42 0,43 0,44 0,655 42 0,659 10 0,662 76 0,666 40 0,670 03 0,75 0,76 0,77 0,78 0,79 0,773 77 0,776 37 0,779 35 0,782 30 0,785 24 1,10 1,11 1,12 1,13 1,14 0,864 33 0,866 50 0,868 64 0,870 76 0,872 86 0,10 0,11 0,12 0,13 0,14 0,539 83 0,543 80 0,547 76 0,551 72 0,555 67 0,45 0,46 0,47 0,48 0,49 0,673 64 0,677 24 0,680 82 0,684 39 0,687 93 0,80 0,81 0,82 0,83 0,84 0,788 14 0,791 03 0,793 89 0,796 73 0,799 55 1,15 1,16 1,17 1,18 1,19 0,874 93 0,876 98 0,879 00 0,881 00 0,882 98 0,15 0,16 0,17 0,18 0,19 0,559 62 0,563 56 0,567 49 0,571 42 0,575 35 0,50 0,51 0,52 0,53 0,54 0,691 46 0,694 97 0,698 47 0,701 94 0,705 40 0,85 0,86 0,87 0,88 0,89 0,802 34 0,805 11 0,807 85 0,810 57 0,813 27 1,20 1,21 1,22 1,23 1,24 0,884 93 0,886 86 0,888 77 0,890 65 0,892 51 0,20 0,21 0,22 0,23 0,24 0,579 26 0,583 17 0,587 06 0,590 95 0,594 83 0,55 0,56 0,57 0,58 0,59 0,708 84 0,712 26 0,715 66 0,719 04 0,722 40 0,90 0,91 0,92 0,93 0,94 0,815 94 0,818 59 0,821 21 0,823 81 0,826 39 1,25 1,26 1,27 1,28 1,29 0,894 35 0,896 17 0,897 96 0,899 73 0,901 47 0,25 0,26 0,27 0,28 0,29 0,598 71 0,602 57 0,606 42 0,610 26 0,614 09 0,60 0,61 0,62 0,63 0,64 0,725 75 0,729 07 0,732 37 0,735 65 0,738 91 0,95 0,96 0,97 0,98 0,99 0,828 94 0,831 47 0,833 98 0,836 46 0,838 91 1,30 1,31 1,32 1,33 1,34 0,903 20 0,904 90 0,906 58 0,908 24 0,909 88 0,30 0,31 0,32 0,33 0,34 0,617 91 0,621 72 0,625 52 0,629 30 0,633 07 0,65 0,66 0,67 0,68 0,69 0,742 15 0,745 37 0,748 57 0,751 75 0,754 90 1,00 1,01 1,02 1,03 1,04 0,841 34 0,843 75 0,846 14 0,848 50 0,850 83 1,35 1,36 1,37 1,38 1,39 0,911 49 0,913 09 0,914 66 0,916 21 0,917 74 123 u F(u) u F(u) u F(u) u F(u) 1,40 1,41 1,42 1,43 1,44 0,919 24 0,920 73 0,922 20 0,923 64 0,925 07 1,85 1,86 1,87 1,88 1,89 0,967 84 0,968 56 0,969 26 0,969 95 0,970 62 2,30 2,31 2,32 2,33 2,34 0,989 28 0,989 56 0,989 83 0,990 10 0,990 36 3,00 3,02 3,04 3,06 3,08 0,998 65 0,998 74 0,998 82 0,998 89 0,998 97 1,45 1,46 1,47 1,48 1,49 0,926 47 0,927 86 0,929 22 0,930 56 0,931 89 1,90 1,91 1,92 1,93 1,94 0,971 28 0,971 93 0,972 57 0,973 20 0,973 81 2,35 2,36 2,37 2,38 2,39 0,990 61 0,990 86 0,991 11 0,991 34 0,991 58 3,10 3,12 3,14 3,16 3,18 0,999 03 0,999 16 0,999 16 0,999 21 0,999 26 1,50 1,51 1,52 1,53 1,54 0,933 19 0,934 48 0,935 74 0,936 99 0,938 22 1,95 1,96 1,97 1,98 1,99 0,974 41 0,975 00 0,975 58 0,976 15 0,976 70 2,40 2,41 2,42 2,43 2,44 0,991 80 0,992 02 0,992 24 0,992 45 0,992 66 3,20 3,22 3,24 3,26 3,28 0,999 31 0,999 36 0,999 40 0,999 44 0,999 48 1,55 1,56 1,57 1,58 1,59 0,939 43 0,940 62 0,941 79 0,942 95 0,944 08 2,00 2,01 2,02 2,03 2,04 0,977 25 0,977 78 0,978 31 0,978 82 0,979 32 2,45 2,46 2,47 2,48 2,49 0,992 86 0,993 05 0,993 05 0,993 43 0,993 48 3,30 3,32 3,34 3,36 3,38 0,999 52 0,999 55 0,999 58 0,999 61 0,999 64 1,60 1,61 1,62 1,63 1,64 0,945 20 0,946 30 0,947 38 0,948 45 0,949 50 2,05 2,06 2,07 2,08 2,09 0,979 82 0,980 30 0,980 77 0,981 24 0,981 69 2,50 2,52 2,54 2,56 2,58 0,993 79 0,994 13 0,994 46 0,994 77 0,995 06 3,40 3,42 3,44 3,46 3,48 0,999 66 0,999 69 0,999 71 0,999 73 0,999 75 1,65 1,66 1,67 1,68 1,69 0,950 53 0,951 54 0,952 54 0,953 52 0,954 49 2,10 2,11 2,12 2,13 2,14 0,982 14 0,982 57 0,983 00 0,983 41 0,983 82 2,60 2,62 2,64 2,66 2,68 0,995 34 0,995 60 0,995 85 0,996 09 0,996 32 3,50 3,55 3,60 3,65 3,70 0,999 77 0,999 81 0,999 84 0,999 87 0,999 89 1,70 1,71 1,72 1,73 1,74 0,955 43 0,956 37 0,957 28 0,958 18 0,959 07 2,15 2,16 2,17 2,18 2,19 0,984 22 0,984 61 0,985 00 0,985 37 0,985 74 2,70 2,72 2,74 2,76 2,78 0,996 53 0,996 74 0,996 93 0,997 11 0,997 28 3,75 3,80 3,85 3,90 3,95 0,999 91 0,999 93 0,999 94 0,999 95 0,999 96 1,75 1,76 1,77 1,78 1,79 0,959 94 0,960 80 0,961 64 0,962 46 0,963 27 2,20 2,21 2,22 2,23 2,24 0,986 10 0,986 45 0,986 79 0,987 13 0,987 45 2,80 2,82 2,84 2,86 2,88 0,997 44 0,997 60 0,997 74 0,997 88 0,998 01 4,00 4,05 4,10 4,15 4,20 0,999 97 0,999 97 0,999 98 0,999 98 0,999 99 124 u 1,80 1,81 1,82 1,83 1,84 F(u) 0,964 07 0,964 85 0,965 62 0,966 38 0,967 12 u 2,25 2,26 2,27 2,28 2,29 F(u) 0,987 78 0,988 09 0,988 40 0,988 70 0,988 99 u 2,90 2,92 2,94 2,96 2,98 F(u) 0,998 13 0,998 25 0,998 36 0,998 46 0,998 56 u 4,25 4,30 4,35 4,40 4,45 F(u) 0,999 99 0,999 99 0,999 99 0,999 99 1,000 00 125 Tabulka II.: Kritické hodnoty u-testu Table II.: Critical values of u-test α 0,20 0,10 0,05 0,025 0,01 0,005 u(α) 0,842 1,282 1,645 1,960 2,326 2,576 126 Tabulka III.: Kritické hodnoty t-testu Table III.: Critical values of t-test ν α 1 2 3 4 5 0,05 6,31 2,92 2,35 2,13 2,02 0,025 12,71 4,30 3,18 2,78 2,57 0,01 31,82 6,96 4,54 3,75 3,36 0,005 63,66 9,92 5,84 4,60 4,03 6 7 8 9 10 1,94 1,90 1,86 1,03 1,81 2,45 2,36 2,31 2,26 2,23 3,14 3,00 2,90 2,82 2,76 3,71 3,50 3,38 3,25 3,17 11 12 13 14 15 1,80 1,70 1,77 1,76 1,75 2,2 2,18 2,16 2,14 2,13 2,72 2,68 2,65 2,62 2,6 3,11 3,06 3,01 2,98 2,95 16 17 18 19 20 1,75 1,74 1,73 1,73 1,72 2,12 2,11 2,10 2,09 2,09 2,58 2,57 2,55 2,54 2,53 2,92 2,90 2,88 2,86 2,84 21 22 23 24 25 1,72 1,72 1,71 1,71 1,71 2,08 2,07 2,07 2,06 2,06 2,52 2,51 2,50 2,49 2,48 2,83 2,82 2,81 2,80 2,79 26 27 28 29 30 1,71 1,70 1,70 1,70 1,70 2,06 2,05 2,05 2,04 2,04 2,48 2,47 2,47 2,46 2,46 2,78 2,77 2,76 2,76 2,75 31 32 33 1,70 1,69 1,69 2,04 2,03 2,03 2,45 2,45 2,45 2,75 2,74 2,74 127 Tabulka IV.: Kritické hodnoty χ2-testu Table IV.: Critical values of χ2-test ν α 1 2 3 4 5 0,995 0,00 0,01 0,07 0,21 0,41 0,975 0,00 0,05 0,22 0,48 0,83 0,05 3,84 5,99 7,81 9,49 11,07 0,025 5,02 7,38 9,35 11,14 12,83 0,01 6,63 9,21 11,34 13,28 15,09 0,005 7,88 10,6 12,84 14,86 16,75 6 7 8 9 10 0,68 0,99 1,34 1,73 2,16 1,24 1,69 2,18 2,7 3,25 12,59 14,07 15,51 16,92 18,31 14,45 16,01 17,52 19,02 20,48 16,81 18,48 20,09 21,67 23,21 18,55 20,28 21,45 23,59 25,19 11 12 13 14 15 2,60 3,07 3,57 4,07 4,60 3,82 4,40 5,01 5,63 6,26 19,68 21,03 22,36 23,68 25,00 21,92 23,34 24,74 26,12 27,49 24,72 26,22 27,69 29,14 30,58 26,76 28,30 29,82 31,32 32,80 16 17 18 19 20 5,14 5,70 6,26 6,84 7,43 6,91 7,56 8,23 8,91 9,59 26,3 27,59 28,87 30,14 31,41 28,85 30,19 31,53 32,85 34,17 32,00 33,41 34,81 36,19 37,57 34,27 35,72 37,16 38,58 40,00 21 22 23 24 25 8,03 8,64 9,26 9,89 10,52 10,28 10,98 11,69 12,40 13,12 32,67 33,92 35,17 36,42 37,65 35,46 36,76 38,08 39,36 40,65 38,93 40,29 41,64 42,98 44,31 41,40 42,80 44,18 45,56 46,93 30 35 40 45 50 13,79 17,19 20,71 27,99 34,31 16,79 20,57 24,43 23,57 32,36 43,77 49,80 55,76 61,66 67,5 46,98 53,2 59,34 65,41 71,42 50,89 57,34 63,69 69,96 76,15 53,67 60,27 66,70 73,17 79,49 60 70 80 90 100 35,53 43,28 51,17 59,20 67,33 40,46 48,76 57,15 65,65 74,22 79,46 90,58 101,88 113,15 124,34 83,30 95,02 106,63 118,14 129,56 38,38 100,43 112,33 124,12 135,81 91,95 104,21 116,32 128,30 140,17 128 Tabulka V.: Kritické hodnoty F-testu pro α = 0,05 Table V.: Critical values of F-test for α = 0,05 ν μ 1 2 3 4 5 1 161 18,5 10,1 7,71 6,91 2 200 19,0 9,55 6,94 5,79 3 213 19,2 9,28 6,95 5,41 4 225 19,2 9,12 6,39 5,19 5 230 19,3 9,01 6,26 5,05 6 234 19,3 8,94 6,16 4,95 7 237 19,4 8,89 6,09 4,88 8 239 19,4 8,85 6,04 4,82 9 241 19,4 8,81 6,00 4,77 10 242 19,4 8,79 5,96 4,74 20 248 19,4 8,66 5,80 4,56 40 251 19,5 8,59 5,72 4,46 60 252 19,5 8,57 5,69 4,43 120 253 19,5 8,55 5,66 4,40 6 7 8 9 10 5,99 5,59 5,32 5,12 4,96 5,14 4,74 4,46 4,26 4,10 4,76 4,35 4,07 3,86 3,71 4,53 4,12 3,84 3,63 3,48 4,39 3,97 3,69 3,48 3,33 4,28 3,87 3,58 3,37 3,22 4,21 3,79 3,50 3,29 3,14 4,15 3,73 3,44 3,23 3,07 4,10 3,68 3,39 3,18 3,02 4,06 3,64 3,35 3,14 2,98 3,87 3,44 3,15 2,94 2,77 3,77 3,34 3,04 2,83 2,66 3,74 3,30 3,01 2,79 2,62 3,70 3,27 2,97 2,75 2,58 11 12 13 14 15 4,84 4,75 4,67 4,60 4,64 3,98 3,89 3,81 3,74 3,68 3,59 3,49 3,41 3,64 3,29 3,36 3,26 3,18 3,11 3,06 3,20 3,11 3,03 2,96 2,90 3,09 3,00 2,92 2,85 2,79 3,01 2,91 2,83 2,76 2,71 2,95 2,85 2,77 2,7 2,64 2,90 2,80 2,71 2,65 2,59 2,85 2,75 2,67 2,60 2,54 2,65 2,54 2,46 2,39 2,33 2,53 2,43 2,34 2,27 2,20 2,49 2,38 2,30 2,22 2,16 2,45 2,34 2,25 2,18 2,11 129 Tabulka V.: Kritické hodnoty F-testu pro α = 0,05 Table V.: Critical values of F-test for α = 0,05 ν μ 16 17 18 19 20 1 4,49 4,45 4,41 4,38 4,35 2 3,63 3,59 3,55 3,52 3,49 3 3,24 3,20 3,16 3,13 3,10 4 3,01 2,96 2,93 2,9 2,87 5 2,85 2,81 2,77 2,74 2,71 6 2,74 2,70 2,66 2,63 2,60 7 2,66 2,61 2,58 2,54 2,51 8 2,59 2,55 2,51 2,48 2,45 9 2,54 2,49 2,46 2,42 2,39 10 2,49 2,45 2,41 2,38 2,35 20 2,28 2,23 2,19 2,16 2,12 40 2,15 2,10 2,06 2,03 1,99 60 2,11 2,06 2,02 1,98 1,95 120 2,06 2,01 1,97 1,93 1,90 21 22 23 24 25 4,32 4,30 4,28 4,26 4,24 3,47 3,44 3,42 3,40 3,39 3,07 3,05 3,03 3,01 2,92 2,84 2,82 2,80 2,78 2,76 2,68 2,66 2,64 2,62 2,60 2,57 2,55 2,53 2,51 2,49 2,49 2,46 2,44 2,42 2,40 2,42 2,40 2,37 2,36 2,34 2,37 2,34 2,32 2,30 2,28 2,32 2,30 2,27 2,25 2,24 2,10 2,07 2,05 2,03 2,01 1,96 1,94 1,91 1,89 1,87 1,92 1,89 1,86 1,84 1,82 1,87 1,84 1,81 1,79 1,77 26 27 28 29 30 4,23 4,21 4,20 4,18 4,17 3,37 3,35 3,34 3,33 3,32 2,98 2,96 2,95 2,93 2,92 2,74 2,73 2,71 2,70 2,69 2,59 2,57 2,56 2,55 2,53 2,47 2,46 2,45 2,43 2,42 2,39 2,37 2,36 2,35 2,33 2,32 2,31 2,29 2,28 2,27 2,27 2,25 2,24 2,22 2,21 2,22 2,20 2,19 2,18 2,16 1,99 1,97 1,96 1,94 1,93 1,85 1,84 1,82 1,81 1,79 1,80 1,79 1,77 1,75 1,74 1,75 1,73 1,71 1,70 1,68 40 60 120 4,08 4,00 3,92 3,23 3,15 3,07 2,84 2,76 2,68 2,61 2,53 2,45 2,45 2,37 2,29 2,34 2,25 2,17 2,25 2,17 2,09 2,18 2,10 2,02 2,12 2,04 1,96 2,08 1,99 1,91 1,84 1,75 1,66 1,69 1,59 1,50 1,64 1,53 1,43 1,58 1,47 1,35 130 Tabulka VI.: Kritické hodnoty F – testu pro α = 0,01 Table V.: Critical values of F-test for α = 0,01 ν μ 1 2 3 4 5 1 4050 998,5 34,1 21,2 16,3 2 5000 99 30,8 18 13,3 3 5400 99,2 29,5 16,7 12,1 4 5620 99,2 28,7 16 11,4 5 5760 99,3 28,2 15,5 11 6 5860 99,3 27,9 15,2 10,7 7 5930 99,4 27,7 15 10,5 8 5980 99,4 27,5 14,8 10,3 9 6020 99,4 27,3 14,7 10,2 10 6060 99,4 27,2 14,5 10,1 20 6210 99,4 26,7 14 9,55 40 6290 99,5 26,4 13,7 9,2 60 6310 99,5 26,3 13,7 9,2 120 6340 99,5 26,2 13,6 9,11 6 7 8 9 10 13,7 12,2 11,3 10,6 10 10,9 9,55 8,65 8,02 7,56 9,78 8,45 7,59 6,99 6,55 9,15 7,85 7,01 6,42 5,99 8,75 7,46 6,63 6,06 5,64 8,47 7,19 6,37 5,8 5,39 8,26 6,99 6,18 5,61 5,2 8,1 6,84 6,03 5,47 5,06 7,98 6,72 5,91 5,35 4,94 7,87 6,62 5,81 5,26 4,85 7,4 6,16 5,36 4,81 4,41 7,14 5,91 5,12 4,57 4,17 7,06 5,82 5,03 4,48 4,08 6,97 5,74 4,95 4,4 4 11 12 13 14 15 9,65 9,33 9,07 8,86 8,68 7,21 6,93 6,7 6,51 6,36 6,22 5,95 5,74 5,56 5,42 5,67 5,41 5,21 5,04 4,89 5,32 5,06 4,86 4,69 4,56 5,07 4,82 4,62 4,46 4,32 4,89 4,64 4,44 4,28 4,14 4,74 4,5 4,3 4,14 4 4,63 4,39 4,19 4,03 3,39 4,54 4,3 4,1 3,94 3,8 4,1 3,86 3,66 3,51 3,37 3,86 3,62 3,43 3,27 3,13 3,78 3,54 3,34 3,18 3,05 3,69 3,45 3,25 3,09 2,96 131 Tabulka VI.: Kritické hodnoty F-testu pro α = 0,01 Table V.: Critical values of F-test for α = 0,01 ν μ 16 17 18 19 20 1 8,53 8,4 8,29 8,18 8,1 2 6,23 6,11 6,01 5,93 5,85 3 5,29 6,18 5,09 5,01 4,94 4 4,77 4,67 4,58 4,5 4,43 5 4,44 4,34 4,25 4,17 4,1 6 4,2 4,1 4,01 3,94 3,87 7 4,03 3,93 3,84 3,77 3,7 8 3,89 3,79 3,71 3,63 3,56 9 3,78 3,68 3,6 3,52 3,46 10 3,69 3,59 3,51 3,43 3,37 20 3,26 3,16 3,08 3 2,94 40 3,02 2,92 2,84 2,76 2,69 60 2,93 2,83 2,75 2,67 2,61 120 2,84 2,75 2,66 2,58 2,52 21 22 23 24 25 8,02 7,95 7,88 7,82 7,77 5,78 5,72 5,66 5,61 5,57 4,87 4,82 4,76 4,72 4,68 4,37 4,31 4,26 4,22 4,18 4,04 3,99 3,94 3,9 3,85 3,81 3,76 3,71 3,67 3,63 3,64 3,59 3,54 3,5 3,46 3,51 3,45 3,41 3,36 3,32 3,4 3,35 3,3 3,26 3,22 3,31 3,26 3,21 3,17 3,13 2,88 2,83 2,78 2,74 2,7 2,64 2,58 2,54 2,49 2,45 2,55 2,5 2,45 2,4 2,36 2,46 2,4 2,35 2,31 2,27 26 27 28 29 30 7,72 7,68 7,64 7,6 7,56 5,63 5,49 4,45 5,42 5,39 4,64 4,6 4,57 4,54 4,51 4,14 4,11 4,07 4,04 4,02 3,82 3,78 3,75 3,73 3,7 3,59 3,56 3,53 3,5 3,47 3,42 3,39 3,36 3,33 3,3 3,29 3,26 3,23 3,2 3,17 3,18 3,15 3,12 3,09 3,07 3,09 3,06 3,03 3 2,98 2,66 2,63 2,6 2,57 2,55 2,42 2,38 2,35 2,33 2,3 2,33 2,29 2,26 2,23 2,21 2,23 2,2 2,17 2,14 2,11 40 60 120 7,31 7,08 6,85 5,18 4,98 4,79 4,31 4,13 3,95 3,83 3,65 3,48 3,51 3,34 3,17 3,29 3,12 2,96 3,12 2,95 2,79 2,99 2,82 2,66 2,89 2,72 2,56 2,8 2,63 2,47 2,37 2,2 2,03 2,11 1,94 1,76 2,02 1,84 1,66 1,92 1,73 1,53 132 CV of author Assoc.Prof. RNDr. Přemysl Záškodný,CSc. Assoc.Prof. RNDr. Přemysl Záškodný,CSc., graduated from the Mathematical-Physics Faculty of Charles University, CSc. in the physics education, and docent (assoc. professor) of physics education. As a university teacher, he is affiliated to the University of South Bohemia in České Budějovice and to the University of Finance and Administration in Prague. He is active in scientific work in cooperation with the International Institute of Informatics and Systemics in U.S.A., and the Curriculum Studies Research Group in Slovakia. In his scientific work, aimed at science and statistics education, he deals with structuring and modelling physics and statistics knowledge and systems of knowledge and also data mining and curricular process. In addition to support from his faculty and university, the projects granted to the author by the Avenira Foundation in Switzerland and the University of Finance and Administration in Czech Republic has brought a considerable contribution to the results achieved. The conception of the last books “Survey of Principles of Theoretical Physics”, “Curricular Process in Physics”, “Fundaments of Statistics” (with co-authors), and “From Financial Derivatives to Option Hedging” (with co-author) and last monographs “Educational and Didactic Communication 2008, 2009, 2010, 2011” are based on the scientific work of the author. Some of the further works published by the author are quoted in the bibliography. Assoc.Prof. RNDr. Přemysl Záškodný, CSc. is active as general chair of international e-conferences OEDM-SERM 2011 and OEDM-SERM 2012 (Optimization, Education and Data Mining in Science, Engineering and Risk Management). 133 Bibliography of author i) The monographs Tarabek,P., Zaskodny,P.: Analytical-Synthetic Modelling of Cognitive Structures (volume 1: New structural methods and their application). Educational Publisher Didaktis Ltd., Bratislava, London 2001 Tarabek,P., Zaskodny,P.: Analytical-Synthetic Modelling of Cognitive Structures (volume 2: Didactic communication and educational sciences). Educational Publisher Didaktis Ltd., Bratislava, New York 2002 Tarabek,P., Zaskodny,P.: Structure, Formation and Design of Textbook (volume 1: Theoretical basis). Educational Publisher Didaktis Ltd., Bratislava, London 2003 Tarabek,P., Zaskodny,P.: Structure, Formation and Design of Textbook (volume 2: Theory and practice). Educational Publisher Didaktis Ltd., Bratislava, London 2004 Tarabek,P., Zaskodny,P.: Modern Science and Textbook Creation (volume 1: Projection of scientific systems). Educational Publisher Didaktis Ltd., Bratislava, Frankfurt a.M. 2005 Tarabek,P., Zaskodny,P.: Modern Science and Textbook Creation (volume 2: Modern tendencies in textbook creation). Educational Publisher Didaktis Ltd., Bratislava, Frankfurt a.M. 2006 Tarabek,P., Zaskodny,P.: Educational and Didactic Communication 2007” Educational Publisher Didaktis Ltd., Bratislava, Frankfurt a.M. 2008 Tarabek,P., Zaskodny,P.: Educational and Didactic Communication 2008” Educational Publisher Didaktis Ltd., Bratislava, Frankfurt a.M. 2009 Tarabek,P., Zaskodny,P.: Educational and Didactic Communication 2009” Educational Publisher Didaktis Ltd., Bratislava, 2010 Tarabek,P., Zaskodny,P.: Educational and Didactic Communication 2010” Educational Publisher Didaktis Ltd., Bratislava, 2011 Tarabek,P., Zaskodny,P.: Educational and Didactic Communication 2011” Educational Publisher Didaktis Ltd., Bratislava, 2012 ii) The books Pavlát,V., Záškodný,P. at al: Capital Market, The first edition, 2003 Záškodný,P.: Survey of Principles of Theoretical Physics (with Application to Radiology) (in Czech). Didaktis, Bratislava, Slovak Republic 2005 134 Záškodný,P.: Survey of Principles of Theoretical Physics (with Application to Radiology) (in English). Avenira, Switzerland, Algoritmus, Ostrava, Czech Republic 2006 Pavlát,V., Záškodný,P. at al: Capital Market, The second edition, 2006 Záškodný,P.: Curricular Process in Physics (in Czech). Avenira, Switzerland, Algoritmus, Ostrava, Czech Republic 2009 Záškodný,P. at al.: Fundaments of Statistics (in Czech). Curriculum, Czech Republic 2011 Pavlát,V., Záškodný,P.: From Financial Derivatives to Option Hedging. Curriculum, Czech Republic 2012 iii) The textbooks Záškodný,P.: Theoretical Mechanics in Examples I (in Czech). PF, Ostrava, Czech Republic 1984 Záškodný,P., Sklenák,L.: Theoretical Mechanics in Examples II (in Czech). PF, Ostrava, Czech Republic 1986 Záškodný,P. et al.: Principles of Economical Statistics (in Czech). VSFS, Praha, Czech Republic 2004 Budínský,P., Záškodný,P.: Financial and Investment Mathematics. VSFS, Prague 2004 Záškodný,P. et al.: Principles of Health Statistics (in Czech). JU, České Budějovice, Czech Republic 2005 Kozlovská,D., Skalická,Z., Záškodný,P.: Introduction to Practicum from Radiological Physics. JCU, České Budějovice, Czech Republic, 2007 Záškodný,P., Pavlát,V., Budík,J.: Financial Derivates and Their Evaluation. Prague, University of Finance and Administration, 2009 iv) The papers Approximately 100 papers 135 Global references Dalgaard,P. (2008). Introductory Statistics with R. Second Edition. New York, USA: Springer. (In English) ISBN-13: 978-038779-053-4 Field,A. (2009). Discovering Statistics Using SPSS. Third Edition. London, New Delhi, Singapore: SAGE. (In English) ISBN-13: 978-184787-907-3 Jorion,P. (2007). Financial Risk Manager. Handbook. Hoboken, New Jersey, USA: Wiley&Sons. (In English) ISBN 978-0-470-12630-1 Matloff,N. (2011). The Art R Programming: A Tour of Statistical Software Design. USA: No Starch Press. (In English) ISBN-13: 978-159327-384-2 Pavlát,V., Záškodný,P. (2012). From Financial Derivatives to Option Hedging. Prague, Czech Republic: Curriculum. (In Czech) ISBN 978-80-904948-3-1 Tarábek,P., Záškodný,P. (2011). Data Mining Tooůs in Statistics Education. In: Educational&Didactic Communication 2010. Bratislava, Slovakia: Didaktis. (In English) ISBN 978-80-89160-78-5 Záškodný,P. et al (2007). Principles of Economical Statistics. Prague, Czech Republic: Eupress. (Partly on English) ISBN 80-86754-00-6