b:head_first_statistics:visualization
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
b:head_first_statistics:visualization [2020/09/07 12:30] – [Pie Chart] hkimscil | b:head_first_statistics:visualization [2024/09/04 08:49] (current) – [Scatter plot] hkimscil | ||
---|---|---|---|
Line 21: | Line 21: | ||
Good to go with | Good to go with | ||
* frequency data for categories which should add up to 100 percent | * frequency data for categories which should add up to 100 percent | ||
+ | ---- | ||
Better | Better | ||
{{better.pie.chart.jpg}} | {{better.pie.chart.jpg}} | ||
* side note for actual numbers and | * side note for actual numbers and | ||
* table | * table | ||
+ | ---- | ||
Bad | Bad | ||
{{bad.pie.chart.jpg? | {{bad.pie.chart.jpg? | ||
+ | * 각 게임 장르별 사용자의 만족도 퍼센티지를 모아 놓은 파이차트는 유용하지 않다. | ||
+ | ====== Bar chart ====== | ||
+ | {{good.bar.chart.jpg? | ||
+ | * region 별 sales | ||
+ | * 대륙 별 sales | ||
+ | * 분기 별 수익률 | ||
+ | * 카테고리화한 종류 별 숫자기록 (일반화) | ||
+ | |||
+ | {{good.bar.chart.2.png? | ||
+ | * 장르 별 만족도 | ||
+ | * (우리 회사) 부서별 성취도 | ||
+ | |||
+ | ====== Histogram ====== | ||
+ | ^ ser ^ freq ^ | ||
+ | | 1 | 100 | | ||
+ | | 2 | 88 | | ||
+ | | 3 | 159 | | ||
+ | | 4 | 201 | | ||
+ | | 5 | 250 | | ||
+ | | 6 | 250 | | ||
+ | | 7 | 254 | | ||
+ | | 8 | 288 | | ||
+ | | 9 | 356 | | ||
+ | | 10 | 380 | | ||
+ | | 11 | 430 | | ||
+ | | 12 | 450 | | ||
+ | | 13 | 433 | | ||
+ | | 14 | 543 | | ||
+ | | 15 | 540 | | ||
+ | | 16 | 570 | | ||
+ | | 17 | 450 | | ||
+ | | 18 | 433 | | ||
+ | | 19 | 543 | | ||
+ | | 20 | 690 | | ||
+ | | 21 | 640 | | ||
+ | | 22 | 720 | | ||
+ | | 23 | 777 | | ||
+ | | 24 | 720 | | ||
+ | | 25 | 880 | | ||
+ | | 26 | 900 | | ||
+ | |||
+ | Excel에서의 histogram | ||
+ | | Bin | Frequency | ||
+ | | 199 | 3 | | ||
+ | | 399 | 7 | | ||
+ | | 599 | 9 | | ||
+ | | 799 | 5 | | ||
+ | | 999 | 2 | | ||
+ | {{: | ||
+ | |||
+ | in R . . . . | ||
+ | < | ||
+ | dat <- c(100, 88, 159, 201, 250, 250, 254, 288, 356, 380, | ||
+ | 430, 450, 433, 543, 540, 570, 450, 433, 543, 690, | ||
+ | 640, 720, 777, 720, 880, 900) | ||
+ | dat | ||
+ | hist(dat) | ||
+ | hist(dat, breaks=5) | ||
+ | </ | ||
+ | {{: | ||
====== Scatter plot ====== | ====== Scatter plot ====== | ||
- | + | < | |
+ | hist(mtcars$hp) | ||
- | < | + | mpg cyl disp hp drat wt qsec vs am gear carb |
+ | Mazda RX4 | ||
+ | Mazda RX4 Wag | ||
+ | Datsun 710 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1 | ||
+ | Hornet 4 Drive 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1 | ||
+ | Hornet Sportabout | ||
+ | Valiant | ||
+ | Duster 360 14.3 8 360.0 245 3.21 3.570 15.84 0 0 3 4 | ||
+ | Merc 240D | ||
+ | Merc 230 22.8 4 140.8 95 3.92 3.150 22.90 1 0 4 2 | ||
+ | Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 | ||
+ | Merc 280C | ||
+ | Merc 450SE 16.4 8 275.8 180 3.07 4.070 17.40 0 0 3 3 | ||
+ | Merc 450SL 17.3 8 275.8 180 3.07 3.730 17.60 0 0 3 3 | ||
+ | Merc 450SLC | ||
+ | Cadillac Fleetwood | ||
+ | Lincoln Continental 10.4 8 460.0 215 3.00 5.424 17.82 0 0 3 4 | ||
+ | Chrysler Imperial | ||
+ | Fiat 128 32.4 | ||
+ | Honda Civic | ||
+ | Toyota Corolla | ||
+ | Toyota Corona | ||
+ | Dodge Challenger | ||
+ | AMC Javelin | ||
+ | Camaro Z28 13.3 8 350.0 245 3.73 3.840 15.41 0 0 3 4 | ||
+ | Pontiac Firebird | ||
+ | Fiat X1-9 | ||
+ | Porsche 914-2 | ||
+ | Lotus Europa | ||
+ | Ford Pantera L 15.8 8 351.0 264 4.22 3.170 14.50 0 1 5 4 | ||
+ | Ferrari Dino 19.7 6 145.0 175 3.62 2.770 15.50 0 1 5 6 | ||
+ | Maserati Bora | ||
+ | Volvo 142E 21.4 4 121.0 109 4.11 2.780 18.60 1 1 4 2 | ||
+ | </ | ||
+ | {{: | ||
+ | |||
+ | |||
+ | < | ||
attach(mtcars) | attach(mtcars) | ||
plot(wt, mpg, main=" | plot(wt, mpg, main=" | ||
Line 39: | Line 138: | ||
| | ||
- | {{:c:ps1-1:2019:pasted:20190909-075028.png}} | + | {{:b:head_first_statistics:pasted:20240904-083016.png}} |
explanatory (설명) variable at x axis | explanatory (설명) variable at x axis | ||
Line 47: | Line 146: | ||
Drawing a line among the data. | Drawing a line among the data. | ||
+ | |||
< | < | ||
abline(lm(mpg~wt), | abline(lm(mpg~wt), | ||
- | lines(lowess(wt, | + | </ |
- | {{:c:ps1-1:2019:pasted:20190909-075639.png}} | + | {{:b:head_first_statistics:pasted:20240904-083157.png}} |
+ | |||
+ | Outlier에 대한 주의 | ||
+ | [{{: | ||
+ | <WRAP clear /> | ||
Line 63: | Line 167: | ||
{{: | {{: | ||
- | Line can be: | ||
- | |||
- | **__관계의 방향 (direction)__** | ||
- | ^ 관계의 방향 | ||
- | | {{: | ||
- | |||
- | |||
- | **__관계의 모양 (shape)__** | ||
- | ^ 관계의 모양 | ||
- | | {{: | ||
- | |||
- | **__관계의 정도 (힘)__** | ||
- | ^ 관계의 정도 (힘) ^^ | ||
- | | [{{: | ||
- | | [{{: | ||
- | <WRAP clear /> | ||
- | Pearson' | ||
- | __Relations, | ||
- | [{{: | ||
<WRAP clear /> | <WRAP clear /> | ||
- | __Interpretation with limited range__ | + | ====== Presentation ====== |
- | [{{: | + | For a very good example, see |
- | [{{: | + | |
- | 데이터의 [[Range]]에 대한 판단에 신중해야 한다. 왜냐 하면, 데이터의 어느 곳을 자르느냐에 따라서 r 값이 심하게 변하기 때문이다. | + | |
- | <WRAP clear /> | + | |
- | __Outliers__ | + | |
- | [{{: | + | |
- | [{{: | + | |
- | 위의 설명과 관련하여, | + | |
- | [{{: | + | |
- | + | ||
- | make it sure that there is __no data entry error__. | + | |
- | {{: | + | |
- | + | ||
- | + | ||
- | <WRAP clear /> | + | |
- | + | ||
- | see | + | |
https:// | https:// | ||
- | | + | * Life expectancy data: {{: |
- | {{: | + | |
- | | + | |
- | <code> | + | <WRAP clear/> |
- | le <- as.data.frame(read.csv(" | + | ====== Histogram skewedness ====== |
- | colnames(le)[1] <- " | + | |
- | lea <- le$X2017 | + | |
- | leb <- lea[complete.cases(lea)] | + | |
- | hist(leb, color=" | + | |
- | </ | + | |
- | [{{: | ||
- | |||
- | [{{: | ||
[{{: | [{{: | ||
+ | <WRAP clear/>. | ||
[{{: | [{{: | ||
+ | <WRAP clear/>. | ||
+ | ====== box plot ====== | ||
- | box plot | ||
< | < | ||
# Boxplot of MPG by Car Cylinders | # Boxplot of MPG by Car Cylinders |
b/head_first_statistics/visualization.1599449417.txt.gz · Last modified: 2020/09/07 12:30 by hkimscil