본 연구의 주요 관심사는 딸기의 당도와 과중 사이에 유의미한 상관이 존재하는가이다. 이를 위해 다음과 같은 가설을 설정하였다.
귀무가설
$H_0$: 딸기의 당도와 과중 간에는 상관이 없다(상관계수 = 0)
대립가설
$H_1$: 딸기의 당도와 과중 간에는 유의한 양(+)의 상관이 있다(상관계수 ≠ 0, 특히 본 연구에서는 양의 상관을 가정).
확률변수 $X$: 딸기의 과중 (g 단위 측정)
확률변수 $Y$: 딸기의 당도 (Brix 단위 측정)
과중과 당도 모두 연속형 확률변수이며, 이 둘 사이의 잠재적 상관관계를 파악하기 위해 Pearson 상관분석을 수행하였다.
본 연구에서는 무작위로 선정된 100개의 딸기에 대해 과중과 당도를 측정하였다. 측정방식은 다음과 같다.
과중 측정: 전자저울을 통해 각 딸기의 무게(gram 단위)를 측정함.
당도 측정: 휴대용 당도계(굴절당도계)를 사용하여 각 딸기의 당도를 측정함.
데이터는 주변 환경 변화(온도, 습도 등)를 최소화하기 위해 동일한 시간대와 동일한 장소에서 측정하였으며, 각 측정은 반복 측정을 통해 대표값을 취하였다.
총 100개의 딸기에 대해 과중(과중 열)과 당도(당도 열)를 수집하였다. 각 행은 하나의 딸기에 대응된다.
Table 1. Data
과중 | 당도 |
---|---|
23.477654 | 11.984464 |
23.561780 | 11.756555 |
24.219264 | 12.298434 |
23.956901 | 12.185532 |
23.927044 | 12.002322 |
24.167261 | 11.675913 |
23.975257 | 12.117543 |
23.875119 | 12.352401 |
24.096041 | 11.651429 |
23.998601 | 12.088580 |
23.848615 | 12.684272 |
24.075743 | 12.170982 |
23.868979 | 12.000176 |
24.254491 | 11.599561 |
23.727020 | 12.152003 |
24.224991 | 12.342920 |
24.317190 | 12.298854 |
24.089727 | 12.302259 |
23.752103 | 11.983845 |
23.858291 | 12.067566 |
22.716392 | 11.245223 |
22.633502 | 11.240891 |
22.458927 | 11.207902 |
23.065475 | 11.450795 |
23.038966 | 11.377561 |
22.995760 | 11.300798 |
22.440756 | 11.593380 |
22.665328 | 11.432723 |
23.020929 | 11.433768 |
23.112095 | 11.266975 |
22.656817 | 11.519542 |
23.294296 | 11.606718 |
22.851577 | 11.788995 |
22.950737 | 11.483815 |
22.456223 | 11.700757 |
22.315478 | 11.193873 |
22.956911 | 11.577469 |
22.601784 | 11.670103 |
22.881271 | 11.868499 |
22.761595 | 11.399974 |
21.501315 | 10.709763 |
21.243480 | 10.919553 |
21.275626 | 10.557661 |
21.373443 | 10.997242 |
21.685143 | 10.637308 |
21.578411 | 10.959106 |
21.579023 | 10.945229 |
21.642908 | 10.614720 |
21.602002 | 10.942234 |
21.133722 | 10.674185 |
21.680464 | 10.553010 |
21.256418 | 10.732836 |
21.177809 | 10.483874 |
21.457995 | 10.780610 |
21.017263 | 11.028639 |
21.620883 | 11.187130 |
21.373690 | 10.340299 |
21.522017 | 10.490617 |
21.756899 | 10.736306 |
21.756747 | 11.023264 |
20.618732 | 9.945955 |
20.261126 | 10.058145 |
20.692055 | 9.905889 |
20.859352 | 9.744073 |
20.120983 | 10.089460 |
20.146729 | 10.159029 |
20.765715 | 10.090494 |
20.460829 | 10.293159 |
20.726271 | 10.002184 |
20.726369 | 9.989168 |
20.407348 | 10.237475 |
20.229023 | 10.217754 |
20.552695 | 10.204866 |
20.656186 | 9.957379 |
20.159894 | 10.298349 |
20.257409 | 10.167729 |
20.584918 | 10.108519 |
20.566055 | 9.857364 |
20.595051 | 10.321934 |
20.558494 | 10.421176 |
18.892416 | 9.922738 |
18.927040 | 9.773799 |
18.910693 | 9.324055 |
18.948171 | 9.971426 |
19.372785 | 9.541536 |
19.096166 | 9.703326 |
18.981050 | 9.587585 |
18.943279 | 9.862873 |
19.286198 | 9.688667 |
데이터를 시각적으로 확인하기 위해 과중(가로축)과 당도(세로축) 간 산점도를 그렸다.
전반적으로 과중이 증가함에 따라 당도가 함께 증가하는 경향을 시각적으로 확인할 수 있다.
본 연구는 딸기의 당도와 과중 간의 상관관계를 Pearson 상관분석으로 살펴본 결과, 통계적으로 유의미한 강한 양의 상관이 존재함을 확인하였다. 본 결과는 딸기의 품종 선택 및 재배 환경 설정 시 당도와 과중 간의 상호 관련성을 고려해야 함을 시사한다.
추가적으로, 품질 관리나 마케팅 전략을 수립할 때도 ‘과중’이 높으면 ‘당도’가 높을 가능성이 있음을 감안하여, 소비자 기호도에 적합한 크기와 당도를 갖춘 최적의 딸기 생산을 위한 연구로 확장될 수 있다.
당도($Y$)와 과중($X$) 사이의 상관성을 상관분석으로 검정하였다. Pearson 상관분석은 두 연속형 변수 간의 선형적 상관관계를 측정하며, 그 값은 -1과 +1 사이에 존재한다.본 논문의 가설은 다음과 같다.
귀무가설: 상관계수 = 0 (두 변수는 상관이 없다)
대립가설 $H_1$:상관계수 ≠ 0 (두 변수는 유의한 상관이 있다)
분석 결과, 표본 Pearson 상관계수와 p값은 다음과 같다.
Pearson 상관계수: 0.9550 (소수점 네째자리 반올림)
p값: 1.6521 × 10^-53
상관계수 0.955는 딸기의 과중과 당도 사이에 매우 강한 양의 상관이 있음을 의미합니다.
p값이 1.6521 × 10^-53로 유의수준(예: 0.05, 0.01 등)보다 훨씬 작습니다. 이는 귀무가설($H_0$: 상관 없음)을 기각하고, 대립가설($H_1$: 상관 있음)을 강력하게 지지함을 의미한다.
즉, 본 연구에서 관측된 딸기의 과중과 당도 간에는 통계적으로 유의한 양의 상관관계가 있음을 알 수 있습니다. 이는 딸기의 무게가 클수록 당도가 높아지는 경향이 있음을 시사한다.
본 연구는 딸기의 당도와 과중 간의 상관관계를 Pearson 상관분석으로 살펴본 결과, 통계적으로 유의미한 강한 양의 상관이 존재함을 확인하였다. 본 결과는 딸기의 품종 선택 및 재배 환경 설정 시 당도와 과중 간의 상호 관련성을 고려해야 함을 시사한다.
추가적으로, 품질 관리나 마케팅 전략을 수립할 때도 ‘과중’이 높으면 ‘당도’가 높을 가능성이 있음을 감안하여, 소비자 기호도에 적합한 크기와 당도를 갖춘 최적의 딸기 생산을 위한 연구로 확장될 수 있다.
1. Park GC, Yang YW. 2024. The product value of strawberry. DataLink Forum 2024:p1. https://doi.org/10.12972/DataLink.2024.p1
2. Park GC, Yang YW. 2024. A virtually created strawberry product value dataset for data science learning. DataLink Forum 2024:a1. https://doi.org/10.12972/DataLink.2024.a1
딸기의 속성 중에서 당도를 딸기의 가치를 나타내는 변수로 볼 수 있다고 가정할 수 있습니다.
유전적으로 결정된다면 확률변수로 볼 수 있습니다. 당도를 중심경향성이 있는 확률변수로 본다면 유전적으로 당도의 평균과 분산이 결정된다고 모델링합니다
당도의 측정에서는 주로 Brix척도가 사용됩니다. Brix척도는 용액 100g당 설탕의 g수 입니다. Brix척도의 유형은 단위가 %인 비례척도입니다.
절대 0이 없는 간격척도로 구한 데이터를 비교할 수 있게 해줍니다.
귀무가설에서의 “0”은 두 모집단의 평균 차이가 없음을 나타내며, 이는 통계적으로 “원점” 또는 “기준점”으로 간주합니다.
일반적으로 독립표본에서의 새로운 확률변수의 분산이 대응표본에서의 새로운 확률변수의 분산보다 더 크다고 할 수 있습니다. 이는 독립표본의 경우 두 모집단의 변동성이 모두 분산에 기여하기 때문입니다. 다르게 표현하면 대응표본에서는 공분산으로 표현되는 두 집단의 변동성이 있기 때문입니다. 즉 기울기가 발생하기 때문입니다.
표준편차의 단위는 데이터의 원 단위를 유지하기 때문에, 그것을 데이터 집합의 변동성을 나타내는 ‘단위’로 사용할 수 있습니다. 결론적으로, 표준편차를 단위로 사용하는 것은 엄밀히 말하면, 정확하지 않지만 특정 상황에서는 유용하게 활용될 수 있습니다. 사용 전에 주의 사항을 숙지하고, 필요에 따라 다른 방법을 함께 사용하는 것이 바람직합니다.
독립표본은 독립된 두개 이상의 범주를 가짐을 의미합니다. 대응표본은 개체가 연결되어 있는 범주가 두개 이상의 범주를 가짐을 의미합니다. 따라서 대응표본은 같은 한 집단의 시간이나 공간의 이동으로 인한 변동의 정보가 반영되어 있습니다.