DATA ARTICLE : 1
LEARNING ARTICLE : 6
6 Weeks in Review
2 Weeks in Publication
Open Access
Peer Reviewed
DATALINK FORUM eISSN

[ LEARNING ]

딸기의 당도와 과중 상관의 유의성

목차

Significance of the correlation between strawberry sweetness and weight

박근철, 양윤원

제1저자: ORCID 0000-0002-3121-1113, DocuHut Co. Ltd., Seoul, Republic of Korea
제2저자: DataLink Seoul, Republic of Korea
Received Date: 2023-03-31, Revised Date: 2023-04-30, Accepted Date: 2023-05-30, Published Date: 2023-06-15
Article: 24711, Code: 24712, Data: 24713
Park GC, Yang YW. Data Type. Data Science 2024;1:4
Print
구글문서

요약

본 연구는 딸기의 과중과 당도 사이에 존재하는 선형적 상관관계를 규명하기 위해 100개 표본을 이용하여 Pearson 상관분석을 수행하였다. 그 결과 상관계수는 약 0.955로 높은 양의 상관관계를 나타냈으며, p값은 1.65×10^-53으로 유의수준보다 훨씬 작아 통계적으로 유의미함이 확인되었다. 이는 딸기의 무게가 증가할수록 당도가 높아질 가능성이 크다는 점을 시사한다. 또한, 과중이 큰 딸기가 소비자의 기호도를 높이는 요인이 될 수 있음을 보여주어, 품종 선택이나 재배 과정에서 과중 관리가 중요한 요소임을 시사한다. 연구 결과는 농가의 생산전략부터 마케팅까지 다양한 분야에서 적용 가능성을 가진다. 환경적 요인과의 교차 검증이 추가로 이루어진다면, 딸기의 품질 향상에 더욱 기여할 수 있을 것으로 기대된다

Keywords

상관분석 t검정

모델링

가설

본 연구의 주요 관심사는 딸기의 당도와 과중 사이에 유의미한 상관이 존재하는가이다. 이를 위해 다음과 같은 가설을 설정하였다.

귀무가설

$H_0$: 딸기의 당도와 과중 간에는 상관이 없다(상관계수 = 0)

대립가설
$H_1$: 딸기의 당도와 과중 간에는 유의한 양(+)의 상관이 있다(상관계수 ≠ 0, 특히 본 연구에서는 양의 상관을 가정).

확률변수

확률변수 $X$: 딸기의 과중 (g 단위 측정)
확률변수 $Y$: 딸기의 당도 (Brix 단위 측정)

과중과 당도 모두 연속형 확률변수이며, 이 둘 사이의 잠재적 상관관계를 파악하기 위해 Pearson 상관분석을 수행하였다.

실험설계

본 연구에서는 무작위로 선정된 100개의 딸기에 대해 과중과 당도를 측정하였다. 측정방식은 다음과 같다.

과중 측정: 전자저울을 통해 각 딸기의 무게(gram 단위)를 측정함.

당도 측정: 휴대용 당도계(굴절당도계)를 사용하여 각 딸기의 당도를 측정함.

데이터는 주변 환경 변화(온도, 습도 등)를 최소화하기 위해 동일한 시간대와 동일한 장소에서 측정하였으며, 각 측정은 반복 측정을 통해 대표값을 취하였다.

데이터

데이터수집

총 100개의 딸기에 대해 과중(과중 열)과 당도(당도 열)를 수집하였다. 각 행은 하나의 딸기에 대응된다.

Table 1. Data

과중 당도
23.477654 11.984464
23.561780 11.756555
24.219264 12.298434
23.956901 12.185532
23.927044 12.002322
24.167261 11.675913
23.975257 12.117543
23.875119 12.352401
24.096041 11.651429
23.998601 12.088580
23.848615 12.684272
24.075743 12.170982
23.868979 12.000176
24.254491 11.599561
23.727020 12.152003
24.224991 12.342920
24.317190 12.298854
24.089727 12.302259
23.752103 11.983845
23.858291 12.067566
22.716392 11.245223
22.633502 11.240891
22.458927 11.207902
23.065475 11.450795
23.038966 11.377561
22.995760 11.300798
22.440756 11.593380
22.665328 11.432723
23.020929 11.433768
23.112095 11.266975
22.656817 11.519542
23.294296 11.606718
22.851577 11.788995
22.950737 11.483815
22.456223 11.700757
22.315478 11.193873
22.956911 11.577469
22.601784 11.670103
22.881271 11.868499
22.761595 11.399974
21.501315 10.709763
21.243480 10.919553
21.275626 10.557661
21.373443 10.997242
21.685143 10.637308
21.578411 10.959106
21.579023 10.945229
21.642908 10.614720
21.602002 10.942234
21.133722 10.674185
21.680464 10.553010
21.256418 10.732836
21.177809 10.483874
21.457995 10.780610
21.017263 11.028639
21.620883 11.187130
21.373690 10.340299
21.522017 10.490617
21.756899 10.736306
21.756747 11.023264
20.618732 9.945955
20.261126 10.058145
20.692055 9.905889
20.859352 9.744073
20.120983 10.089460
20.146729 10.159029
20.765715 10.090494
20.460829 10.293159
20.726271 10.002184
20.726369 9.989168
20.407348 10.237475
20.229023 10.217754
20.552695 10.204866
20.656186 9.957379
20.159894 10.298349
20.257409 10.167729
20.584918 10.108519
20.566055 9.857364
20.595051 10.321934
20.558494 10.421176
18.892416 9.922738
18.927040 9.773799
18.910693 9.324055
18.948171 9.971426
19.372785 9.541536
19.096166 9.703326
18.981050 9.587585
18.943279 9.862873
19.286198 9.688667

데이터시각화

데이터를 시각적으로 확인하기 위해 과중(가로축)과 당도(세로축) 간 산점도를 그렸다.

전반적으로 과중이 증가함에 따라 당도가 함께 증가하는 경향을 시각적으로 확인할 수 있다.

본 연구는 딸기의 당도와 과중 간의 상관관계를 Pearson 상관분석으로 살펴본 결과, 통계적으로 유의미한 강한 양의 상관이 존재함을 확인하였다. 본 결과는 딸기의 품종 선택 및 재배 환경 설정 시 당도와 과중 간의 상호 관련성을 고려해야 함을 시사한다.

추가적으로, 품질 관리나 마케팅 전략을 수립할 때도 ‘과중’이 높으면 ‘당도’가 높을 가능성이 있음을 감안하여, 소비자 기호도에 적합한 크기와 당도를 갖춘 최적의 딸기 생산을 위한 연구로 확장될 수 있다.

데이터분석

가설검정

당도($Y$)와 과중($X$) 사이의 상관성을 상관분석으로 검정하였다. Pearson 상관분석은 두 연속형 변수 간의 선형적 상관관계를 측정하며, 그 값은 -1과 +1 사이에 존재한다.본 논문의 가설은 다음과 같다.

귀무가설: 상관계수 = 0 (두 변수는 상관이 없다)
대립가설 $H_1$:상관계수 ≠ 0 (두 변수는 유의한 상관이 있다)

분석 결과, 표본 Pearson 상관계수와 p값은 다음과 같다.

Pearson 상관계수: 0.9550 (소수점 네째자리 반올림)
p값: 1.6521 × 10^-53

검정결과

상관계수 0.955는 딸기의 과중과 당도 사이에 매우 강한 양의 상관이 있음을 의미합니다.
p값이 1.6521 × 10^-53로 유의수준(예: 0.05, 0.01 등)보다 훨씬 작습니다. 이는 귀무가설($H_0$: 상관 없음)을 기각하고, 대립가설($H_1$: 상관 있음)을 강력하게 지지함을 의미한다.
즉, 본 연구에서 관측된 딸기의 과중과 당도 간에는 통계적으로 유의한 양의 상관관계가 있음을 알 수 있습니다. 이는 딸기의 무게가 클수록 당도가 높아지는 경향이 있음을 시사한다.

본 연구는 딸기의 당도와 과중 간의 상관관계를 Pearson 상관분석으로 살펴본 결과, 통계적으로 유의미한 강한 양의 상관이 존재함을 확인하였다. 본 결과는 딸기의 품종 선택 및 재배 환경 설정 시 당도와 과중 간의 상호 관련성을 고려해야 함을 시사한다.

추가적으로, 품질 관리나 마케팅 전략을 수립할 때도 ‘과중’이 높으면 ‘당도’가 높을 가능성이 있음을 감안하여, 소비자 기호도에 적합한 크기와 당도를 갖춘 최적의 딸기 생산을 위한 연구로 확장될 수 있다.

참고문헌

데이터링크 내 참고문헌

1. Park GC, Yang YW. 2024. The product value of strawberry. DataLink Forum 2024:p1. https://doi.org/10.12972/DataLink.2024.p1

2. Park GC, Yang YW. 2024. A virtually created strawberry product value dataset for data science learning. DataLink Forum 2024:a1. https://doi.org/10.12972/DataLink.2024.a1

외부 참고문헌

3. Middle Class. 2024. 10 Korean Strawberry Varieties: Seolhyang, King’s Berry, Sancheong & More. Accessed in https://middleclass.sg/treats/korean-strawberry-varieties/ on 9 October 2024.

본인의 Google 계정으로 구글시트를 복사

본인의 Google 계정으로 구글시트를 복사

[Q&A]

딸기의 속성 중에서 당도를 딸기의 가치를 나타내는 변수로 볼 수 있다고 가정할 수 있습니다.

유전적으로 결정된다면 확률변수로 볼 수 있습니다. 당도를 중심경향성이 있는 확률변수로 본다면 유전적으로 당도의 평균과 분산이 결정된다고 모델링합니다

당도의 측정에서는 주로 Brix척도가 사용됩니다. Brix척도는 용액 100g당 설탕의 g수 입니다. Brix척도의 유형은 단위가 %인 비례척도입니다.

절대 0이 없는 간격척도로 구한 데이터를 비교할 수 있게 해줍니다.

귀무가설에서의 “0”은 두 모집단의 평균 차이가 없음을 나타내며, 이는 통계적으로 “원점” 또는 “기준점”으로 간주합니다.

일반적으로 독립표본에서의 새로운 확률변수의 분산이 대응표본에서의 새로운 확률변수의 분산보다 더 크다고 할 수 있습니다. 이는 독립표본의 경우 두 모집단의 변동성이 모두 분산에 기여하기 때문입니다. 다르게 표현하면 대응표본에서는 공분산으로 표현되는 두 집단의 변동성이 있기 때문입니다. 즉 기울기가 발생하기 때문입니다.

표준편차의 단위는 데이터의 원 단위를 유지하기 때문에, 그것을 데이터 집합의 변동성을 나타내는 ‘단위’로 사용할 수 있습니다. 결론적으로, 표준편차를 단위로 사용하는 것은 엄밀히 말하면, 정확하지 않지만 특정 상황에서는 유용하게 활용될 수 있습니다. 사용 전에 주의 사항을 숙지하고, 필요에 따라 다른 방법을 함께 사용하는 것이 바람직합니다.

독립표본은 독립된 두개 이상의 범주를 가짐을 의미합니다. 대응표본은 개체가 연결되어 있는 범주가 두개 이상의 범주를 가짐을 의미합니다. 따라서 대응표본은 같은 한 집단의 시간이나 공간의 이동으로 인한 변동의 정보가 반영되어 있습니다.