DATA ARTICLE : 2
LEARNING ARTICLE : 4
6 Weeks in Review
2 Weeks in Publication
Open Access
Peer Reviewed
eISSN 0000-0000

[ LEARNING ]

저온숙성 전후 딸기의 당도 비교

저온숙성 전 딸기 당도
저온숙성 후 딸기 당도
저온 숙성 전후 딸기 산점도

CONTENTS

Comparison of strawberry sugar content before and after cold aging

박근철, 양윤원

제1저자: ORCID 0000-0002-3121-1113, DocuHut Co. Ltd., Seoul, Republic of Korea
제2저자: DataLink Seoul, Republic of Korea
Received Date: 2023-03-31, Revised Date: 2023-04-30, Accepted Date: 2023-05-30, Published Date: 2023-06-15
Article: 24711, Code: 24712, Data: 24713
Park GC, Yang YW. Data Type. Data Science 2024;1:1
Print
구글문서

요약

딸기의 당도는 딸기의 상품가치 및 가격과 직결되는 중요한 변수이다. 저온숙성을 하면 딸기의 당도가 높아지는 지를 연구하였다. 당도를 확률변수로 하고 딸기 20개를 표본으로 하여 당도를 관측하였다. 저온숙성 전후 대응된 두 표본의 딸기 당도의 분포를 비교해서, ‘저온숙성을 하면 딸기 당도가 향상될 것이다’라는 연구가설을 검정하였다. 저온숙성 전후 당도 차이를 새로운 확률변수로 하여 대응표본 t검정으로 검정한 결과, 유의미한 차이를 보였다(p=0.001). 이번 연구를 통해 저온숙성을 하면 딸기 당도가 향상됨을 알게 되었다.

Keywords

저온숙성, 딸기당도, 두 집단 모평균 비교, 대응표본 t검정

모델링

가설

‘저온숙성을 하면 딸기 당도가 향상된다’라는 연구가설로부터, ‘저온숙성 사전-사후 딸기의 당도 차이 모평균은 0이다’라는 귀무가설을 도출하였다. 이 귀무가설의 대립가설은 ‘저온숙성 전후 딸기의 당도 차이 모평균은 0이 아니다’이다.

확률변수

가설을 검정하기 위해 당도를 확률변수로 모델링하였다. 당도를 측정하는 측정기의 단위로는 브릭스(Brix)를 사용하였다. 브릭스를 단위로 하는 당도측정기의 척도(scale)유형은 비율척도이다. 브릭스는 과일의 당의 농도를 표현하는 단위로 널리 쓰이며 용액 100 g에 1 g의 당이 포함된 용액을 1 Brix로 표현한다.

실험설계

딸기는 광합성을 통해 당도를 축적하는데, 저온상태에서 딸기를 숙성시키면, 과육이 단단해지고 당도가 높아지는 것으로 알려져 있다. 따라서 저온숙성을 딸기 당도의 변화를 일으키는 중재(처리, intervention)로 모델링하였다. 그리고 당도 확률분포의 완전확률화를 위해 유전적인 요인만 반영되도록 실험설계를 하였다. 관측하는 딸기의 광합성조건과 생장조건을 같도록 하였고 딸기 품종의 영향을 배제하기 위해 같은 품종의 딸기를 관측하였다. 가설을 대응표본 t검정으로 검정하기 위해서 20개의 딸기, 각각의 저온숙성을 하기 전과 후의 당도를 관측하였다.

데이터

데이터수집

상품가치의 관점에서 딸기의 상품가치를 평가하는 속성을 관심있는 결과변수로 하여, 그 결과변수의 원인이 되는 변수를 찾는 능력을 배양하기 위한 실습 루틴을 개발하는 프로젝트의 모집단 생성 모델[1]에 따라 생성한 가상 딸기 데이터셋[2]으로부터 저온숙성 전후의 당도 데이터 각각 20개씩을 추출하였다. Table 1에 저온숙성 사전과 사후의 딸기의 당도 데이터를 정리하였다. 

Table 1. Data

딸기ID 사전 당도(Brix) 사후 당도(Brix)
1 12.8 13.4
2 12.0 11.9
3 12.1 12.4
4 13.3 13.3
5 13.2 13.7
6 12.7 12.8
7 11.9 12.0
8 12.1 12.3
9 12.2 12.3
10 11.8 12.0
11 12.6 12.9
12 12.9 13.0
13 12.1 12.7
14 12.0 11.9
15 12.7 13.2
16 11.6 11.6
17 12.1 12.4
18 11.8 11.6
19 12.5 12.8
20 12.1 12.2

데이터시각화

2차원 산점도를 그려서, 저온숙성 사전과 사후의 딸기의 당도 분포를 탐색하였다.

데이터분석

가설검정

연구주제: 저온숙성을 하면 딸기 당도가 향상된다.

귀무가설: 저온숙성 사전과 사후 딸기의 당도 차이 모평균은 0이다.

귀무가설이 옳다면, 저온숙성 사전과 사후 딸기의 당도 차이는 t분포로 모델링할 수 있다.

표본을 통해 관측한 검정통계량은 3.78이며, 유의확률은 0.001이다.

만일 유의수준을 0.05로 하면, 유의확률이 유의수준보다 작으므로, 귀무가설을 기각한다.

귀무가설이 기각되었으므로 대립가설을 채택한다.

검정결과

저온숙성 사전과 사후의 딸기 당도를 대응표본 t검정으로 검정한 결과, 유의미한 차이를 보였다(p=0.001). 기존에 알려져 있던 겨울철 딸기의 당도가 더 높다[3]는 주장에 대해 구체적인 데이터를 분석함으로써, 저온숙성 전후의 당도 차이에 대한 보다 정확한 정보를 제공할 수 있게 되었다. 이를 통해 딸기를 생산하는 생산자와 적정 가격을 지불하고 소비하는 소비자들의 의사결정에 도움이 될 것으로 기대한다.

참고문헌

데이터링크 내 참고문헌

1. Park GC, Yang YW. 2024. The product value of strawberry. DataLink Forum 2024:p1. https://doi.org/10.12972/DataLink.2024.p1

2. Park GC, Yang YW. 2024. A virtually created strawberry product value dataset for data science learning. DataLink Forum 2024:a1. https://doi.org/10.12972/DataLink.2024.a1

외부 참고문헌

3. Middle Class. 2024. 10 Korean Strawberry Varieties: Seolhyang, King’s Berry, Sancheong & More. Accessed in https://middleclass.sg/treats/korean-strawberry-varieties/ on 9 October 2024.

본인의 Google 계정으로 구글시트를 복사

본인의 Google 계정으로 구글시트를 복사

[Related DATA ARTICLE]

데이터사이언스 학습을 위해 생성한 가상 딸기 데이터셋

[Related PROJECT]

딸기의 상품가치

[Related ROUTINE]

딸기의 품종별 출하월 확률분포의 독립성: 교차분석 카이제곱분석
딸기의 당도와 과중 회귀직선의 적합성: 단순선형회귀분석 F검정
딸기의 당도와 과중 상관의 유의성: 상관분석 t검정
출하월에 따른 딸기의 당도 비교: 일원분산분석 F검정
두 품종 딸기의 당도 비교: 독립표본 t검정
저온숙성 전후 딸기의 당도 비교: 대응표본 t검정

[Q&A]

딸기의 속성 중에서 당도를 딸기의 가치를 나타내는 변수로 볼 수 있다고 가정할 수 있습니다.

유전적으로 결정된다면 확률변수로 볼 수 있습니다. 당도를 중심경향성이 있는 확률변수로 본다면 유전적으로 당도의 평균과 분산이 결정된다고 모델링합니다

저온숙성이 딸기의 당도를 향상시키는 지를 연구한 논문이 발표되었습니다. 저온숙성을 당도의 변화를 일으키는 범주형 원인변수로 본다면 저온숙성은 “한다”. “안한다”라는 이분형변수(binomial variable)의 값(data)을 가집니다.

당도의 측정에서는 주로 Brix척도가 사용됩니다. Brix척도는 용액 100g당 설탕의 g수 입니다. Brix척도의 유형은 단위가 %인 비례척도입니다.

초등학생의 보드게임 사전과 사후의 수학적 창의력 점수 차이입니다.

절대 0이 없는 간격척도로 구한 데이터를 비교할 수 있게 해줍니다.

귀무가설에서의 “0”은 두 모집단의 평균 차이가 없음을 나타내며, 이는 통계적으로 “원점” 또는 “기준점”으로 간주합니다.

일반적으로 독립표본에서의 새로운 확률변수의 분산이 대응표본에서의 새로운 확률변수의 분산보다 더 크다고 할 수 있습니다. 이는 독립표본의 경우 두 모집단의 변동성이 모두 분산에 기여하기 때문입니다. 다르게 표현하면 대응표본에서는 공분산으로 표현되는 두 집단의 변동성이 있기 때문입니다. 즉 기울기가 발생하기 때문입니다.

표준편차의 단위는 데이터의 원 단위를 유지하기 때문에, 그것을 데이터 집합의 변동성을 나타내는 ‘단위’로 사용할 수 있습니다. 결론적으로, 표준편차를 단위로 사용하는 것은 엄밀히 말하면, 정확하지 않지만 특정 상황에서는 유용하게 활용될 수 있습니다. 사용 전에 주의 사항을 숙지하고, 필요에 따라 다른 방법을 함께 사용하는 것이 바람직합니다.

독립표본은 독립된 두개 이상의 범주를 가짐을 의미합니다. 대응표본은 개체가 연결되어 있는 범주가 두개 이상의 범주를 가짐을 의미합니다. 따라서 대응표본은 같은 한 집단의 시간이나 공간의 이동으로 인한 변동의 정보가 반영되어 있습니다.