我们对全国 4,000 个家庭进行了调查,样本取自几个州的少数城市。例如,在一个州内的几个城市,我们的样本量为 30。现在,只有城市人口作为已知因素,我想根据这个样本估算这些城市的总体消费量。我该怎么做?在城市之后我想预测整个国家的情况
如何才能仅通过 30 个家庭的样本量获得整个人口的数据。
为了根据此样本推断真实人口,我认为您可能需要比评论中提供的列更多的内容。但是,只有这个可用,我才会开始搜索您在此处显示的某些功能的描述性统计数据(针对您想要推断的城市/地区)。
假设某些特征呈正态分布,您可以对这些特征执行一些简单的假设检验。
示例:测试样本的平均收入水平是否与感兴趣的城市相同:
这里有一个片段:
from scipy import stats
sample_data = [...] # Your sample data
mean_city = # Mean of the city
# HP testing
t_statistic, p_value = stats.ttest_1samp(sample_data, mean_city)
# Output results
print("T-Statistic:", t_statistic)
print("P-Value:", p_value)
# Results
alpha = 0.05 # Set acceptance value (no more than 0.1)
if p_value < alpha:
print("Reject null hypothesis: The mean of the sample is significantly different.")
else:
print("Fail to reject null hypothesis: There is not enough evidence to suggest that the mean of the sample is different.")
回想一下,此类测试依赖于数据确实遵循正态分布的假设,因此也可以对此进行测试。如果不这样做,可能会采用其他类型的分布来执行测试。