根据人口统计数据预测客户生命周期价值是一个回归问题。我总共有14个X变量,它们是分类和数值数据的混合。
X = ['Coverage', 'Education', 'EmploymentStatus', 'Income',
'Marital Status', 'Months Since Last Claim',
'Months Since Policy Inception', 'Number of Open Complaints',
'Number of Policies', 'Renew Offer Type', 'Vehicle Class',
'Vehicle Size', 'Monthly Premium Auto_boxcox',
'Total Claim Amount_boxcox']
y = ['Customer Lifetime Value_boxcox']
想法是建立一个表单,在该表单中可以在表单中输入X变量,并且Flask模型将预测客户生命周期价值。当前,如您所见,每月保费自动和总索赔额数据高度右偏,因此该数据已使用boxcox进行了转换。但是如何转换用户的输入数据?
此外,客户生命周期价值也用boxcox转换,结果需要未转换为原始美元价值。我是使用spyder和flask来建立这个的,灵感来自https://www.youtube.com/watch?v=UbCWoMf80PY
下面是我所有的代码文件,供您参考:数据,app.py,model.py,index.html:https://drive.google.com/open?id=1XHwX-AlDlzo_crhG5EIA8LEfVhtGpSmZ
任何使这个前端更好的帮助他都会很棒。预先谢谢!
PS:我已阅读有关在构建模型时使用request.py或Pipeline进行预处理的信息,但我不确定boxcox将如何落入原位以及如何取消转换客户生命周期价值。另外,我对此绝对陌生,请您尽可能简化您的答案。
我不知道答案!但我会尽量注意。
谢谢