手机浏览器扫描二维码访问
巧妇难为无米之炊,数据就是机器学习的“米”。
- 数据收集:比如要做推荐系统,得收集用户的浏览记录、点击行为;要做疾病预测,得收集病人的病历、检查报告。
- 数据预处理:这步特别关键,就像淘米要去沙。包括:
- 处理缺失值:比如某个人的年龄没填,得想办法补上或删掉。
- 处理异常值:比如收入里突然出现一个“1亿”,明显不合理,得处理掉。
- 特征缩放:比如身高是“170cm”,体重是“60kg”,单位和数值范围不一样,得统一缩放(比如都缩到0-1之间),不然模型会“偏心”。
2. 特征工程:给数据“化妆”,让模型看得更清楚
“特征”就是数据里的关键信息。比如判断西瓜好坏,“色泽、根蒂、敲声”就是特征。特征工程是从原始数据里提炼出有用特征的过程,直接影响模型效果。
- 有时候要人工设计特征:比如把“日期”拆成“星期几”“是否节假日”。
- 有时候用算法自动提取特征:比如深度学习里的CNN,能自动从图像里提取“边缘、形状”这些特征,不用人类操心。
3. 模型训练:让机器“刷题涨本事”
选好算法(比如决策树、神经网络),把处理好的数据喂给它,机器就开始“学习”了。它会不断调整内部参数,让预测结果和真实情况越来越接近。
- 训练过程中,得注意过拟合和欠拟合:
- 欠拟合:模型太“笨”,连训练数据都没学好,比如把所有邮件都当成正常邮件。
- 过拟合:模型太“教条”,把训练数据里的噪声也学进去了,比如只认识训练过的那几张人脸,换张角度就不认识了。
解决方法也不少,比如“正则化”(给模型加约束,不让它学太细)、“增加数据量”“模型简化”等。
4. 模型评估:给机器“考试”打分
训练好的模型得测试一下准不准。常用的指标有:
- 准确率(Accuracy):预测对的比例,比如100个邮件,90个判对了,准确率就是90%。但它在“数据不平衡”时不准,比如垃圾邮件只有5%,模型全判正常,准确率也有95%,但没用。
师清浅,原名霍清浅,原是外门第一修仙世家霍家的独女,清冷矜贵,天生仙体,百日筑基翌日结丹,天赋异禀堪称千万年来修仙界第一人。即使后来被发现她是掉包了霍家真千金阿翎位置的假千金,也没人...
大道伴生的南蔷是魔,以情爱为零食、肆意游走在各个小世界的魔!--原创女主,短篇。抄墓碑(阿ken)1912年的钢铁巨兽(无cp以及喜欢露丝的千万不要看)尤家有四女(水溶)僵尸先生(秋生)在山的那边有一群小红帽以德服人的九门提督新扎师妹(区海文)开封府的猫恶作剧的韦斯莱恐怖故事2公公是假公公(进忠)九首蛇身(相柳)行......
一个帮派打手混混,死后穿越成了一名警探组长。本想重走老路,但绑定了一个破案系统,破案就会获得奖励与抽奖。从此,一代神探横空出世,不论是谋杀、悬案、冤案,在他手里无所遁形。杀人犯:这警探学过解剖学的吧,教我怎么杀人!混混:我怎么感觉这警官比我更像个混混!同事:李禹脾气暴躁,做事鲁莽,真的是个暴徒,哪个罪犯落他手里,也......
上辈子林俞为了个男人和家里决裂远走,被背叛,被人踩在脚底肆意侮辱,死后空荡飘零,灵魂归不了故里。 没成想一朝梦醒重生。 那一年父亲还没早亡,母亲温柔娴静,祖辈尚在,阖家美满。 决心再不重蹈覆辙的林俞,致使九十年代初的建京木雕大户林家,最近人仰马翻。 家里粉雕玉琢娇养的小儿子,总是黏人不说,金豆子说掉就掉。 算命先生断言—— 邪灵入体,需找合适人家镇压。 然后奶团子就被塞进了隔壁老闻家,闻家是驻地军户,阳气最盛。 然后所有人就看着奶团子冲出去,抱住了人连家刚放学的独生子。 “哥哥。”他埋在少年的脖颈处软声喊道。 这是他在后来千疮百孔的人生中,模糊了记忆。 那个多年不见,到了最后却从部队千里赶来为他敛尸入棺的人。 …… 坚韧可爱受x学霸偶像攻 青梅竹马养成系团宠文 1v1,he...
作为一个基本活不过几章的龙套,如何生存下去呢?1、降低存在感,成为小透明,你看不见我,看不见我。2、变强。主世界:莽荒纪。龙套世界:九鼎记,斗破苍穹,沧元图,吞噬星空,盘龙,遮天等...
预谋心动情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的都市言情小说,预谋心动-月初姣姣-小说旗免费提供预谋心动最新清爽干净的文字章节在线阅读和TXT下载。...