步骤:
1. 导入库:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
2. 准备数据:
# 读取数据集
data = pd.read_csv('your_dataset.csv')
# 分割特征和标签
X = data.drop('target_column', axis=1)
y = data['target_column']
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
3. 选择模型并训练:
# 选择线性回归模型
model = LinearRegression()
# 训练模型
model.fit(X_train, y_train)
4. 模型评估:
# 在测试集上进行预测
y_pred = model.predict(X_test)
# 计算均方误差(Mean Squared Error)
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse}')
# 计算决定系数(R-squared)
r2 = r2_score(y_test, y_pred)
print(f'R-squared: {r2}')
- 均方误差(Mean Squared Error,MSE): 衡量模型预测值与实际值之间的平方差的平均值,越小越好。
- 决定系数(R-squared): 衡量模型对目标变量方差的解释程度,取值范围在0到1之间,越接近1表示模型拟合得越好。
5. 可视化结果(可选):
import matplotlib.pyplot as plt
# 绘制真实值与预测值的散点图
plt.scatter(y_test, y_pred)
plt.xlabel("True Values")
plt.ylabel("Predictions")
plt.show()
这个示例使用了线性回归模型,但根据任务的性质,你可能还需要尝试其他回归模型,如岭回归、Lasso回归、决策树回归、随机森林回归等。选择模型时应根据数据的特点和性质进行选择,并通过交叉验证等手段来评估模型的性能。
转载请注明出处:http://www.pingtaimeng.com/article/detail/12008/AI人工智能