机器学习程序代码大全

以下是常用的机器学习代码示例（Python），涵盖数据预处理、模型训练、评估及可视化等关键步骤：

1. 数据预处理

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 加载数据
data = pd.read_csv('data.csv')

# 处理缺失值
data = data.fillna(data.mean())  # 用均值填充数值型缺失值

# 划分特征与标签
X = data.drop('target', axis=1)
y = data['target']

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# 特征标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

2. 逻辑回归分类

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# 创建模型
model = LogisticRegression(max_iter=1000)

# 训练模型
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估
print("准确率:", accuracy_score(y_test, y_pred))

3. 随机森林回归

from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error

# 训练模型
reg = RandomForestRegressor(n_estimators=100, random_state=42)
reg.fit(X_train, y_train)

# 预测与评估
y_pred = reg.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print("均方误差:", mse)

4. 支持向量机（SVM）

from sklearn.svm import SVC
from sklearn.metrics import classification_report

# 训练模型
svm_model = SVC(kernel='rbf', C=1.0)
svm_model.fit(X_train, y_train)

# 输出详细评估报告
print(classification_report(y_test, svm_model.predict(X_test)))

5. K均值聚类

from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

# 初始化模型
kmeans = KMeans(n_clusters=3, random_state=42)
clusters = kmeans.fit_predict(X_train)

# 可视化聚类结果
plt.scatter(X_train[:,0], X_train[:,1], c=clusters, cmap='viridis')
plt.show()

6. 神经网络（使用TensorFlow/Keras）

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# 创建模型
model = Sequential([
    Dense(64, activation='relu', input_shape=(X_train.shape[1],)),
    Dense(32, activation='relu'),
    Dense(1, activation='sigmoid')  # 二分类输出层
])

# 编译模型
model.compile(optimizer='adam',
              loss='binary_crossentropy',
              metrics=['accuracy'])

# 训练模型
history = model.fit(
    X_train, y_train,
    epochs=50,
    batch_size=32,
    validation_split=0.2
)

# 评估测试集
test_loss, test_acc = model.evaluate(X_test, y_test)
print("测试集准确率:", test_acc)

7. 主成分分析（PCA）降维

from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

# 降维到2D
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_train)

# 可视化降维结果
plt.scatter(X_pca[:,0], X_pca[:,1], c=y_train)
plt.show()

关键库说明：

Scikit-learn：传统机器学习算法（分类/回归/聚类）
Pandas：数据处理与清洗
NumPy：科学计算基础库
Matplotlib/Seaborn：数据可视化
TensorFlow/Keras：深度学习模型构建

典型应用场景：

任务类型	推荐算法
图像分类	CNN（卷积神经网络）
文本分类	LSTM/Transformer
结构化数据预测	XGBoost/Random Forest
无标签数据分组	K-Means/DBSCAN
降维可视化	PCA/t-SNE