from sklearn.datasets import make_classification
x, y = make_classification(n_samples=10000, n_classes=2, n_features=60, n_informative=30, n_redundant=30,
n_clusters_per_class=2, weights=[0.95, ], class_sep=2)
y[y == 1] = -1
y[y == 0] = 1
n_samples: 生成的样本数量,默认值为100。
n_features: 生成的特征数量,默认值为20。
n_informative: 生成特征中有意义的特征数量,默认值为10。
n_redundant: 生成特征中冗余的特征数量,默认值为0。
n_repeated: 生成特征中重复的特征数量,默认值为0。
n_classes: 生成的分类数量,默认值为2。
n_clusters_per_class: 每个分类中的簇数量,默认值为1。
weights: 每个分类的权重,默认值为None,即每个分类的权重相等。
比如分为两类,默认分类是0、1、2....
第一类占比90% ,weights=[0.9, ]
class_sep: 不同分类之间的距离,默认值为1.0。
random_state: 随机种子,用于重复实验。
shuffle: 是否打乱数据,默认值为True。
flip_y: 是否将标签随机翻转,默认值为0。
noise: 添加到数据中的噪声量,默认值为None。
shuffle: 是否打乱数据,默认值为True。