协同训练,AI的自进阶能力!超兔
CRM-AI引擎,基于协同训练与自训练算法,当打标数据达到一定量时,三模型对数据的判断与处理形成了理想的关系,让AI引擎自动往前跑。
协同训练是半监督学习的常用算法之一,核心是通过多个学习器的相互协作探索无标记数据中的有效信息。
半监督学习常用两大算法:
1.自训练算法(Self-training):
首先,训练带有标记的数据,得到一个分类器;
其次,使用这个分类器对未标识的数据进行分类;
最后,根据分类结果,将可信程度较高的未标记数据及其预测标记加入训练集,扩充训练集规模,重新学习以得到新的分类器。
在超兔CRM行动判断客户意向AI引擎中,可以看到,启动的第一步就是:去打标。对crm内的行动描述进行标注,获得一定量的标记样本。例如,我们需要对1000条数据做预测,先对100条数据打标,形成训练模型。之后,此模型自训练剩下900条数据,形成预测。
当然,AI判断与人的判断会有所区别,训练模型使用概率做判断,而不是凭借经验,可以认为更加理性。
2.联合训练(Co-training),也叫协同训练
首先,需要根据已标记数据的不同特征来划分出不同的数据集;
其次,根据不同的数据集分别训练出不同的分类器;
最后,每个分类器用于无标识的数据集的分类,并且给出分类可信程度的概率值。
超兔CRM中,协同训练的流程:
① 将数据data平分成3份,如900条数据,对应三个数据:data1(300),data2(300),data3(300);
② 三种算法分别对三个数据进行训练。超兔CRM中,SVM对data1进行训练、贝叶斯对data2进行训练、逻辑回归对data3进行训练;
③ 得到三个模型;
④ 分别使用三个模型对未标注的数据进行逐条预测:
-
如果预测的结果全部相同,这条数据将加入到总训练数据中。换句话说,三个模型对同一条行动数据判断都为-1,系统才会认可此判断;
-
如果预测的结果有2个相同,例如:使用SVM和贝叶斯预测的结果为-1,逻辑回归预测的结果为0,此数据会进入到data3中,重新使用逻辑回归训练模型,实现对错误数据做自动修正。
-
如果预测的结果3个都不同,将跳过此条数据,等别的数据都预测结结束再预测这条。
可以看出,三
模型对数据的判断与处理关系,是协同训练的核心亮点,彻底摆脱人不断打标的制约,内部互相协同保证AI判断的正确率。它带来的是,用数据驱动算法,用算法推动AI。在自训练与协同训练算法下,超兔AI引擎数据处理能力实现了进阶升级!