请分析燃烧热的测定数据处理有无离群点，燃烧热的测定数据处理的分布范围是否合适.与x方法相比，y方法测

点击联系发帖人 时间：2017-06-10 14:53

溶解热的测定数据处理

&nbsp>&nbsp
&nbsp>&nbsp
python教程 &nbsp>&nbsp
sklearn中的异常检测方法
摘要：SKLEARN——NoveltyandOutlierDetection简介&&&&&很多方法都可以检测一个新的检测样本,是符合当前样本分布的成员还是不一样的利群点。通常,这些方法被用来对真实数据集进行清洗。这些检测方法可以分为两种:noveltydetection:&Thetrainingdataisnotpollutedbyoutliers,andweareinterestedindetectinganomalie
SKLEARN——Novelty and Outlier Detection简介&&&&&很多方法都可以检测一个新的检测样本,是符合当前样本分布的成员还是不一样的利群点。通常,这些方法被用来对真实数据集进行清洗。这些检测方法可以分为两种:
novelty detection:
The training data is not polluted by outliers, and we are interested in detecting anomalies in new observations.
outlier detection:
The training data contains outliers, and we need to fit the central mode of the training data, ignoring the deviant observations.
奇异点检测:训练数据中没有离群点,我们是对检测新发现的样本点感兴趣;
异常点检测:训练数据中包含离群点,我们需要适配训练数据中的中心部分(密集的部分),忽视异常点;
Skleran的套路&&&&&也是sklearn成为机器学习神器的原因。提供了很多机器学习工具estimator,我们要做的就是:
根据数据特点选择合适的
estimator.fit(X_train)训练;
estimator.predict(X_test)预测;
最后输出1为正常,-1为异常,就是这么简单粗暴╮(╯▽╰)╭奇异点检测(Novelty Detection)样本数n;特征数p;待测样本一个&&&&&那么,这个待测样本到底是不是自己人(是不是符合原来数据的概率)。概率学上认为,所有的数据都有它的隐藏的分布模式,这种分布模式可以由概率模型来具象化。一般来说,通过原始数据学习到的概率模型在p维空间上的表示,是一个边界凹凸的紧密收缩的边界形状。然后,如果新的样本点落在边界内,就是自己人;反之,就是奇异点。sklearn工具:&&&&&svm.OneClassSVM 优化参数为核函数和边界的尺度参数。下面是官方的例子:import&numpy&as&npimport&matplotlib.pyplot&as&pltimport&matplotlib.font_managerfrom&sklearn&import&svmxx,&yy&=&np.meshgrid(np.linspace(-5,&5,&500),&np.linspace(-5,&5,&500))#&Generate&train&dataX&=&0.3&*&np.random.randn(100,&2)X_train&=&np.r_[X&+&2,&X&-&2] &# 全是正常的,预测值应为1#&Generate&some&regular&novel&observationsX&=&0.3&*&np.random.randn(20,&2)X_test&=&np.r_[X&+&2,&X&-&2] &# 全是正常的,预测值应为1#&Generate&some&abnormal&novel&observationsX_outliers&=&np.random.uniform(low=-4,&high=4,&size=(20,&2)) &# 全是异常的,预测值应为-1#&fit&the&modelclf&=&svm.OneClassSVM(nu=0.1,&kernel=&rbf&,&gamma=0.1)clf.fit(X_train)y_pred_train&=&clf.predict(X_train) &# 训练集的标签y_pred_test&=&clf.predict(X_test) &# 正常测试集的标签y_pred_outliers&=&clf.predict(X_outliers) &# 异常测试集的标签n_error_train&=&y_pred_train[y_pred_train&==&-1].sizen_error_test&=&y_pred_test[y_pred_test&==&-1].sizen_error_outliers&=&y_pred_outliers[y_pred_outliers&==&1].size#&plot&the&line,&the&points,&and&the&nearest&vectors&to&the&planeZ&=&clf.decision_function(np.c_[xx.ravel(),&yy.ravel()])Z&=&Z.reshape(xx.shape)plt.title(&Novelty&Detection&)plt.contourf(xx,&yy,&Z,&levels=np.linspace(Z.min(),&0,&7),&cmap=plt.cm.PuBu)a&=&plt.contour(xx,&yy,&Z,&levels=[0],&linewidths=2,&colors='darkred')plt.contourf(xx,&yy,&Z,&levels=[0,&Z.max()],&colors='palevioletred')s&=&40b1&=&plt.scatter(X_train[:,&0],&X_train[:,&1],&c='white',&s=s)b2&=&plt.scatter(X_test[:,&0],&X_test[:,&1],&c='blueviolet',&s=s)c&=&plt.scatter(X_outliers[:,&0],&X_outliers[:,&1],&c='gold',&s=s)plt.axis('tight')plt.xlim((-5,&5))plt.ylim((-5,&5))plt.legend([a.collections[0],&b1,&b2,&c],& & & & & &[&learned&frontier&,&&training&observations&,& & & & & & &new&regular&observations&,&&new&abnormal&observations&],& & & & & &loc=&upper&left&,& & & & & &prop=matplotlib.font_manager.FontProperties(size=11))plt.xlabel(& & &error&train:&%d/200&;&errors&novel&regular:&%d/40&;&&& & &errors&novel&abnormal:&%d/40&& & %&(n_error_train,&n_error_test,&n_error_outliers))plt.show()&&&&&最后的结果并不令人满意,为什么正常的会被判定成异常,如上图所示,确实有几个正常样本点有点离群,但是还有更多分布正常的点被隔离了出去。下面我们来对oneclassSVM进行分析,来找原因。One-class SVM首先,SVM是用一个超平面来区分类别一和类别二;而One-class SVM是用无数个超平面区分类别一和类别二三四...。也就是说用于区分本类和异类的边界是有无数超平面组成的。既然这样,这个方法中就应该有参数来调节超平面的选取,使它通融一下,放几个人进来(扩大边界)。Parameters:
kernel 根据经验判断数据可能是那种分布。‘linear’:线性;‘rbf’:高斯分布,默认的;等等
nu 似乎使我们要找的参数,表示训练误差分数(0, 1]。就不能是0吗 (`へ&)
degree 当核函数是‘poly’多项式的时候有用,表示阶次。
gamma 相关系数,默认1/n_features
coef0 不懂
tol 决定收敛的程度
shrinking 不懂
cache_size 没用,不管
verbose 过程是否显示,默认不显示
max_iter 最大迭代次数,默认-1,不限制
random_state 加噪声
拨开云雾见天日,守得云开见月明!&&&&&原来上面代码中clf&=&svm.OneClassSVM(nu=0.1,&kernel=&rbf&,&gamma=0.1)中nu=0.1表示训练集里有10%的叛徒,我们可以把nu尽量调小,但不能是0,这样error train就变小了,但是errors novel abnormal可能会变大。可以交叉验证找一个平衡点。PS:这里说一下我写这篇文章的目的。最近有一个需求,有n个数据集,每个数据集中有m个数据,每个数据集中的数据都服从高斯分布。但是,有些数据集(k个,k&n)中有异常点,不知道有多少个,我想把这些异常点找出来。约束条件是,不能把正常的判定为异常,尽量能找出所有异常。找一下sklearn里的工具,One-class SVM受参数nu的限制,我不知道对每个数据集把nu设为多少合适,果然还是不行。异常点检测(Outlier Detection)& & &异常点监测和奇异值检测有着相同的目的,都是为了把大部分数据聚集的簇与少量的噪声样本点分开。不同的是,对于异常点监测来说,我们没有一个干净的训练集(训练集中也有噪声样本)。Fitting an elliptic envelope& & &一个一般的思路是,假设常规数据隐含这一个已知的概率分布。基于这个假设,我们尝试确定数据的形状(边界),也可以将远离边界的样本点定义为异常点。SKlearn提供了一个covariance.EllipticEnvelope类,它可以根据数据做一个鲁棒的协方差估计,然后学习到一个包围中心样本点并忽视离群点的椭圆。鲁棒的意思是足够稳定,即每次通过EllipticEnvelope对相同数据做出的协方差估计基本相同。& & &举个例子,假设合群数据都是高斯分布的,那么EllipticEnvelope会鲁棒的估计合群数据的位置和协方差,而不会受到离群数据的影响。从该估计得到的马氏距离用于得出偏离度度量。例子如下:import&numpy&as&npimport&matplotlib.pyplot&as&pltfrom&sklearn.covariance&import&EmpiricalCovariance,&MinCovDetn_samples&=&125 &# 125个训练集n_outliers&=&25 &# 25个异常点n_features&=&2 &# 2维的,为了方便在平面图上展示#&generate&datagen_cov&=&np.eye(n_features) &# 创建一个2*2的单位矩阵gen_cov[0,&0]&=&2. &# 矩阵的第一个元素改成2# 随机数矩阵与上面的2*2矩阵点乘,就是为了把分布搞得像个椭圆X&=&np.dot(np.random.randn(n_samples,&n_features),&gen_cov)#&add&some&outliersoutliers_cov&=&np.eye(n_features)outliers_cov[np.arange(1,&n_features),&np.arange(1,&n_features)]&=&7.X[-n_outliers:]&=&np.dot(np.random.randn(n_outliers,&n_features),&outliers_cov) &# 125个训练集中有25个被诱反#&fit&a&Minimum&Covariance&Determinant&(MCD)&robust&estimator&to&datarobust_cov&=&MinCovDet().fit(X) &# 最小协方差确定#&compare&estimators&learnt&from&the&full&data&set&with&true&parametersemp_cov&=&EmpiricalCovariance().fit(X) &# 最大协方差fig&=&plt.figure()plt.subplots_adjust(hspace=-.1,&wspace=.4,&top=.95,&bottom=.05) &# 设置坐标系(子图)之间的间距#&Show&data&setsubfig1&=&plt.subplot(3,&1,&1)inlier_plot&=&subfig1.scatter(X[:,&0],&X[:,&1],& & & & & & & & & & & & & & & color='black',&label='inliers')outlier_plot&=&subfig1.scatter(X[:,&0][-n_outliers:],&X[:,&1][-n_outliers:],& & & & & & & & & & & & & & & &color='red',&label='outliers')subfig1.set_xlim(subfig1.get_xlim()[0],&11.) &# [-5, 11]subfig1.set_title(&Mahalanobis&distances&of&a&contaminated&data&set:&)#&Show&contours&of&the&distance&functions# np.linspace(-5, 11, 100)表示从-5到11的100个平均采样值# np.meshgrid()详解见下xx,&yy&=&np.meshgrid(np.linspace(plt.xlim()[0],&plt.xlim()[1],&100),& & & & & & & & & & &np.linspace(plt.ylim()[0],&plt.ylim()[1],&100))# xx.ravel()把xx展开成一维# np.c_使xx变成第一列,yy变成第二列zz&=&np.c_[xx.ravel(),&yy.ravel()]# 然后根据马氏距离的平方做同心的椭圆mahal_emp_cov&=&emp_cov.mahalanobis(zz)mahal_emp_cov&=&mahal_emp_cov.reshape(xx.shape)emp_cov_contour&=&subfig1.contour(xx,&yy,&np.sqrt(mahal_emp_cov),& & & & & & & & & & & & & & & & & cmap=plt.cm.PuBu_r,& & & & & & & & & & & & & & & & & linestyles='dashed')mahal_robust_cov&=&robust_cov.mahalanobis(zz)mahal_robust_cov&=&mahal_robust_cov.reshape(xx.shape)robust_contour&=&subfig1.contour(xx,&yy,&np.sqrt(mahal_robust_cov),& & & & & & & & & & & & & & & & &cmap=plt.cm.YlOrBr_r,&linestyles='dotted')subfig1.legend([emp_cov_contour.collections[1],&robust_contour.collections[1],& & & & & & & & inlier_plot,&outlier_plot],& & & & & & & &['MLE&dist',&'robust&dist',&'inliers',&'outliers'],& & & & & & & &loc=&upper&right&,&borderaxespad=0)plt.xticks(())plt.yticks(())plt.show()讲真,这个官方的代码太长了,实在看不懂。奈何想看的电影还没下完,硬着头皮上了╮(╯▽╰)╭自己的理解都用注释的形式写在了上面。np.meshgrid(x, y)&&&&&返回两个相关向量(x,y)的相关矩阵。
Parameters:x,y是两个1维的向量,代表一个网格
Returns:返回矩阵X和Y,shape都是(len(y), len(x)),什么意思呢。
X表示所有交点的x坐标,Y表示所有交点的y坐标mahalanobis(observations)& & &计算给定观测样本点的马氏距离的平方
Parameters:观测点假定和之前训练用的数据集同分布
Returns:观测点的马氏距离的平方
这个椭圆边界法能不能解决我刚刚的问题呢?首先,输入是带有异常点的数据,且不需要给定有多少异常点掺在里面。但是,我该如何找到输入数据中的异常点呢。有没有输出阈值??或者直接给出异常点的标签??然而,我晕,突然发现sklearn Userguide的2.7.2.1下面给的例子不是elliptic envelope的,怪不得不对劲。查看sklearn.covariance.EllipticEnvelope的方法,果然有predict()。它的例子分析放在后面。Isolation Forest孤立森林是一个高效的异常点监测算法。SKLEARN提供了ensemble.IsolationForest模块。该模块在进行检测时,会随机选取一个特征,然后在所选特征的最大值和最小值随机选择一个分切面。该算法下整个训练集的训练就像一颗树一样,递归的划分。划分的次数等于根节点到叶子节点的路径距离d。所有随机树(为了增强鲁棒性,会随机选取很多树形成森林)的d的平均值,就是我们检测函数的最终结果。那些路径d比较小的,都是因为距离主要的样本点分布中心比较远的。也就是说可以通过寻找最短路径的叶子节点来寻找异常点。它的例子也放在后面。One-class SVM严格来说,一分类的SVM并不是一个异常点监测算法,而是一个奇异点检测算法:它的训练集不能包含异常样本,否则的话,可能在训练时影响边界的选取。但是,对于高维空间中的样本数据集,如果它们做不出有关分布特点的假设,One-class SVM将是一大利器。下面是对三种异常检测算法进行比较,EllipticEnvelope随着训练集变得unimodal效果下降,OneClassSVM会好一点,不受unimodel的影响,而IsolationForest在各种情况下都比较理想。import&numpy&as&npfrom&scipy&import&statsimport&matplotlib.pyplot&as&pltimport&matplotlib.font_managerfrom&sklearn&import&svmfrom&sklearn.covariance&import&EllipticEnvelopefrom&sklearn.ensemble&import&IsolationForestrng&=&np.random.RandomState(42)#&Example&settingsn_samples&=&200outliers_fraction&=&0.25clusters_separation&=&[0,&1,&2]#&define&two&outlier&detection&tools&to&be&comparedclassifiers&=&{& & &One-Class&SVM&:&svm.OneClassSVM(nu=0.95&*&outliers_fraction&+&0.05,& & & & & & & & & & & & & & & & & & &kernel=&rbf&,&gamma=0.1),& & &Robust&covariance&:&EllipticEnvelope(contamination=outliers_fraction),& & &Isolation&Forest&:&IsolationForest(max_samples=n_samples,& & & & & & & & & & & & & & & & & & & & contamination=outliers_fraction,& & & & & & & & & & & & & & & & & & & & random_state=rng)}#&Compare&given&classifiers&under&given&settingsxx,&yy&=&np.meshgrid(np.linspace(-7,&7,&500),&np.linspace(-7,&7,&500))n_inliers&=&int((1.&-&outliers_fraction)&*&n_samples)n_outliers&=&int(outliers_fraction&*&n_samples)ground_truth&=&np.ones(n_samples,&dtype=int)ground_truth[-n_outliers:]&=&-1#&Fit&the&problem&with&varying&cluster&separationfor&i,&offset&in&enumerate(clusters_separation):& & np.random.seed(42)& & #&Data&generation& & X1&=&0.3&*&np.random.randn(n_inliers&//&2,&2)&-&offset& & X2&=&0.3&*&np.random.randn(n_inliers&//&2,&2)&+&offset& & X&=&np.r_[X1,&X2]& & #&Add&outliers& & X&=&np.r_[X,&np.random.uniform(low=-6,&high=6,&size=(n_outliers,&2))]& & #&Fit&the&model& & plt.figure(figsize=(10.8,&3.6))& & for&i,&(clf_name,&clf)&in&enumerate(classifiers.items()):& & & & #&fit&the&data&and&tag&outliers& & & & clf.fit(X)& & & & scores_pred&=&clf.decision_function(X)& & & & threshold&=&stats.scoreatpercentile(scores_pred,& & & & & & & & & & & & & & & & & & & & & & 100&*&outliers_fraction)& & & & y_pred&=&clf.predict(X)& & & & n_errors&=&(y_pred&!=&ground_truth).sum()& & & & #&plot&the&levels&lines&and&the&points& & & & Z&=&clf.decision_function(np.c_[xx.ravel(),&yy.ravel()])& & & & Z&=&Z.reshape(xx.shape)& & & & subplot&=&plt.subplot(1,&3,&i&+&1)& & & & subplot.contourf(xx,&yy,&Z,&levels=np.linspace(Z.min(),&threshold,&7),& & & & & & & & & & & & &cmap=plt.cm.Blues_r)& & & & a&=&subplot.contour(xx,&yy,&Z,&levels=[threshold],& & & & & & & & & & & & & & linewidths=2,&colors='red')& & & & subplot.contourf(xx,&yy,&Z,&levels=[threshold,&Z.max()],& & & & & & & & & & & & &colors='orange')& & & & b&=&subplot.scatter(X[:-n_outliers,&0],&X[:-n_outliers,&1],&c='white')& & & & c&=&subplot.scatter(X[-n_outliers:,&0],&X[-n_outliers:,&1],&c='black')& & & & subplot.axis('tight')& & & & subplot.legend(& & & & & & [a.collections[0],&b,&c],& & & & & & ['learned&decision&function',&'true&inliers',&'true&outliers'],& & & & & & prop=matplotlib.font_manager.FontProperties(size=11),& & & & & & loc='lower&right')& & & & subplot.set_title(&%d.&%s&(errors:&%d)&&%&(i&+&1,&clf_name,&n_errors))& & & & subplot.set_xlim((-7,&7))& & & & subplot.set_ylim((-7,&7))& & plt.subplots_adjust(0.04,&0.1,&0.96,&0.92,&0.1,&0.26)plt.show()在上面三种分类器的定义中,都需要给定outliers_fraction,也就是说都需要知道原始训练集中有多少异常点,所以都不符合我当前问题的需要。
以上是的内容，更多
的内容，请您使用右上方搜索功能获取相关信息。
若你要投稿、删除文章请联系邮箱：zixun-group@service.aliyun.com,工作人员会在五个工作日内给你回复。
云服务器 ECS
可弹性伸缩、安全稳定、简单易用
&40.8元/月起
预测未发生的攻击
&24元/月起
为您提供0门槛上云实践机会
你可能还喜欢
你可能感兴趣
阿里云教程中心为您免费提供
sklearn中的异常检测方法相关信息，包括
的信息，所有sklearn中的异常检测方法相关内容均不代表阿里云的意见！投稿删除文章请联系邮箱：zixun-group@service.aliyun.com，工作人员会在五个工作日内答复
售前咨询热线
服务与支持
账号与支持
关注阿里云
International您所在位置： &
&nbsp&&nbsp&nbsp&&nbsp
医疗数据的离群点检测方法研究.pdf 82页
本文档一共被下载：
次 ,您可全文免费在线阅读后下载本文档。
下载提示
1.本站不保证该用户上传的文档完整性，不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
3.登录后可充值，立即自动返金币，充值渠道很便利
你可能关注的文档：
··········
··········
厦门大学学位论文原创性声明
本人呈交的学位论文是本人在导师指导下，独立完成的研究成果。
本人在论文写作中参考其他个人或集体己经发表的研究成果，均在文
中以适当方式明确标明，并符合法律规范和《厦门大学研究生学术活
动规范(试行)》。
另外，该学位论文为(
的研究成果，获得(
)课题(组)经费或实验室的
)实验室完成。(请在以上括号内填写课
题或课题组负责人或实验室名称，未有此项声明内容的，可以不作特
声明人(签名)：氇牡艳
。D易年‘月7日
厦门大学学位论文著作权使用声明
本人同意厦门大学根据《中华人民共和国学位条例暂行实施办法》
等规定保留和使用此学位论文，并向主管部门或其指定机构送交学位
论文(包括纸质版和电子版)，允许学位论文进入厦门大学图书馆及
其数据库被查阅、借阅。本人同意厦门大学将学位论文加入全国博士、
硕士学位论文共建单位数据库进行检索，将学位论文的标题和摘要汇
编出版，采用影印、缩印或者其它方式合理复制学位论文。
本学位论文属于：
)1．经厦门大学保密委员会审查核定的保密学位论文，
日解密，解密后适用上述授权。
)2．不保密，适用上述授权。
(请在以上相应括号内打“√”或填上相应内容。保密学位论文
应是己经厦门大学保密委员会审定过的学位论文，未经厦门大学保密
委员会审定的学位论文均为公开学位论文。此声明栏不填写的，默认
为公开学位论文，均适用上述授权。)
声明人(签名)：穗艳艳
Ⅻ弓年毛月7日
离群点检测是数据挖掘领域一个重要的研究方向，用于揭示隐藏在数据中的
重要信息，尤其在医疗诊断，入侵检测网络，信用卡欺诈，传感器敏感事件检测，
地球科学等领域被广泛应用。而由于人眼只擅长处理二维或者三维的可视数值数
据，所以利用人眼发现高维数据集中的离群点往往是比较困难的。因此我们对离
群点检测技术深入研究是必要的。
针对医疗诊断数据的离群点检测方法进行了深入分析与仿真实验研究，取得
了具有理论意义和应用价值的结果。
首先，针对给定的医疗数据集中离群点显著地偏离数据集中的其余对象，本
文提出一种基于平均距离和平均密度的离群点检测的改进方法。该方法对数据集
进行全局离群点检测，并利用平均距离求得每个数据对象的平均密度，随后计算
平均邻域邻居数进行数据划分，最后用选择算法对数据对象进行筛选。
其次，针对数据集中离群点局部远离数据集的大多数，本文提出了一种基于
图论的离群点检测的改进方法。该方法使用平均距离作为权重来度量每个数据对
象的累积入度值，并通过特定的阂值T来划分疑似离群点数据集，最后用选择
算法对数据对象进行筛选。
第三，针对数据集离散分布的特点，本文提出了一种基于K．S双样本检验
的离群点检测的改进方法。该方法基于采用两个新的累积分布函数来检验，分别
是来自数据集同一数据对象的K个最邻近距离的累积分布函数以及这K个点的
两两距离的累积分布函数，分析它们的相似程度来判断它们是否属于同一分布。
仿真实验表明，三种离群点算法的改进都能针对特定的医疗数据集进行准确
度为80％以上的离群点检测，并维护一个较低的误检率，其综合性能适用于数据
挖掘的应用。
关键字：离群点检测；医疗数据；数据挖掘
正在加载中，请稍后...异质信息网络中离群点检测方法研究--《吉林大学》2017年博士论文
异质信息网络中离群点检测方法研究
【摘要】：异质信息网络是无处不在的。挖掘隐藏在异质网络中偏离正常数据对象的离群点是数据挖掘领域的重要任务之一。离群点检测在入侵检测、欺诈检测、预测恐怖袭击、预测可疑事件和数据去噪等领域都有着广泛的应用。研究表明,挖掘偏离正常对象的离群点比挖掘周期性出现的数据更能给用户带来有价值的信息。本文从静态网络离群点检测、动态网络离群点检测和挖掘离群点对等方面对离群点检测技术进行深入研究,具体研究工作如下:1)针对静态异质信息网络提出了一种基于元路径的离群点检测方法。该方法通过分析网络结构中的链接关系得到源对象与目标对象特征间的相关程度,进而计算对象间的语义相似度。结合元路径及对象间的相关程度度量不同类型对象之间的可达概率,最后通过可达概率和路径长度计算任意两个节点间的离群程度。另外,每个节点都被赋予了一个可信度权值来提高准确率。我们在真实数据集和模拟数据集上对该算法进行测试,实验结果表明,该方法在结合节点语义信息的前提下,能够有效地识别静态网络中的离群点;2)聚类作为数据挖掘领域最重要的信息获取方法之一,在异质网络离群点检测中也有广泛的应用。大多数传统的聚类方法在插入新数据的过程中需要重新计算整个数据集而不是增量更新一部分数据。针对上述不足,本文提出了一种自底向上的增量聚类方法并将其用于异质网络的动态离群点检测过程中。进行聚类前,每个节点都作为单独的聚簇。此外,定义了一个新的度量标准CV(comparison variation),来迭代判断距离最近的两个聚簇是否能进行合并或当聚簇发生变化时已有聚簇是否能被分裂,并通过调节参数λ来动态控制聚类的严格程度。该度量标准不需要提前确定聚类个数,可以根据不同的数据集大小和数据质量动态确定最适合的聚类个数。实验结果表明,该聚类方法可以有效地进行聚类并且增量地更新数据;3)针对动态异质信息网络提出了一种基于张量表示的离群点检测方法。该方法根据张量表示的高阶数据构建张量索引树。通过搜索张量索引树,将特征加入到直接项集和间接项集中。根据基于短文本相关性的聚类方法判断数据集中的数据对象是否偏离其原本所在聚簇来动态检测网络中的离群点。该模型能够在充分降低时间和空间复杂度的情况下保留异质网络中的语义信息。实验结果表明,该方法能够快速有效地进行动态网络环境下的离群点检测;4)为了深入研究并分析异质网络中链接结构相似度与语义关系相似度间的差异带来的影响,本文还提出了一种基于链接结构与语义关系的差异性来检测离群点对(outlier pair)的方法。首先,构造目标对象间的链接结构相似度与语义关系相似度的邻接矩阵,分别通过分析链接结构和语义关系来得到对象间的相似程度。分析对象在结构上的关联关系,得到目标对象的链接结构相似度。提出k-步索引方法来得到目标对象的特征表示,从语义关系的角度计算目标对象的相似度。最后,利用矩阵的线性变换得到任意目标对象对在链接结构和语义关系上的差异,较高差异值对应的对象对被视为离群点对。实验结果表明,该方法可以有效地识别异质网络中存在的离群点对;5)为了能够增量检测离群点对,本文还提出了一种基于元组的增量离群点对检测方法。利用三元组的形式来表示异质网络中的数据,存储了目标对象以及对象间的链接权值,通过合并及镜像过程得到对象间的结构相似度。定义了前驱节点、后继节点以及覆盖率的概念,在减少参数个数的同时可以高效计算基于内容的相似度。结合基于结构相似度与基于内容相似度来计算离群分数。最后,说明了如何通过对三元组进行插入和删除操作来更新对象对的结构相似度以及内容相似度,进而更新对象对间的离群分数。增量更新离群分数可以有效降低时间及空间复杂度。实验结果表明,用元组形式表示异质网络中的数据可以动态更新离群分数,很大程度上提高了效率。本文对离群点检测的研究主要包含两个方面,首先,是对于单个离群点检测的研究;其次,是对于离群点对检测的研究。对于这两方面的工作,本文分别提出了两种检测方法:1)对于单个离群点检测,分别在静态网络、动态网络的环境下通过基于元路径和基于张量表示的方法对异质网络中的离群点检测进行深入研究;2)对于离群点对检测,分别提出了基于链接结构和语义关系的离群点对检测方法以及基于元组的增量离群点对检测方法。另外,在进行动态网络离群点检测的过程中,提出了一种增量的聚类方法。在异质网络的环境下进行离群点检测研究是一个新的尝试,具有一定实际意义。
【学位授予单位】：吉林大学【学位级别】：博士【学位授予年份】：2017【分类号】：TP311.13
欢迎：、、)
支持CAJ、PDF文件格式
【相似文献】
中国期刊全文数据库
魏藜,宫学庆,钱卫宁,周傲英;[J];软件学报;2002年02期
薛安荣;姚林;鞠时光;陈伟鹤;马汉达;;[J];计算机科学;2008年11期
李存华;;[J];淮海工学院学报(自然科学版);2008年02期
李昕;颜学峰;;[J];华东理工大学学报(自然科学版);2009年01期
封海岳;薛安荣;;[J];计算机应用与软件;2013年05期
王柏钧,王力勤;[J];成都气象学院学报;1989年04期
黄添强;秦小麟;叶飞跃;;[J];控制与决策;2006年05期
熊君丽;;[J];现代电子技术;2006年15期
黄添强;秦小麟;王钦敏;;[J];中国图象图形学报;2006年09期
陈光平;叶东毅;;[J];福州大学学报(自然科学版);2007年03期
中国重要会议论文全文数据库
张锋;常会友;;[A];第二十四届中国数据库学术会议论文集（研究报告篇）[C];2007年
连凤娜;吴锦林;薛永生;;[A];第二十四届中国数据库学术会议论文集（技术报告篇）[C];2007年
梁雪琴;刘红生;代秀梅;周亚芬;;[A];全国内部审计理论研讨优秀论文集(2013)[C];2014年
于浩;王斌;肖刚;杨晓春;;[A];第26届中国数据库学术会议论文集（A辑）[C];2009年
许龙飞;熊君丽;段敏;;[A];第二十届全国数据库学术会议论文集（技术报告篇）[C];2003年
刘文远;李振平;王宝文;裴继辉;;[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
魏藜;钱卫宁;周傲英;;[A];第十八届全国数据库学术会议论文集（研究报告篇）[C];2001年
周红福;钱卫宁;魏藜;周傲英;;[A];第二十届全国数据库学术会议论文集（研究报告篇）[C];2003年
魏藜;钱卫宁;周傲英;;[A];第十九届全国数据库学术会议论文集（研究报告篇）[C];2002年
中国博士学位论文全文数据库
刘莘;[D];中国矿业大学;2016年
刘露;[D];吉林大学;2017年
杨鹏;[D];重庆大学;2010年
林海;[D];重庆大学;2012年
薛安荣;[D];江苏大学;2008年
杨茂林;[D];华中科技大学;2012年
金义富;[D];重庆大学;2007年
雷大江;[D];重庆大学;2012年
万家强;[D];重庆大学;2014年
唐向红;[D];华中科技大学;2010年
中国硕士学位论文全文数据库
韩红霞;[D];江苏大学;2007年
黄馨玉;[D];辽宁大学;2015年
程百球;[D];安庆师范学院;2015年
欧阳根平;[D];电子科技大学;2015年
邓璇;[D];电子科技大学;2015年
周莹莹;[D];南京邮电大学;2015年
陈娟;[D];合肥工业大学;2014年
文静云;[D];重庆大学;2015年
梅孝辉;[D];重庆大学;2015年
秦浩;[D];大连海事大学;2016年
&快捷付款方式
&订购知网充值卡
400-819-9993}

杰西卡呢吗信息网