近日,計(jì)算機(jī)與信息科學(xué)學(xué)院2022級(jí)碩士研究生李梗森在期刊《Applied Soft Computing》(中科院1區(qū),TOP期刊,影響因子IF=8.7)上發(fā)表題為“Distance metric learning-based multi-granularity neighborhood rough sets for attribute reduction”的研究論文,對(duì)基于度量學(xué)習(xí)特征選擇的相關(guān)研究作了具體闡釋。該論文由計(jì)算機(jī)與信息科學(xué)學(xué)院崔少國(guó)教授和桑彬彬副教授共同指導(dǎo)完成。

粗糙集理論的屬性約簡(jiǎn)方法一直是人工智能(AI)領(lǐng)域的研究熱點(diǎn),而鄰域粗糙集(NRS)模型由于其在不確定性推理中的良好泛化性能和實(shí)用性,近年來在生物信息學(xué)、金融數(shù)據(jù)分析、醫(yī)療診斷等領(lǐng)域得到了廣泛應(yīng)用。然而,傳統(tǒng)NRS模型在計(jì)算樣本間距離時(shí)使用固定的計(jì)算范式,未考慮屬性空間中標(biāo)簽對(duì)距離計(jì)算的影響,這限制了約簡(jiǎn)算法性能的提升。針對(duì)這一問題,本文將距離度量學(xué)習(xí)引入NRS模型,提出了一種新的DmlMNRS模型。該模型充分考慮了多維屬性空間中標(biāo)簽信息,通過使同標(biāo)簽樣本間距離更近、不同標(biāo)簽樣本間距離更遠(yuǎn)的綜合原則,來學(xué)習(xí)樣本間距離,從而有助于減少分類不確定性。該研究還介紹并證明了DmlMNRS模型的相關(guān)性質(zhì),并基于此定義了DmlMNRS屬性約簡(jiǎn)準(zhǔn)則和屬性重要性,設(shè)計(jì)了一種基于DmlMNRS的啟發(fā)式屬性約簡(jiǎn)(DMNHAR)算法。本研究提出的新方法在15個(gè)公開數(shù)據(jù)集上進(jìn)行了廣泛實(shí)驗(yàn),結(jié)果顯示所提出的算法具有優(yōu)越的魯棒性和分類性能。