一種面向大數(shù)據(jù)的潛在藥物不良反應(yīng)數(shù)據(jù)挖掘方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘方法領(lǐng)域,涉及一種面向大數(shù)據(jù)的潛在藥物不良反應(yīng)數(shù)據(jù)挖 掘方法。
【背景技術(shù)】
[0002] 藥物不良反應(yīng)(AdverseDrugReactions,簡(jiǎn)稱ADRs)已經(jīng)成為醫(yī)學(xué)界和民眾關(guān)注 的熱點(diǎn),用藥安全問題日益得到全社會(huì)的重視。盡管藥物上市前會(huì)進(jìn)行相應(yīng)的臨床試驗(yàn),但 是由于人群的數(shù)量及試驗(yàn)周期等限制,導(dǎo)致臨床試驗(yàn)無法揭露藥物所有的不良反應(yīng)。從而 造成具有潛在藥物不良反應(yīng)的新藥流入市場(chǎng),對(duì)公眾健康產(chǎn)生了巨大的威脅。因此,如何挖 掘藥物的不良反應(yīng)具有重大的理論價(jià)值和實(shí)用價(jià)值。
[0003] 對(duì)于上市藥物潛在不良反應(yīng)挖掘的研宄,主要依托于醫(yī)院提供的電子病例以及藥 物不良反應(yīng)自發(fā)報(bào)告系統(tǒng)所收集的藥物不良事件報(bào)告。醫(yī)院的電子病歷系統(tǒng)具有完整的、 格式化的病人信息記錄,但是由于隱私保護(hù)等原因,這些信息外界是無法得到的。經(jīng)過多年 的收集,藥物不良事件自發(fā)報(bào)告系統(tǒng)已積累了大量的藥物不良事件報(bào)告,這些不良事件報(bào) 告來自醫(yī)生或者病人,其包含的藥物不良反應(yīng)關(guān)系尚未得到醫(yī)學(xué)上的驗(yàn)證。經(jīng)過匿名化等 隱私保護(hù)處理,這些不良事件報(bào)告對(duì)外公開,為科研人員提供了寶貴的數(shù)據(jù)資源。而大多現(xiàn) 有的研宄主要針對(duì)其中的某類藥物和某些不良反應(yīng)進(jìn)行潛在關(guān)系的挖掘,其泛化性能并不 尚。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是提供一種可靠性強(qiáng),適用于潛在藥物不良反應(yīng)的挖掘與預(yù)警的面 向大數(shù)據(jù)的潛在藥物不良反應(yīng)數(shù)據(jù)挖掘方法。
[0005] 本發(fā)明解決現(xiàn)有技術(shù)問題所采用的技術(shù)方案:一種面向大數(shù)據(jù)的潛在藥物不良反 應(yīng)數(shù)據(jù)挖掘方法,其特征在于,該方法包括以下步驟:
[0006] A、抓取藥物不良事件報(bào)告:在本地構(gòu)建藥物不良事件數(shù)據(jù)集,利用爬蟲技術(shù)從已 知的藥物不良事件報(bào)告數(shù)據(jù)庫中抓取包含有藥名文本數(shù)據(jù)的藥物不良事件報(bào)告,并以字符 串形式存儲(chǔ)于所述藥物不良事件數(shù)據(jù)集中;所述藥名文本數(shù)據(jù)為出現(xiàn)在藥物不良事件報(bào)告 的藥名域中的文本數(shù)據(jù)。
[0007] B、對(duì)藥物不良事件數(shù)據(jù)集的藥物不良事件報(bào)告進(jìn)行數(shù)據(jù)預(yù)處理;所述數(shù)據(jù)預(yù)處理 過程包括以下步驟:
[0008]Bl、藥名文本數(shù)據(jù)規(guī)范化:利用正則表達(dá)式對(duì)所述藥物不良事件報(bào)告中的藥名文 本數(shù)據(jù)進(jìn)行規(guī)范化;
[0009] B2、生成候選藥名片段:對(duì)于規(guī)范化后的藥名文本數(shù)據(jù)中所包含有' + 符號(hào)的藥名文本,通過' + V'符號(hào)對(duì)藥名文本進(jìn)行切分,以形成候選藥名片段;
[0010] B3、基于頻率的候選藥名片段去噪:
[0011] 在步驟B2所形成的候選藥名片段中所存在的無對(duì)應(yīng)藥名的文本數(shù)據(jù),預(yù)設(shè)最小 頻率閾值,并將出現(xiàn)次數(shù)小于該閾值的藥名片段從候選藥名片段中過濾掉,得到藥物名稱 列表;
[0012] C、藥名標(biāo)準(zhǔn)化:利用生物醫(yī)學(xué)命名實(shí)體識(shí)別技術(shù),對(duì)藥物名稱列表中的藥物名稱 進(jìn)行藥名標(biāo)準(zhǔn)化;藥名標(biāo)準(zhǔn)化的具體方法為:通過利用MetaMap系統(tǒng)對(duì)藥物名稱列表進(jìn)行 生物醫(yī)學(xué)實(shí)體識(shí)別,并將識(shí)別到的生物醫(yī)學(xué)實(shí)體映射到UMLS的超級(jí)敘詞表中形成不良反 應(yīng)藥物列表(dl,d2,…,dm)和不良反應(yīng)列表(al,a2,…,an);
[0013]D、過濾已知不良反應(yīng):對(duì)于步驟C得到的不良反應(yīng)藥物列表(dl,d2,…,dm)和 不良反應(yīng)列表(al,a2,…,an),在每份藥物不良事件報(bào)告中,將不良反應(yīng)藥物列表中的藥 物di的已知不良反應(yīng)aj從不良反應(yīng)列表中去除,得到過濾后的不良反應(yīng)列表(&1,&2,~ ,aj-1,aj+1, ...,am);
[0014]E、關(guān)聯(lián)度計(jì)算:包括以下步驟:
[0015]E1、在已知的藥物不良事件報(bào)告數(shù)據(jù)庫中,統(tǒng)計(jì)不良事件藥物列表中藥物di出現(xiàn) 的次數(shù)、不良反應(yīng)aj出現(xiàn)的次數(shù)以及該藥物di和不良反應(yīng)aj的共現(xiàn)次數(shù);
[0016]E2、計(jì)算藥物di出現(xiàn)的情況下不良反應(yīng)aj出現(xiàn)的條件概率p(aj|di),和不良反應(yīng) aj出現(xiàn)的情況下藥物di出現(xiàn)的條件概率p(di|aj);
【主權(quán)項(xiàng)】
1. 一種面向大數(shù)據(jù)的潛在藥物不良反應(yīng)數(shù)據(jù)挖掘方法,其特征在于,該方法包括以下 步驟: A、抓取藥物不良事件報(bào)告:在本地構(gòu)建藥物不良事件數(shù)據(jù)集,利用爬蟲技術(shù)從已知的 藥物不良事件報(bào)告數(shù)據(jù)庫中抓取包含有藥名文本數(shù)據(jù)的藥物不良事件報(bào)告,并以字符串形 式存儲(chǔ)于所述藥物不良事件數(shù)據(jù)集中;所述藥名文本數(shù)據(jù)為出現(xiàn)在藥物不良事件報(bào)告的藥 名域中的文本數(shù)據(jù); B、對(duì)藥物不良事件數(shù)據(jù)集的藥物不良事件報(bào)告進(jìn)行數(shù)據(jù)預(yù)處理;所述數(shù)據(jù)預(yù)處理過 程包括以下步驟: B1、藥名文本數(shù)據(jù)規(guī)范化:利用正則表達(dá)式對(duì)所述藥物不良事件報(bào)告中的藥名文本數(shù) 據(jù)進(jìn)行規(guī)范化; B2、生成候選藥名片段:對(duì)于規(guī)范化后的藥名文本數(shù)據(jù)中所包含有' + 符號(hào) 的藥名文本,通過' + V'符號(hào)對(duì)藥名文本進(jìn)行切分,以形成候選藥名片段; B3、基于頻率的候選藥名片段去噪: 在步驟B2所形成的候選藥名片段中所存在的無對(duì)應(yīng)藥名的文本數(shù)據(jù),預(yù)設(shè)最小頻率 閾值,并將出現(xiàn)次數(shù)小于該閾值的藥名片段從候選藥名片段中過濾掉,得到藥物名稱列 表; C、 藥名標(biāo)準(zhǔn)化:利用生物醫(yī)學(xué)命名實(shí)體識(shí)別技術(shù),對(duì)藥物名稱列表中的藥物名稱進(jìn)行 藥名標(biāo)準(zhǔn)化;藥名標(biāo)準(zhǔn)化的具體方法為:通過利用MetaMap系統(tǒng)對(duì)藥物名稱列表進(jìn)行生物 醫(yī)學(xué)實(shí)體識(shí)別,并將識(shí)別到的生物醫(yī)學(xué)實(shí)體映射到UMLS的超級(jí)敘詞表中形成不良反應(yīng)藥 物列表(dl,d2,···,dm)和不良反應(yīng)列表(al,a2,*",an); D、 過濾已知不良反應(yīng):對(duì)于步驟C得到的不良反應(yīng)藥物列表(dl,d2,···,dm)和不 良反應(yīng)列表(al,a2,…,an),在每份藥物不良事件報(bào)告中,將不良反應(yīng)藥物列表中的藥 物di的已知不良反應(yīng)aj從不良反應(yīng)列表中去除,得到過濾后的不良反應(yīng)列表(&1,&2,··· ,aj-1, aj+1, ...,am); E、 關(guān)聯(lián)度計(jì)算:包括以下步驟: E1、在已知的藥物不良事件報(bào)告數(shù)據(jù)庫中,統(tǒng)計(jì)不良事件藥物列表中藥物di出現(xiàn)的次 數(shù)、不良反應(yīng)aj出現(xiàn)的次數(shù)以及該藥物di和不良反應(yīng)aj的共現(xiàn)次數(shù); E2、計(jì)算藥物di出現(xiàn)的情況下不良反應(yīng)aj出現(xiàn)的條件概率p (aj I di),和不良反應(yīng)aj 出現(xiàn)的情況下藥物di出現(xiàn)的條件概率p(di|aj);
,其中,fre(di)為藥物di出現(xiàn)的次數(shù),fre(aj)為不良反應(yīng)aj 出現(xiàn)的次數(shù),fre (ai,dj)為藥物di和不良反應(yīng)aj的共現(xiàn)次數(shù); E3、關(guān)聯(lián)度計(jì)算:利用雙條件概率乘積法,計(jì)算藥物di和不良反應(yīng)aj的關(guān)聯(lián)度: sim(di, aj)=p(aj |di)*p(di |aj); F、 關(guān)聯(lián)度排序:對(duì)于藥物di,根據(jù)步驟E3的藥物和不良反應(yīng)之間的關(guān)聯(lián)度sim(di, aj) 值,對(duì)所有的不良反應(yīng)按照降序排列,取排列次序在前的不良反應(yīng)作為藥物di的潛在藥物 不良反應(yīng)。
2. 根據(jù)權(quán)利要求1所述的一種面向大數(shù)據(jù)的潛在藥物不良反應(yīng)數(shù)據(jù)挖掘方法,其特征 在于,所述已知的藥物不良事件報(bào)告數(shù)據(jù)庫為公共開放數(shù)據(jù)集或電子病歷。
3. 根據(jù)權(quán)利要求1所述的一種面向大數(shù)據(jù)的潛在藥物不良反應(yīng)數(shù)據(jù)挖掘方法,其特征 在于,在步驟B3中,預(yù)設(shè)最小頻率閾值為100。
4. 根據(jù)權(quán)利要求1所述的一種面向大數(shù)據(jù)的潛在藥物不良反應(yīng)數(shù)據(jù)挖掘方法,其特征 在于,對(duì)于格式上無法存儲(chǔ)在傳統(tǒng)的關(guān)系數(shù)據(jù)庫中的藥物不良事件報(bào)告,利用格式解析工 具將藥物不良事件報(bào)告轉(zhuǎn)化為字符串形式按行以文本文件的方式存儲(chǔ)于藥物不良事件數(shù) 據(jù)集中。
【專利摘要】一種面向大數(shù)據(jù)的潛在藥物不良反應(yīng)數(shù)據(jù)挖掘方法,該方法包括以下步驟:A、抓取藥物不良事件報(bào)告;B、對(duì)藥物不良事件數(shù)據(jù)集的藥物不良事件報(bào)告進(jìn)行數(shù)據(jù)預(yù)處理;C、藥名標(biāo)準(zhǔn)化;D、過濾已知不良反應(yīng);E、關(guān)聯(lián)度計(jì)算;F、關(guān)聯(lián)度排序。本發(fā)明適用于潛在藥物不良反應(yīng)的挖掘工作,不限于藥物的種類;能夠有效的發(fā)現(xiàn)上市藥物的安全隱患,對(duì)提升用藥者的健康水平具有重要的意義。
【IPC分類】G06F19-00
【公開號(hào)】CN104765947
【申請(qǐng)?zhí)枴緾N201510093861
【發(fā)明人】林鴻飛, 趙明珍
【申請(qǐng)人】大連理工大學(xué)
【公開日】2015年7月8日
【申請(qǐng)日】2015年3月2日