本發明涉及計算機生物信息領域,具體地,涉及一種生物信息工程師技能評級系統。
背景技術:
生物信息學是生命科學和計算機科學相結合的一門新學科,是以計算機為工具對生物信息進行儲存、檢索和分析的學科。當前從事生物信息分析的工程師,涉及到的技能包括生物學、計算機、數學、物理、信息科學等多個學科,工程師在進行生物學研究時,實驗下游的數據分析部分需要借助計算機編程、數學統計、現有軟件等手段來得到實驗結論。生物信息工程師需要進行分析思路的設計、實現等,數據大多來源于DNA測序儀,以及其他設備。
目前,平臺或者用戶都急需對生物信息工程師進行合理的評級,以便滿足各方的需求,而不同的生物信息工程師由于自身原因具有不同的工作能力,而現有技術中沒有對生物信息工程師評級的合理方法和系統,倚靠人工進行評級效率較低,且由于數據資源有限,評級的準確性和可靠性較差,參考價值較低。沒有一個成熟、準確、專門針對生物信息分析工程師的技能評級方法。
綜上所述,本申請發明人在實現本申請發明技術方案的過程中,發現上述技術至少存在如下技術問題:
在現有技術中,現有的生物信息分析工程師的技能評級方法存在效率、準確率和可靠性較差的技術問題。
技術實現要素:
本發明提供了一種生物信息工程師技能評級系統,解決了現有的生物信息分析工程師的技能評級方法存在效率、準確率和可靠性較差的技術問題,實現了系統設計合理,準確、高效、可靠的對生物信息工程師技能進行評級的技術效果。
為解決上述技術問題,本申請提供了一種生物信息工程師技能評級系統,所述系統包括:
生物信息分析類型數據庫,生物信息分析類型數據庫中包括:生物信息分析類型數據以及每種生物信息分析類型的難度系數數據;
生物信息期刊數據庫,生物信息期刊數據庫中包括:期刊的基本信息、每年各期刊的影響因子、每年各期刊的特征因子;
收集單元,所述收集單元用于收集生物信息工程師的基本信息和用戶項目評價登記信息;
建立單元,所述建立單元用于將收集單元收集的信息作為訓練樣本,基于生物信息分析類型數據庫和生物信息期刊數據庫建立分類器;
評級單元,所述評級單元用于基于建立的分類器,對生物信息工程師技能進行評級。
進一步的,所述生物信息分析類型數據庫的建立具體包括:
首先,分別建立DNA、RNA、環境微生物、蛋白質組學、代謝組學、基因6大類數據庫,并建立小類生物信息分析類型數據庫(如DNA大類下包括動植物de novo測序、微生物de novo測序、人全基因組重測序、動植物全基因組重測序、目標區域測序、全外顯子組測序、ChIP-seq、簡化基因組-RAD等),標記每種分析類型的分析方法、分析內容、模板信息;
然后,對于不同種類的分析類型,收集該類型相關項目作為樣本,根據行業經驗對樣本進行評估,獲得每種生物信息分析類型的難度系數;
然后,統計出每種分析類型的難度系數。
其中,通過對生物信息分析類型進行合理的劃分,能夠建立準確全面的生物信息分析類型數據庫,進而能夠準確的將生物信息工程師對應到相應的學科和領域,劃分更加細致準確,對生物信息工程師的評級更加準確。
進一步的,所述生物信息期刊數據庫的建立具體為:收集SCI、JCR信息,建立生物信息期刊數據庫。
其中,美國《科學引文索引》(Science Citation Index,簡稱SCI)于1957年由美國科學信息研究所(Institute for Scientific Information,簡稱ISI)在美國費城創辦,是由美國科學信息研究所(ISI)1961年創辦出版的引文數據庫,是國際公認的進行科學統計與科學評價的主要檢索工具,ISI每年出版JCR(《期刊引用報告》,全稱Journal Citation Reports)。JCR對包括SCI收錄的3800種核心期刊(光盤版)在內的8000多種期刊(網絡版)之間的引用和被引用數據進行統計、運算,并針對每種期刊定義了影響因子(Impact Factor)等指數加以報道。通過收集SCI、JCR信息,可以建立數據全面準確的生物信息期刊數據庫,而利用數據全面準確的生物信息期刊數據庫可以對生物信息工程師的論文期刊發表情況進行評價,進而對生物信息工程師的技能評級提供準確的參考因素。
進一步的,所述基于生物信息分析類型數據庫和生物信息期刊數據庫建立分類器,具體包括:
步驟1:對每位生物信息分析工程師,分別計算學歷、工作年限、項目經驗、發表論文信息、用戶評價五個方面的得分;
步驟2:計算對應每種工程師級別下學歷、工作年限、項目經驗、發表論文、用戶評價五個屬性的頻率;
步驟3:根據樸素貝葉斯分類算法,建立分類器。
其中,分類是數據挖掘的一種非常重要的方法。分類的概念是在已有數據的基礎上學會一個分類函數或構造出一個分類模型(即我們通常所說的分類器(Classifier))。該函數或模型能夠把數據庫中的數據紀錄映射到給定類別中的某一個,從而可以應用于數據預測。總之,分類器是數據挖掘中對樣本進行分類的方法的統稱,包含決策樹、邏輯回歸、樸素貝葉斯、神經網絡等算法。本申請中建立分類器,可以良好的實現從生物信息分析類型數據庫和生物信息期刊數據庫以及生物信息工程師的基本信息和用戶項目評價登記信息中實現數據挖掘。
進一步的,所述步驟1具體包括:
首先,對學歷建立HASH函數并映射到數值集合A作為學歷得分;
然后,對工作年限建立HASH函數并映射到數值集合B作為工作年限得分;
然后,對每個項目經驗,查找生物信息分析類型數據庫,得到單個項目經驗的難度系數,對每個工程師所有項目的難度系數采用統計方法計算,并映射到數值集合C作為項目經驗得分;
然后,對每篇發表論文,查找生物信息期刊數據庫,得到每篇發表論文當年的影響因子,對每個工程師所有論文的影響因子采用統計方法計算,并映射到數值集合D作為發表論文得分;
然后,對每個項目的用戶評價等級采用統計方法計算,并映射到數值集合E作為用戶評價得分。
其中,通過上述方式,能夠對每位生物信息分析工程師的各方面分別進行分值評價,能夠便于獲得準確的工程師實際能力準確對應的分數值,分別計算了學歷、工作年限、項目經驗、發表論文信息、用戶評價五個方面的得分;全面的考慮了工程師的教育、工作、項目經驗、論文信息等,因此,獲得的相應整體得分能夠準確的反應工程師的相應能力,作為評級的準確參考因素。
進一步的,所述系統還包括:校正單元,所述校正單元用于對評定結果進行判斷,對于錯誤分類校正后加入到訓練樣本集,完善分類器。
本申請提供的一個或多個技術方案,至少具有如下技術效果或優點:
本申請中的生物信息工程師技能評級系統中建立有生物信息分析類型數據庫和生物信息期刊數據庫,利用生物信息分析類型數據庫可以準確的對生物信息分析類型進行類型劃分,便于將生物信息工程師劃分到相應的擅長的準確領域或科目,并且利用生物信息期刊數據庫可以獲得生物信息工程師在期刊上發布的論文信息,論文信息可以作為評價生物信息工程師技能等級的參考因素,然后,利用收集單元收集生物信息工程師的基本信息和用戶項目評價登記信息,進一步的將這些信息作為生物信息工程師技能等級評價的參考因素;進一步的,利用收集的信息作為訓練樣本,基于生物信息分析類型數據庫和生物信息期刊數據庫建立分類器,基于建立的分類器,對生物信息工程師技能進行評級,由于實現的系統自動評級,相對于傳統的人工評級效率較高,并且采用了多種全面的生物信息工程師數據,并結合并結合合理的運算,能夠更加準確的計算出可靠的結果,使得評級結果更加準確和可靠,所以,有效解決了現有的生物信息分析工程師的技能評級方法存在效率、準確率和可靠性較差的技術問題,進而實現了系統設計合理,準確、高效、可靠的對生物信息工程師技能進行評級的技術效果。
附圖說明
此處所說明的附圖用來提供對本發明實施例的進一步理解,構成本申請的一部分,并不構成對本發明實施例的限定;
圖1是本申請中生物信息工程師技能評級系統的組成示意圖。
具體實施方式
本發明提供了一種生物信息工程師技能評級系統,解決了現有的生物信息分析工程師的技能評級方法存在效率、準確率和可靠性較差的技術問題,實現了系統設計合理,準確、高效、可靠的對生物信息工程師技能進行評級的技術效果。
為了能夠更清楚地理解本發明的上述目的、特征和優點,下面結合附圖和具體實施方式對本發明進行進一步的詳細描述。需要說明的是,在相互不沖突的情況下,本申請的實施例及實施例中的特征可以相互組合。
在下面的描述中闡述了很多具體細節以便于充分理解本發明,但是,本發明還可以采用其他不同于在此描述范圍內的其他方式來實施,因此,本發明的保護范圍并不受下面公開的具體實施例的限制。
實施例一:
在實施例一中,請參考圖1,提供了一種生物信息工程師技能評級系統,所述系統包括:
生物信息分析類型數據庫,生物信息分析類型數據庫中包括:生物信息分析類型數據以及每種生物信息分析類型的難度系數數據;
生物信息期刊數據庫,生物信息期刊數據庫中包括:期刊的基本信息、每年各期刊的影響因子、每年各期刊的特征因子;
收集單元,所述收集單元用于收集生物信息工程師的基本信息和用戶項目評價登記信息;
建立單元,所述建立單元用于將收集單元收集的信息作為訓練樣本,基于生物信息分析類型數據庫和生物信息期刊數據庫建立分類器;
評級單元,所述評級單元用于基于建立的分類器,對生物信息工程師技能進行評級。
鑒于國內外還沒有對生物信息分析工程師進行評級的計算機系統,本發明的目的是提供一種動態評級的方式,在少量人工的輔助下,對生物信息分析工程師專業技能水平進行評級。
工程師級別分為:實習、初級、中級、高級、專家、泰斗。
具體評級步驟如下:
步驟1:收集并建立生物信息分析類型數據庫;
(1)分層級建立生物信息分析類型數據庫,建立DNA、RNA、環境微生物、蛋白質組學、代謝組學、基因數據庫6大類、200多小類的生物信息分析類型數據庫,標記每種分析類型的分析方法、分析內容、模板等信息;
(2)對每一種分析類型,收集該類型的多個項目作為樣本,指定不同專業人員對樣本進行評估,得到每種生物信息分析類型的難度系數;
(3)對于包括多個分析類型的項目,指定不同專業人員對樣本進行評估,得到每種生物信息分析類型的難度系數;
(4)通過數理統計方法統計出每種分析類型的難度系數(當前采用幾何平均值作為該類型的難度系數)。
步驟2:收集近10年SCI、JCR資料,建立生物信息期刊數據庫,記錄每種期刊的基本信息和每年的影響因子和特征因子;
步驟3:收集多位生物信息分析工程師(實習、初級、中級、高級、專家、泰斗)的學歷、工作年限、項目經驗、發表論文和用戶項目評價登記信息作為訓練樣本,通過數理統計方法建立分類器(當前采用樸素貝葉斯分類算法);
(1)對每位生物信息分析工程師計算學歷、工作年限、項目經驗、發表論文和用戶評價五個方面的得分(離散數值);
(a)對學歷建立HASH函數并映射到【1,2,3,4,5】作為學歷得分;
(b)對工作年限建立HASH函數(分段函數)并映射到【1,2,3,4,5】作為工作年限得分;
(c)對每個項目經驗,查找生物信息分析類型數據庫,得到單個項目經驗的難度系統,對所有項目的難度系數采用統計方法(當前采用移動加權平均法)計算,并映射到【1,2,3,4,5,6,7,8,9,10】作為項目經驗得分;
(d)對每篇發表論文,查找生物信息期刊數據庫,得到每篇發表論文當年的影響因子,對所有論文的影響因子采用統計方法(當前采用移動加權平均法)計算,并映射到【1,2,3,4,5,6,7,8,9,10】作為發表論文得分;
(e)對每個項目的用戶評價等級采用統計方法(當前采用移動加權平均法)計算,并映射到【1,2,3,4,5】作為用戶評價得分。
(2)計算對應每種工程師級別(實習、初級、中級、高級、專家、泰斗)下學歷、工作年限、項目經驗、發表論文、用戶評價五個屬性的頻率;
(3)建立分類器(根據樸素貝葉斯分類算法)
步驟4:對每一位工程師,收集該工程師的學歷、工作年限、項目經驗、發表論文和用戶評價等級信息,使用分類器對該工程師的專業技能水平進行評級
步驟5:人工對評定結果進行判斷,對于錯誤分類人工矯正后加入到訓練樣本集,再次完善分類器;
步驟6:不斷收集訓練樣本,訓練完善分類器。
下面,舉例對本申請進行介紹:首先根據事先收集的多個工程師詳細信息作為樣本進行訓練,按照具體評級步驟中的說明建立分類器。之后對一個工程師根據其學歷、工作年限、項目經驗、發表論文、用戶評價五個屬性值,按照分類器代入后就可以鑒別工程師級別(實習、初級、中級、高級、專家、泰斗)。
上述本申請實施例中的技術方案,至少具有如下的技術效果或優點:
本申請中的生物信息工程師技能評級系統中建立有生物信息分析類型數據庫和生物信息期刊數據庫,利用生物信息分析類型數據庫可以準確的對生物信息分析類型進行類型劃分,便于將生物信息工程師劃分到相應的擅長的準確領域或科目,并且利用生物信息期刊數據庫可以獲得生物信息工程師在期刊上發布的論文信息,論文信息可以作為評價生物信息工程師技能等級的參考因素,然后,利用收集單元收集生物信息工程師的基本信息和用戶項目評價登記信息,進一步的將這些信息作為生物信息工程師技能等級評價的參考因素;進一步的,利用收集的信息作為訓練樣本,基于生物信息分析類型數據庫和生物信息期刊數據庫建立分類器,基于建立的分類器,對生物信息工程師技能進行評級,由于實現的系統自動評級,相對于傳統的人工評級效率較高,并且采用了多種全面的生物信息工程師數據,并結合并結合合理的運算,能夠更加準確的計算出可靠的結果,使得評級結果更加準確和可靠,所以,有效解決了現有的生物信息分析工程師的技能評級方法存在效率、準確率和可靠性較差的技術問題,進而實現了系統設計合理,準確、高效、可靠的對生物信息工程師技能進行評級的技術效果。
盡管已描述了本發明的優選實施例,但本領域內的技術人員一旦得知了基本創造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權利要求意欲解釋為包括優選實施例以及落入本發明范圍的所有變更和修改。
顯然,本領域的技術人員可以對本發明進行各種改動和變型而不脫離本發明的精神和范圍。這樣,倘若本發明的這些修改和變型屬于本發明權利要求及其等同技術的范圍之內,則本發明也意圖包含這些改動和變型在內。