擴增并呈現捕獲的數據的制作方法
【專利說明】擴増并呈現捕獲的數據
[0001] 相關申請的交叉引用
[0002] 本申請要求享有于2013年8月7日提交的序列號為61/863,241的美國臨時申請的 優先權。
【背景技術】
[0003] 通過多種網頁和用戶生成內容捕獲工具及其相關聯的收集和積釀(curation)應 用(諸如MicrosoftQneNote?郝Everno化啦壟記本應用),促進了對內容的收集W便之 后的訪問、組織和修改。"網絡剪輯器(web clipper)"是運樣一種工具:它通常運行在客戶 端處的網絡瀏覽器上,W使得能夠對來自網絡瀏覽器所顯示的網頁的內容進行剪輯。其它 工具和輸入機制可W用于聚集并且存儲內容。例如,可W通過麥克風和攝像頭捕獲音頻或 視頻,且可W通過鍵盤、鍵板、觸摸屏或鼠標來捕獲某些文本。
[0004] 當在筆記本應用中時用戶可W對捕獲到筆記本中的內容進行注釋、加標簽W及W 其它方式進行組織。通常,將內容的基本拷貝/粘貼或截屏/照片捕獲到筆記本中。例如,網 頁的捕獲通常可W包括廣告,且在一些案例中包括網頁的導航條W及其它元素。相似地,其 它輸入(例如照片)也可W被筆記本應用照原樣直接捕獲。
【發明內容】
[0005] 基于針對所捕獲的數據的已識別的實體,可W將所捕獲的數據進行轉換和擴增W 用于在文檔中的特定呈現(例如,筆記本應用中的筆記)。可W基于實體檢測、提取W及知識 庫解析與檢索來提供對所捕獲的數據的特定呈現。
[0006] 對輸入到筆記本應用中的信息進行呈現與擴增的方法可W包括:接收針對與輸入 到筆記本應用中的項目相關聯的內容的一個或多個結構化呈現,識別所述項目的首要實體 (primary entity),并且至少根據所述項目的一個或多個結構化呈現為該項目的首要實體 創建實體對象。可W根據針對所述首要實體的模板來將所述實體對象呈現在到筆記本應用 的用戶接口中。模板可W選自對應于不同的首要實體的一組模板,W使得針對一個首要實 體的布置和呈現與針對另一個首要實體的不同。
[0007] 可W提供便于對所捕獲的數據進行的實體特定的呈現的系統和服務。所述系統可 W包括支持筆記本應用捕獲服務的一個或多個服務器,所述筆記本應用捕獲服務能夠基于 所捕獲的內容的已確定的首要實體來增強對所捕獲的內容的呈現。所述服務能夠根據針對 與輸入到筆記本應用中的項目相關聯的內容的至少一個或多個結構化呈現為所述項目的 首要實體創建實體對象。實體對象可W包括從所述項目提取的內容,W及為了對從所述項 目中捕獲的數據進行擴增而檢索的另外的內容。
[000引還可W提供運樣的系統,其中能夠根據實體特定的模板顯示與輸入到筆記本應用 中的項目相關聯的內容的實體對象。該系統可W為與輸入到筆記本應用中的項目相關聯的 內容請求實體對象,并且,在所述筆記本應用的用戶接口中,能夠顯現對所述實體內容的實 體特定的呈現。
[0009] 所述項目可W是統一資源定位符化化)、音頻、視頻、圖像(照片、圖形等)、字處理 文檔、超文本標記語言化TML)文檔、演示文稿文檔(presentation document)、Adobe夠 可移植文檔格式(PDF)等。所述項目的首要實體可W通過對筆記本應用所捕獲的或W其他 方式輸入到筆記本應用的內容(或數據)進行的實體確定(entity determination)來識別。 可W根據所述項目的至少一個或多個結構化呈現來創建實體對象。在一些案例中,所述內 容的一個或多個結構化呈現(例如,來自內容源、知識庫或兩者),可W用于便于對所述項目 的首要實體的識別。
[0010] 提供本
【發明內容】
是為了 W簡化形式引入各式各樣的概念,運些概念在下文中在具 體實施方式中進一步描述。本
【發明內容】
并不是想要標識所要求保護的主題的關鍵特征或本 質特征,也不是想要用于限定所要求保護的主題的范圍。
【附圖說明】
[0011] 圖1示出了用于捕獲數據的操作環境。
[0012] 圖2示出了一種實施方式的過程流程圖。
[0013] 圖3示出了示例捕獲服務的功能圖。
[0014] 圖4示出了根據多個模型進行的實體對象創建。
[0015] 圖5示出了針對具有用戶接口的系統的功能圖。
[0016] 圖6示出了根據一種實施方式的捕獲服務的示例過程流程。
[0017]圖7A和7B示出了其中在網絡剪輯中已辨識的實體被分配了實體容器的示例場景。 [001引圖8A-8E示出了根據一種實施方式的示例場景的過程流程的用戶接口。
[0019] 圖9A-9G示出了根據一種實施方式的示例場景。
[0020] 圖10A-10D示出了用于捕獲和呈現圖像項目的場景。
[0021 ]圖1IA-IIC示出了用于捕獲和呈現圖像項目的另一個場景。
[0022] 圖12示出了用于捕獲和呈現圖像項目的又一個場景。
[0023] 圖13A-13C示出了捕獲與ML相關聯的內容的場景
[0024] 圖14示出了對所捕獲的U化的經擴增的呈現。
[0025] 圖15A-15C示出了具有針對某種實施方式的過程流程的系統架構圖。
[00%]圖16示出了可W被實現用于捕獲服務的實體挖掘引擎(entity mining engine) 的系統架構。
[0027] 圖17是示出了在一些實施例中使用的計算設備的組件的方框圖。
[0028] 圖18示出了可W用于實現本文中所描述的方法和服務的計算系統的組件。
【具體實施方式】
[0029] 基于針對所捕獲的數據的已識別的實體,可W將所捕獲的數據轉換和擴增,W用 于在文檔中的特定的呈現,諸如筆記本應用的筆記。能夠基于實體檢測、提取W及知識庫解 析與檢索來提供對所捕獲的數據的特定呈現。
[0030] 所述項目可W是URU音頻、視頻、圖像(照片、圖形等)、字處理文檔、HTML文檔、演 示文稿文檔、PDF等。所述項目的首要實體可W通過對與所述項目相關聯的內容(或其它數 據)進行的實體確定來識別,并且通過筆記本應用來捕獲或者W其他方式輸入到筆記本應 用。所述內容可W是例如來自網頁或其他文檔文件類型(包括HTML、PDF、MicrosoftWord ?;文檔(DOC)、辦公室開放可擴展標記語言(OOXML)格式(DOCX)等文件格式)的音頻、照片、 視頻、格式、風格、布局和/或文本。
[0031] 在一些案例中,文檔理解技術可W用于解析所述內容,W便于識別和理解頁面上 的對象(例如,實體類型確定)。W此方式,有可能理解在頁面上的是什么,例如,在該內容是 關于電影、書、食譜、商業合同等的情況下。
[0032] 實體可W指的是人物、地點、事物、事件、任務或概念。實體的對象設及的是該實體 的有形的形式。如果實體具有至少一個特定屬性并且不依賴于另一實體,則該實體是強實 體類型。例如,"指環王"命名了 "書"實體類型的一個對象,該對象可W利用可包括標題、作 者W及國際標準書號(ISBM)號碼的屬性來限定。"書"實體可W被視為強實體類型,而 "ISBN"是依賴于書的而將不被視為強實體類型。
[0033] 由于可W有許多從內容中識別的實體,因此"首要實體(primary entity)"指的是 可W用于定義內容的主要的占主導地位的實體。例如,首要實體可W是"書"、"食譜"、"商務 名片"或其它特定實體,其當被確定存在于所捕獲的內容中時,便于對用于呈現針對所述內 容創建的所述實體對象的模板的選擇。沒有必要讓所有實體都具有一個對應的模板。在一 些案例中,可W針對不具有(一個或多個)特定的相關聯的模板的那些首要實體使用缺省模 板。
[0034] 在一些方法中,服務根據與輸入到筆記本應用中的項目相關聯的內容來進行實體 確定,并且創建由結構化數據構成的實體對象,例如本文中描述的實體容器,其提供了一個 對象W及該對象的一個或多個屬性(屬性元素)。在一些實施方式中,實體容器還包括服務 元素。服務元素可W使得用戶能夠采取與該實體相關的行動(例如,購買項目、設定日歷事 件、分享W及推薦項目)。可W使得對于服務元素可用的服務從多種在線服務中可用。對象 的屬性可W從互聯網上的多個源獲得。
[0035] 實體對象可W利用項目的一個或多個結構化呈現來創建。術語"實體對象"和"實 體容器"在本文可W互換地使用,W用于指代將所捕獲的內容擴增到與已識別的首要實體 關聯的特定的結構化格式。一個或多個結構化呈現可W包括由網絡數據服務所創建的模型 (或專題卡片),其用來描述(并且存儲信息關于)一個網站和/或一個或多個網頁。除了由網 絡數據服務提供的那些W外,結構化呈現可W在知識庫中發現或可W從內容源中得到(例 如,內建到網頁或其它文檔中,該網頁或其它文檔由輸入到筆記本應用中的項目所引用或 者作為輸入到筆記本應用中的項目被包括)。在一些案例中,所述內容的一個或多個結構化 呈現(例如,來自內容源、知識庫或兩者)可W用于便于對該項目的首要實體的識別。
[0036] 在某些實施方式中,頁面上的(或從各個不同位置處的源檢索的)元素可W被布置 成結構化數據,W使得信息可W W上下文適當(contextual appropriate)的方式被示出 (例如,擅染(render))。可W提供模板,W使得為輸入到筆記本應用中的項目而創建的實體 對象可W基于已識別的首要實體來呈現。也即,用戶試圖捕獲的事物(也即,實體)的經轉換 的視圖可W被呈現并被存儲。運也可W針對設備而調整(例如,取決于可用帶寬、顯示器屏 幕尺寸、用來查看的應用、W及其它客戶端特定的特性)。
[0037] 對于URL,網站頁面(或其它文檔)可W被轉換,W用于基于根據該網站頁面識別的 首要實體而進行的呈現。可W針對網站頁面(或其它文檔)的內容創建實體對象,并且根據 與該首要實體相關聯的模板而呈現。例如,食譜的首要實體可W使得選擇用于呈現為該食 譜創建的實體對象的食譜模板,該食譜模板使得用戶能夠根據配料的列表來核對配料的使 用或購買。
[0038] 對于圖像,如果圖像能夠具有待提取的信息并且能夠被分類為可識別的實體,貝U 可W為該圖像的內容創建實體對象,并且可W將該圖像的內容進行轉換W用于基于已識別 的首要實體來進行呈現。例如,被識別為具有商務名片的首要實體的圖像,可W被轉換成由 關于該商務名片所提供的聯系信息的個人的信息構成的表格。在圖像中(或網站頁面或其 它文檔的內容)未發現但卻與所述首要實體相關的另外的信息,可W通過知識庫來獲得。對 于商務名片的例子,關于該個人的補充信息可W通過社交媒體網站例如LinkedhT貨來獲 得。
[0039] 有利地,某些實施方式提供了 W下能力:捕獲結構化內容,并且在經過捕獲、召回 (recall) W及再利用的過程中自始至終維持其語義。運使得用戶能夠捕獲用戶真正感興趣 的信息,并且W優選的位置和格式將其存儲。此外,相關的信息一旦被召回,就可W在正確 的時間和地點成為可W訪問的。
[0040] 描述了對被收集、授權、消費或剪輯的內容進行的擴增或其它增強。對于給內容提 供擴增的服務入口點(ent巧point)可W是,例如,來自剪輯器、閱讀器、文檔或圖像察看 器、文字處理W及其它生產力應用、收集和積釀應用、W及消息收發應用。
[0041] 描述了給用戶提供內容捕獲選項的技術,所述技術辨識所捕獲的內容的主題并且 供應與所捕獲的主題相關的另外的信息(原本該信息在捕獲的時刻不是立即提供給用戶 的)。此擴增,連同其它增強一起,可W是自動的,或響應于用戶的請求而執行。擴增服務被 呈現為可W作為捕獲服務(例如,與筆記本應用相關聯的服務,例如Microsoft OneNo化飯 或EveniO化瑕)的一部分而提供。
[0042] 在一些案例中,擴增是在收集的時刻(例如,當用戶從網頁剪輯內容時,或緊接著 將項目輸入到筆記之后)進行的。在一些案例中,擴增可W在當用戶對在文檔中(例如,在筆 記本應用的筆記中)的內容進行修改或操縱時執行。在一些案例中,所述擴增可W當該內容 正在被保存到文檔中時執行。其它案例也可W適合于自動的或用戶請求的擴增。
[0043] 擴增的內容可W包括比在項目中所提供的更為特定和/或相關的內容。捕獲服務 通過訪問與所述內容相關的另外的信息和/或W定制的且便利的方式操縱所述內容,來便 于對內容的擴增。
[0044] 對內容的擴增還可W便于利用項目、首要實體、首要實體的對象、實體對象或實體 對象的屬性來采取的行動。此外,可W通過對正被收集的主體(實體)進行理解,來促進增強 的用戶體驗。某些實施方式將結構和語義應用到用戶的筆記,W便于.增強整體體驗。
[0045] 圖1示出了用于捕獲數據的操作環境。參考圖1,捕獲服務115可W促進對輸入到筆 記本應用中的剪輯或其它項目進行的實體確定與擴增,W包括與實體相關的特征和/或功 能。作為實體確定的一部分,可W關于正在捕獲的內容執行實體辨識。此過程可W在客戶端 100處本地執行或是作為捕獲服務115的一部分執行。
[0046] 根據一個實施例的捕獲服務115執行一些處理W針對應用對剪輯(clipping)進行 定制或擴增。捕獲服務115可W提供擴增服務(無論是直接地或間接地),并且可W提供用于 擴增服務的應用編程接口。擴增服務可W與捕獲集成地或相獨立地提供。
[0047] 捕獲服務115可W是運樣的網絡服務,其可W托管化OSt)于云中或者通過一個或 多個由提供筆記本服務或捕獲服務的實體分配的服務器運行。
[0048] 云服務一般指的是提供可W擴展的(scalable)處理和存儲功能的托管服務。云計 算通常可W包括虛擬化的資源。通過云計算呈現的資源W它們本身作為服務提供,其中云 計算顧客租賃使用來自擁有物理基礎設施的第=方提供商的資源。網絡服務可W由云服務 提供和/或托管(例如,作為大規模分布式計算環境的一部分)。網絡服務是運樣的軟件系 統:其支持在網絡上的可W互通的機器到機器的交互,并且使得軟件能夠連接到其它軟件 應用。
[0049] 網絡服務提供了一批技術標準和協議。例如,網絡服務提供了可W通過發送和接 收消息的軟件代理或硬件代理來實現的功能(例如,計算平臺請求和提供特定服務)。應用 可W通過普遍存在的網絡協議和數據格式來訪問網絡服務,例如超文本傳輸協議化TTP)、 XML JavaScript對象注釋(JavaScript object Notation, JSON)、W及S0AP(起初是簡單對 象訪問協議(simple object access protocol)的縮略詞)。本文中描述的系統、應用和服 務可W根據一個或多個應用編程接口(API)來交換通信。
[0050] (-個或多個)客戶端100可W用于瀏覽網絡和運行應用例如消息收發應用102、瀏 覽器104, W