亚洲精品亚洲人成人网_免费看日韩精品_6080日韩午夜伦伦午夜伦_欧美日韩一区久久_国产精品电影一区_一道本成人在线_日产国产欧美视频一区精品_69视频在线播放_久久久久亚洲蜜桃_亚洲国产你懂的

首頁>國內 > 正文

學術黨狂喜,Meta推出OCR神器,PDF、數學公式都能轉

2023-08-30 13:24:21來源:機器之心

我們平時在閱讀論文或者科學文獻時,見到的文件格式基本上是 PDF(Portable Document Format)。據了解,PDF 成為互聯網上第二重要的數據格式,占總訪問量的 2.4%。

然而,存儲在 PDF 等文件中的信息很難轉成其他格式,尤其對數學公式更是顯得無能為力,因為轉換過程中很大程度上會丟失信息。就像下圖所展示的,帶有數學公式的 PDF,轉換起來就比較麻煩。

現在,Meta AI 推出了一個 OCR 神器,可以很好的解決這個難題,該神器被命名為 Nougat。Nougat 基于 Transformer 模型構建而成,可以輕松的將 PDF 文檔轉換為 MultiMarkdown,掃描版的 PDF 也能轉換,讓人頭疼的數學公式也不在話下。


(資料圖)

論文地址:https://arxiv.org/pdf/2308.13418v1.pdf項目主頁:https://facebookresearch.github.io/nougat/

Nougat 不但可以識別文本中出現的簡單公式,還能較為準確地轉換復雜的數學公式。

公式中出現的上標、下標等各種數學格式也分的清清楚楚:

Nougat 還能識別表格:

掃描產生畸變的文本也能處理:

不過,Nougat 生成的文檔中不包含圖片,如下面的柱狀圖:

看到這,網友紛紛表示:(轉換)效果真是絕了。

方法概述

本文架構是一個編碼器 - 解碼器 Transformer 架構,允許端到端的訓練,并以 Donut 架構為基礎。該模型不需要任何 OCR 相關輸入或模塊,文本由網絡隱式識別。該方法的概述見下圖 1。

該研究用到了 2 個 Swin Transformer ,一個參數量為 350M,可處理的序列長度為 4096,另一參數量為 250M,序列長度為 3584。在推理過程中,使用貪婪解碼生成文本。

在圖像識別任務中,使用數據增強技術來提高泛化能力往往是有益的。由于本文只研究數字化的學術研究論文,因此需要使用一些變換來模擬掃描文件的不完美和多變性。這些變換包括侵蝕、擴張、高斯噪聲、高斯模糊、位圖轉換、圖像壓縮、網格變形和彈性變換 。每種變換都有固定的概率應用于給定的圖像。這些變換在 Albumentations 庫中實現。在訓練過程中,研究團隊也會通過隨機替換 token 的方式,對實際文本添加擾動。

每種變換的效果概覽

數據集構建與處理

據研究團隊所知,目前還沒有 PDF 頁面和相應源代碼的配對數據集,因此他們從 arXiv 上開放獲取的文章中創建了自己的數據集。為了數據多樣性,數據集中還包括 PubMed Central (PMC) 開放訪問非商業數據集的一個子集。預訓練期間,還加入了部分行業文檔庫 (IDL)。

表 1 數據集構成

在處理數據集的過程中,研究團隊也將不同來源的數據進行了合適的處理,下圖展示了他們對 arXiv 文章進行源代碼收集并編譯 PDF 的過程。詳細內容請閱讀全文。

源文件被轉換成 HTML,然后再轉換成 Markdown。

研究團隊根據 PDF 文件中的分頁符分割 markdown 文件,并將每個頁面柵格化為圖像以創建最終配對的數據集。在編譯過程中,LaTeX 編譯器自動確定 PDF 文件的分頁符。由于他們不會為每篇論文重新編譯 LaTeX 源文件,因此必須將源文件分割成若干部分,分別對應不同的頁面。為此,他們使用 PDF 頁面上的嵌入文本,并將其與源文本進行匹配。

但是,PDF 中的圖形和表可能并不對應于它們在源代碼中的位置。為了解決這個問題,研究團隊使用 pdffigures2 在預處理步驟中刪除這些元素。將識別出的字幕與 XML 文件中的字幕進行比較,根據它們的 Levenshtein 距離進行匹配。一旦源文檔被拆分為單獨的頁面,刪除的圖形和表就會重新插入到每一頁的末尾。為了更好地匹配,他們還使用 pylatexence -library 將 PDF 文本中的 unicode 字符替換為相應的 LaTeX 命令。

詞袋匹配:首先,研究團隊使用 MuPDF 從 PDF 中提取文本行,并對其進行預處理,刪除頁碼和頁眉 / 頁腳。然后使用詞袋模型與 TF-IDF 向量化器和線性支持向量機分類器。將模型擬合到以頁碼為標簽的 PDF 行。然后,他們將 LaTeX 源代碼分成段落,并預測每個段落的頁碼。理想情況下,預測將形成階梯函數,但在實踐中,信號將有噪音。為了找到最佳邊界點,他們采用類似于決策樹的邏輯,并最小化基于 Gini 不純度的度量:

其中是在區間 [a,b] 中選擇具有預測頁碼 i 的元素的概率,該區間描述了哪些段落 (元素) 被考慮用于分割。

區間 [a, b] 的最佳拆分位置 t 為:

搜索過程從所有段落開始,對于后續的每個分頁,搜索區間的下界設置為前一個分頁位置。

模糊匹配:在第一次粗略的文檔分割之后,研究團隊嘗試找到段落中的準確位置。通過使用 fuzzysearch 庫,將預測分割位置附近的源文本與嵌入的 PDF 文本的前一頁的最后一個句子和下一頁的第一個句子進行比較,就可以達到這個目的。如果兩個分隔點在源文本中的相同位置,則認為換頁是準確的,得分為 1。另一方面,如果分割位置不同,則選擇具有最小歸一化 Levenshtein 距離的分割位置,并給出 1 減距離的分數。要包含在數據集中,PDF 頁面的兩個分頁符的平均得分必須至少為 0.9。如此一來,所有頁面的接受率約為 47%。

實驗

實驗中用到的文本包含三種類別:純文本、數學表達式以及表格。

結果如表 1 所示。Nougat 優于其他方法,在所有指標中取得最高分,并且具有 250M 參數模型的性能與 350M 參數模型相當。

下圖為 Nougat 優對一篇論文的轉換結果:

Meta 表示,Nougat 在配備 NVIDIA A10G 顯卡和 24GB VRAM 機器上可并行處理 6 個頁面,生成速度在很大程度上取決于給定頁面上的文本量。在不進行任何推理優化的情況下,基礎模型每批次平均生成時間為 19.5s(token 數≈1400),與經典方法(GROBID 10.6 PDF/s )相比速度還是非常慢的,但 Nougat 可以正確解析數學表達式。

關鍵詞:

相關新聞

Copyright 2015-2020   三好網  版權所有 聯系郵箱:435 22 640@qq.com  備案號: 京ICP備2022022245號-21
亚洲精品亚洲人成人网_免费看日韩精品_6080日韩午夜伦伦午夜伦_欧美日韩一区久久_国产精品电影一区_一道本成人在线_日产国产欧美视频一区精品_69视频在线播放_久久久久亚洲蜜桃_亚洲国产你懂的
欧美猛男男办公室激情| 91免费观看视频| 午夜精品久久久久久久久 | eeuss鲁片一区二区三区| 欧美成人bangbros| 91欧美一区二区| 免费精品视频在线| 一区二区在线看| 首页综合国产亚洲丝袜| 国产专区欧美精品| 一区二区三区日韩欧美| 亚洲色图一区二区三区| 精品视频在线免费看| 91日韩一区二区三区| 91精品在线麻豆| 亚洲成人自拍网| 久久亚区不卡日本| 亚洲成人先锋电影| 日韩一级片网址| 91美女片黄在线观看91美女| 亚洲一区在线观看视频| 国产精品女主播av| 亚洲一区在线电影| 亚洲第一福利视频在线| 亚洲国产综合在线| 久久精工是国产品牌吗| 国产精品网站一区| 日韩视频在线观看一区二区| 欧美特级限制片免费在线观看| 久久精品国产久精国产| 欧美xxxx在线观看| 欧美日韩精品福利| 欧美一级欧美三级| 波多野结衣一区二区三区 | 国产99久久久国产精品潘金| 风流少妇一区二区| 制服视频三区第一页精品| 欧美人xxxx| 精品国一区二区三区| 欧美大白屁股肥臀xxxxxx| 日韩一区二区三区四区| 久久嫩草精品久久久精品一| 中文乱码免费一区二区| 日本在线不卡一区| 国产精品996| 麻豆91免费观看| 美国精品在线观看| 韩国视频一区二区| 日本午夜精品一区二区三区电影| proumb性欧美在线观看| 亚洲蜜臀av乱码久久精品| 狠狠狠色丁香婷婷综合激情| 国产精品综合久久| 欧美在线你懂得| 亚洲国产精品自拍| 成人国产一区二区三区精品| 久久久三级国产网站| 国产精品一区在线观看乱码| 日韩西西人体444www| 亚洲国产精品一区二区www在线| 99热99精品| 免费久久99精品国产| 日本一区二区三区电影| 成a人片亚洲日本久久| 亚洲一区二区视频| 久久嫩草精品久久久久| 成a人片国产精品| 亚洲影视在线播放| 久久影院视频免费| 日本美女一区二区三区| 久久精品国产77777蜜臀| 久久久精品国产免大香伊 | 国产成人精品www牛牛影视| 热久久免费视频| 久久精品视频在线免费观看| 欧美写真视频网站| 国产精品一区二区三区四区| 99久久精品国产一区| 91麻豆自制传媒国产之光| 国产精品久久久久影院色老大| 国产福利一区二区三区视频| 久久不见久久见中文字幕免费| 亚洲一区二区视频在线| 中文一区一区三区高中清不卡| 久久九九国产精品| 亚洲一区二区精品视频| 国产精品视频九色porn| 久久综合av免费| 国产视频在线观看一区二区三区 | 久久国产日韩欧美精品| 中文字幕一区二区不卡| 亚洲色图一区二区三区| 亚洲一区二区美女| 久久激五月天综合精品| 国产高清精品在线| 欧美日韩一区二区三区在线看| 精品成人a区在线观看| 日韩三级视频中文字幕| 国产麻豆视频精品| 国产精品美女久久久久av爽李琼| 91理论电影在线观看| 精品剧情在线观看| 欧美变态口味重另类| 亚洲国产综合在线| 丁香五精品蜜臀久久久久99网站| 不卡av在线免费观看| 久久91精品国产91久久小草| 99久久婷婷国产综合精品| 欧美精品在欧美一区二区少妇| 中文字幕不卡在线观看| 美日韩一区二区三区| 在线视频你懂得一区| 亚洲色图在线看| www.在线欧美| 国产精品国产三级国产专播品爱网| 国产一区二区视频在线播放| 欧美日韩成人综合天天影院| 亚洲男帅同性gay1069| 色就色 综合激情| 欧美日韩精品一区二区三区| 亚洲手机成人高清视频| 亚洲综合免费观看高清完整版在线 | 国产夫妻精品视频| 久久久午夜电影| 99国产精品久久久久| 中文字幕免费不卡在线| 欧美日韩亚洲综合在线| 天堂蜜桃91精品| 国产精品久久久久久久午夜片| 国产风韵犹存在线视精品| 亚洲日本青草视频在线怡红院| 国产黄色精品视频| 三级欧美在线一区| **欧美大码日韩| 91九色最新地址| 精品亚洲aⅴ乱码一区二区三区| 久久久久久久久久久久久久久99| 在线一区二区三区四区五区| 国产精品一区二区三区网站| 国产精品成人网| 久久久久88色偷偷免费| 欧美三级日韩在线| 在线亚洲一区二区| 成人黄色大片在线观看| 久久91精品久久久久久秒播| 美女视频一区二区三区| av一区二区三区四区| 亚洲一区二区四区蜜桃| 国产一区三区三区| 国产精品久久久久久久久免费相片 | 中文幕一区二区三区久久蜜桃| 制服丝袜激情欧洲亚洲| 欧美一级片免费看| 日韩女优av电影在线观看| 99久久久无码国产精品| 午夜私人影院久久久久| 狠狠色狠狠色综合日日91app| 国产乱子伦一区二区三区国色天香| 午夜精品久久久| 国产在线精品一区二区| 色综合色狠狠天天综合色| aaa国产一区| 欧美日韩视频不卡| 国产亚洲va综合人人澡精品| 亚洲国产精品成人久久综合一区| 亚洲观看高清完整版在线观看| 轻轻草成人在线| 色天使久久综合网天天| 久久久欧美精品sm网站| 亚洲人123区| 国产成人在线影院| 久久久久九九视频| 欧美精彩视频一区二区三区| 丝袜诱惑亚洲看片 | 成人app下载| 日本韩国一区二区三区视频| 欧美三级三级三级| 国产精品你懂的在线欣赏| 国产在线视频不卡二| 777奇米四色成人影色区| 午夜精品久久久久久久久| 91蜜桃传媒精品久久久一区二区| 国产一区二区三区免费观看| 亚洲一区二区三区中文字幕| 亚洲午夜精品网| 亚洲精选一二三| 国产亚洲精久久久久久| 欧美一区二区三区在线| 欧美日韩视频在线一区二区| 欧美午夜片在线观看| 国产一区二区视频在线播放| 丝瓜av网站精品一区二区 | 91国偷自产一区二区三区观看| 成人免费黄色在线| 久久久国产精华| 成人av手机在线观看| 日韩国产一区二| 国产精品成人免费| 欧美一区二区网站| 粉嫩在线一区二区三区视频|