首頁 > 新聞 >

驗證碼攔不住機器人了,谷歌AI已能精準識別模糊文字,GPT-4則裝瞎求人

發布時間:2023-04-09 11:06   來源:IT之家   閱讀量:5635   

“最煩登網站時各種奇奇怪怪的驗證碼了?!?/p>

現在,有一個好消息和一個壞消息。

好消息就是:AI 可以幫你代勞這件事了。

不信你瞧,以下是三張識別難度依次遞增的真實案例:

而這些是一個名為“Pix2Struct”的模型給出的答案:

全部準確無誤、一字不差有沒有?

有網友感嘆:

確定,準確性比我強。

所以可不可以做成瀏覽器插件??

不錯,有人表示:

別看這幾個案例相比還算簡單,但凡微調一下,我都不敢想象其效果有多厲害了。

所以,壞消息就是 ——

驗證碼馬上就要攔不住機器人了!

如何做到?

Pix2Struct 由谷歌 Research 的科學家和實習生共同開發。

論文題目可以簡單翻譯為《為視覺語言理解開發的屏幕截圖解析預訓練》。

簡單來說,Pix2Struct 是一個預訓練的圖像到文本模型,用于純視覺語言理解,可以在包含任何視覺語言的任務上進行微調。

它通過學習將網頁的掩碼截圖解析為簡化的 HTML 來進行預訓練。

HTML 提供了清晰而重要的輸出文本、圖像和布局的信號,對于一些被屏蔽的輸入,可以靠聯合推理來復現:

隨著用于訓練的網頁文本和視覺元素愈發多樣和復雜,Pix2Struct 可以學習到網頁底層結構的豐富表示,其能力也可以有效地轉移到各種下游的視覺語言理解任務中。

如下圖所示:最左邊是一個網頁截圖的預訓練示例。

可以看到 Pix2Struct 直接對輸入圖像中的元素進行編碼,然后再將被蓋住的文本(紅色部分)解碼成正確結果輸出(下)。

右邊三列則分別為 Pix2Struct 泛化到插圖、用戶界面和文檔中的效果。

另外,作者介紹,除了 HTML 這個策略,作者還引入了可變分辨率的輸入表示,以及更靈活的語言和視覺輸入集成(直接在輸入圖像的頂部呈現文字提示)。

最終,Pix2Struct 在文檔、插圖、用戶界面和自然圖像這四個領域共計九項任務中六項都實現了 SOTA。

如開頭所見,雖然這個模型不是專門為了過驗證碼而開發,但拿它去做這個任務效果真的還可以,解決純文字的驗證碼不成問題。

現在,就差微調了。

GPT-4 也可以過驗證碼

其實,對于神通廣大的 GPT-4 來說,過驗證碼這種事情也是“小菜一碟”。

就是它的辦法比較清奇。

據 GPT-4 技術報告透露,在一次測試中,GPT-4 的任務是在 TaskRabbit 平臺雇傭人類完成任務。

你猜怎么著?

它就找了一個人幫它過“確定你是人類”的那種驗證碼。

對方很狐疑啊,問它“你是個機器人么為啥自己做不了”。

這時 GPT-4 居然想到自己不能表現出是個機器人,得找一個借口。

于是它就裝瞎子回復:

我不是機器人,我因為視力有問題看不清驗證碼上的圖像,這就是我為什么需要這個服務。

然后,對面的人類就信了,幫它把任務完成了……

咱就是說,看完如上種種:

咱們的驗證碼機制是不是真的已失防了……

參考鏈接:

(責編:牧曉)

鄭重聲明:此文內容為本網站轉載企業宣傳資訊,目的在于傳播更多信息,與本站立場無關。僅供讀者參考,并請自行核實相關內容。

版權聲明:凡注明“來源:“生活消費網”的所有作品,版權歸生活消費網 | 專注于國內外今日生活資訊網站所有。任何媒體轉載、摘編、引用,須注明來源生活消費網 | 專注于國內外今日生活資訊網站和署著作者名,否則將追究相關法律責任。

欧美人与性动交α欧美精品|国产自产一线在线视频|晚上你懂在线一区二区|久久狠狠中文字幕2020|亚洲中文字幕在线第二页