欧美肉体xxxx裸体137大胆 I 3d动漫精品啪啪一区二区下载 I 乱码国产丰满人妻www I 伊人久久乐 I 九月婷婷人人澡人人添人人爽 I 欧美日韩一二区 I 99在线观看视频 I 亚洲,国产成人av I 色婷婷婷婷 I 亚洲蜜臀av国产aⅴ综合小说 I 污片网站在线免费观看 I 在线看片免费人成视频大全 I 国产乱子伦精品无码码专区 I 亚洲视频一区二区三区 I 久久国产人妻一区二区免费 I 福利视频三区 I 99精品欧美一区二区三区视频 I 日本一级二级视频 I 国产在线看片 I 一级在线毛片 I a天堂在线视频 I 欧美在线视频网 I 精品欧洲av无码一区二区三区 I 国产高清japanese在线播放e I 亚洲制服丝袜中文字幕自拍 I 啪啪无码人妻丰满熟妇 I 五月婷婷久久久 I 帮老师解开蕾丝奶罩吸乳视频 I 东北女人啪啪ⅹxx对白 I 日韩一级片免费看 I 亚洲天堂精品视频在线观看 I 日本成人中文字幕在线视频 I 免费黄色在线网 I 久久,天天综合 I 国产有色视频色综合

?
公司新聞
當前位置: 首頁 > 新聞中心 > 公司新聞 > AI干貨丨明朝萬達中文地址信息智能治理實踐 返回
AI干貨丨明朝萬達中文地址信息智能治理實踐
發(fā)布時間:2020-07-21 打印 字號:



大數(shù)據(jù)時代背景下,數(shù)據(jù)的價值越來越受到社會各界的重視,各類基于大量數(shù)據(jù)的信息處理平臺不斷涌現(xiàn),而如何實現(xiàn)對信息系統(tǒng)中數(shù)據(jù)規(guī)范化管理及使用,成為擺在眾人面前重要的問題。


信息系統(tǒng),是指由計算機硬件、網(wǎng)絡和通訊設備、計算機軟件、信息資源、信息用戶和規(guī)章制度組成的以處理信息流為目的的人機一體化系統(tǒng)。簡單地說,信息系統(tǒng)就是輸入數(shù)據(jù)信息,通過加工處理產生信息的系統(tǒng)。


盡管信息系統(tǒng)根據(jù)具體搭建目的不同,需要收錄、使用的數(shù)據(jù)也不盡相同,但諸多系統(tǒng)都面臨一個共同的問題:平臺數(shù)據(jù)來源多樣,格式混亂,阻礙數(shù)據(jù)進一步使用。


因此,信息治理首先需要解決的就是數(shù)據(jù)不規(guī)范。今日,明朝萬達數(shù)據(jù)專家將以“基于字典樹的中文地址信息治理”為例,為您解讀數(shù)據(jù)處理的具體措施。


字典樹(單詞查找樹)應用背景


目前,信息系統(tǒng)中會記錄多種地址字段,包括單位地址、收件地址、寄件地址、住所地址等。字段中又包含區(qū)域信息(省、市、區(qū)/縣)和詳細信息(街道、街道號/小區(qū)名稱、樓號、樓層、房間號等)。以上地址信息可用于信息關聯(lián)、信息統(tǒng)計、信息分類等,具有很大的利用價值

但是由于地址信息的來源存在多樣性、不可控性,導致大量的地址數(shù)據(jù)不規(guī)范,對系統(tǒng)合理充分利用形成了一定的阻礙。因此:

對地址信息進行標準化處理來提高地址信息的利用率,成為信息系統(tǒng)很重要的一項功能。




實現(xiàn)目標


01 區(qū)域信息治理

在地址信息中,提取或者還原省、市、區(qū)/縣信息


02 詳細信息治理

在地址信息中,提取區(qū)域信息以外的數(shù)據(jù),并按照詳細規(guī)范進行數(shù)據(jù)格式化輸出。


處理過程


步驟一:使用最新的民政部行政區(qū)劃代碼,構建兩棵字典樹

綠色代表葉子節(jié)點,葉子節(jié)點存儲完整的區(qū)域信息。

舉例:在完整字典樹中北辰區(qū)節(jié)點存儲:天津,天津市,北辰區(qū);在縮略字典樹中西安節(jié)點存儲:陜西省,西安市&吉林省,遼源市,西安區(qū)&黑龍江省,牡丹江市,西安區(qū)。



步驟二:區(qū)域信息計算

將地址信息在完整字典樹中從前向后進行掃描。

如果命中完整字典樹某一個分支,設置閾值1.0, 讀取保存的省市區(qū)縣信息;

接著在縮略字典樹中進行掃描。

設置閾值為0.8,由于大部分地區(qū)會以某些城市名稱作為街道命名,故程序在處理過程中,向后探先探一位,如果包含“街”,“道”,“路”,“鄉(xiāng)”,“鎮(zhèn)”,“弄”,“坊”等,則將前面命中的一個分支作為詳細信息處理。如果包含“東”,“南”,“西”,“北”,“中”,“一”,“二”,“三”,“四”,“五”等,再向后探一位,如果包含“街”,“道”,“路”,“鄉(xiāng)”,“鎮(zhèn)”,“弄”,“坊”等也作為詳細信息處理。

然后對各個省市縣信息進行閾值的累加。

最后和完整字典樹掃描的結果進行相加,然后就會得出最終的區(qū)域信息。

舉例:處理地址信息,西安雁塔區(qū)科技7路4號





根據(jù)權值計算,最終陜西?。簷嘀?.8,故省部分取陜西省,結合陜西省確定西安市,最后根據(jù)西安市確定雁塔區(qū),故最后區(qū)域信息為:陜西省,西安市,雁塔區(qū)。




步驟三:詳細信息處理

對詳細信息進行格式化處理。

使用xx街(路/道/弄等)xx號/小區(qū)xx樓xx單元/xx樓xx室,這樣的格式對詳細信息進行格式化。

以上,便是基于字典樹的中文地址信息治理方式。

信息系統(tǒng)所收錄的地址信息經(jīng)過字典樹處理后,利用程度得到進一步提高,同時提高了系統(tǒng)運作能力,促進集約化管理。


-----


作為中國新一代信息安全技術企業(yè),明朝萬達專注數(shù)據(jù)安全、公共安全、云安全、大數(shù)據(jù)安全等服務,客戶覆蓋金融、政府、公安、電信運營商等諸多領域,其中在金融領域數(shù)據(jù)安全的市場占有率超80%。

明朝萬達始終將技術創(chuàng)新作為企業(yè)的立足之本,截至2020年6月,公司已申請 300余項發(fā)明技術專利,累計授權專利 近100項,多項技術填補了國內空白并達到世界先進水平。


400-650-8968