姓名测试打分张宇 中国人重名统计,看看自己名字重名没?
中国人重名统计,看看自己名字重名没?
中国人重名最多的姓名(前30位)
张 伟 王 伟 王 芳 李 伟 李 娜 张 敏
李 静 王 静 刘 伟 王秀英 张 丽 李秀英
王 丽 张 静 张秀英 李 强 王 敏 李 敏
王 磊 刘 洋 王 艳 王 勇 李 军 张 勇
李 杰 张 杰 张 磊 王 强 李 娟 王 军
完全表:
序号姓名人数
1张伟299025
2王伟290619
3王芳277293
4李伟269453
5李娜258581
6张敏245553
7李静243644
8王静243339
9刘伟241621
10王秀英241189
11张丽241075
12李秀英240742
13王丽236097
14张静232060
15张秀英231114
16李强230717
17王敏223592
18李敏223469
19王磊219127
20刘洋214420
21王艳206119
22王勇204173
23李军204023
24张勇203077
25李杰202421
26张杰199789
27张磊198962
28王强195956
29李娟195589
30王军193723
31张艳191285
32张涛189994
33王涛189306
34李艳186355
35王超182177
36李明181766
37李勇179517
38王娟179066
39刘杰173929
40刘敏171588
41李霞170530
42李丽168449
43张军165861
44王杰165340
45张强164702
46王秀兰163712
47王刚159252
48王平157977
49刘芳157853
50张燕156485
51刘艳156017
52刘军155131
53李平154297
54王辉152741
55王燕152648
56陈静151251
57刘勇151215
58李玲151068
59李桂英150978
60王丹150747
61李刚149594
62李丹148848
63李萍148275
64王鹏148229
65刘涛148207
66陈伟148051
67张华148019
68刘静147728
69李涛147355
70王桂英146354
71张秀兰146279
72李红144601
73李超144127
74刘丽142900
75张桂英142832
76王玉兰142066
77李燕141459
78张鹏141117
79李秀兰140833
80张超140100
81王玲138984
82张玲138091
83李华137942
84王飞136507
85张玉兰135296
86王桂兰134275
87王英132456
88刘强132144
89陈秀英131958
90李英130583
91李辉129879
92李梅129766
93陈勇129146
94王鑫128418
95李芳128329
96张桂兰127187
97李波126381
98杨勇125993
99王霞124921
100李桂兰124888
101王斌124327
102李鹏124243
103张平122993
104张莉121695
105张辉121111
106张宇120902
107刘娟120412
108李斌120296
109王浩118216
110陈杰118148
111王凯117695
112陈丽117040
113陈敏116838
114王秀珍116735
115李玉兰116184
116刘秀英115846
117王萍115207
118王萍115207
119张波115154
120刘桂英114512
121杨秀英114136
122张英113588
123杨丽113258
124张健113192
125李俊112544
126李莉112468
127王波112443
128张红111746
129刘丹111655
130李鑫110962
131王莉110381
132杨静110053
133刘超109527
134张娟109261
135杨帆108762
136刘燕108644
137刘英108453
138李雪108205
139李秀珍107992
140张鑫107732
141王健107704
142刘玉兰107631
143刘辉107455
144刘波107449
145张浩107374
146张明107256
147陈燕107216
148张霞106861
149陈艳106819
150杨杰106101
151王帅105071
152李慧103740
153王雪103724
154杨军103320
155张旭103041
156刘刚102370
157王华101171
158杨敏100971
159王宁100589
160李宁100137
161王俊100021
162刘桂兰99840
163刘斌99492
164张萍99033
165王婷98814
166陈涛98615
167王玉梅98299
168王娜98216
169张斌98156
170陈龙98122
171李林98105
172王玉珍98065
173张凤英97223
174王红96964
175李凤英96873
176杨洋96576
177李婷96390
178张俊96055
179王林95966
180陈英95899
181陈军95842
182刘霞94948
183陈浩94863
184张凯94859
185王晶94100%
186陈芳94740
187张婷94720
188杨涛94637
189杨波94196
190陈红94006
191刘欢93863
192王玉英93799
193陈娟93744
194陈刚93522
195王慧93405
196张颖93140
197张林93106
198张娜92949
199张玉梅92586
200王凤英92505
201张玉英92390
202李红梅92231
203刘佳91951
204刘磊91470
205张倩91348
206刘鹏90903
207王旭90684
208张雪90450
209李阳90359
210张秀珍90112
211王梅89565
212王建华89148
213李玉梅89112
214王颖89022
215刘平88880
216杨梅88571
217李飞88396
218王亮88383
219李磊88102
220李建华88029
221王宇87917
222陈玲87558
223张建华87524
224刘鑫87308
225王倩86924
226张帅86732
227李健86475
228陈林85948
229李洋85833
230陈强85787
231赵静85594
232王成85432
233张玉珍85224
234陈超84976
235陈亮84471
236刘娜84091
237王琴84028
238张兰英83959
239张慧83681
240刘畅83456
241李倩83401
242杨艳82385
243张亮82044
244张建81744
245李云81208
246张琴81000
247王兰英80731
248李玉珍80572
249刘萍80388
250陈桂英80295
251刘颖80261
252杨超80153
253张梅79972
254陈平79940
255王建79928
256刘红79762
257赵伟79459
258张云79351
259张宁79244
260杨林79162
261张洁79146
262高峰78898
263王建国78782
264杨阳78382
265陈华78105
266杨华78075
267王建军77950
268杨柳77930
269刘阳77923
270王淑珍77681
271杨芳77645
272李春梅77453
273刘俊77413
274王海燕77307
275刘玲76919
276陈晨76912
277王欢76800
278李冬梅76777
279张龙76761
280陈波76568
281陈磊76518
282王云76394
283王峰76284
284王秀荣76208
285王瑞100%92
286李琴100%69
287李桂珍75634
288陈鹏75589
289王莹75533
290刘飞75516
291王秀云75415
292陈明75411
293王桂荣75397
294李浩75336
295王志强75143
296张丹75103
297李峰74881
298张红梅74520
299刘凤英74451
300李玉英74414
301王秀梅74402
302李佳74308
303王丽娟74225
304陈辉74195
305张婷婷73975
306张芳73888
307王婷婷73680
308王玉华73434
309张建国73419
310李兰英73413
311王桂珍73249
312李秀梅73221
313陈玉兰73104
314陈霞73068
315刘凯72970
316张玉华72895
317刘玉梅72773
318刘华72504
319李兵71559
320张雷71456
321王东71454
322李建军71395
323刘玉珍71141
324王琳71116
325李建国70799
326李颖70393
327杨伟70379
328李桂荣70269
329王龙70165
330刘婷70132
331陈秀兰70040
332张建军69822
333李秀荣69797
334刘明69679
335周敏69535
336张秀梅69475
337李雪梅69393
338黄伟69373
339张海燕69359
340王淑兰68960
341李志强68853
342杨磊68848
343李晶68767
344李婷婷68553
345张秀荣68346
346刘建华68298
347王丽丽68259
348赵敏68232
349陈云68231
350李海燕68163
351张桂荣68151
352张晶68119
353刘莉68026
354李凯68023
355张玉67871
356张峰67773
357刘秀兰67275
358张志强67271
359李龙67168
360李秀云67024
361李秀芳66746
362李帅66711
363李欣66637
364刘云66583
365张丽丽66369
366李洁66335
367张秀云66249
368王淑英66082
369王春梅66038
370王红梅65884
371陈斌65861
372李玉华65710
373李桂芳65646
374张莹65567
375陈飞65439
376王博65203
377刘浩65167
378黄秀英65086
379刘玉英64842
380李淑珍64842
381黄勇64746
382周伟64520
383王秀芳64411
384王丽华64150
385王丹丹64069
386李彬63966
387王桂香63959
388王坤63857
389刘慧63772
390李想63699
391张瑞63556
392张桂珍63383
393王淑华63375
394刘帅63364
395张飞63152
396张秀芳63056
397王洋62713
398陈洁62710
399张桂芳62681
400张丽娟62678
401王荣62561
402吴秀英62432
403杨明62105
404李桂香61863
405马丽61847
406刘倩61733
407杨秀兰61656
408杨玲61634
409王秀华61595
410杨平61560
411王彬61465
412李亮61419
413李荣61362
414李桂芝61306
415李琳61199
416李岩61102
417李建60967
418王兵60858
419王桂芳60701
420王明60622
421陈梅60385
422张春梅60327
423李杨60266
424王岩60135
425王冬梅59986
426刘峰59934
427李秀华59910
428李丹丹59875
429杨雪59778
430刘玉华59735
431马秀英59709
432张丽华59665
433张淑珍59490
434李小红59385
435张博59248
436王欣59172
437王桂芝59158
438赵丽59148
439张秀华59129
440张琳59116
441黄敏59029
442杨娟58945
443王金凤58572
444周杰58524
445王雷58345
446陈建华58276
447刘梅58263
448杨桂英57862
449李淑英57770
450陈玉英57697
451杨秀珍57619
452孙秀英57612
453赵军57539
454赵勇57537
455刘兵57490
456杨斌57411
457李文57293
458陈琳57098
459陈萍57041
460孙伟57040
461张利56981
462陈俊56922
463张楠56877
464刘桂珍56753
465刘宇56711
466刘建军56648
467张淑英56633
468李红霞56541
469赵秀英56482
470李博56442
471王利56428
472张荣56301
473张帆56299
474王建平56221
475张桂芝56165
476张瑜56093
477周勇55618
478张坤55579
479徐伟55567
480王桂花55558
481刘琴55539
482周静55423
483徐敏55400
484刘婷婷55384
485徐静55363
486杨红55124
487王璐55111
488张淑兰55061
489张文54794
490杨燕54700
491陈桂兰54687
492周丽54684
493李淑华54643
494陈鑫54592
495马超54458
496刘建国4345
497李桂花4307
498王凤兰4228
499李淑兰4074
500陈秀珍4060
论文推荐|张宇:点状地名信息的加权泰森多边形检索法
《测绘学报》
构建与学术的桥梁 拉近与权威的距离
点状地名信息的加权泰森多边形检索法张宇1,2,3, 王琦1,2,3, 吴文周1, 苏奋振1
1. 中国科学院地理科学与资源研究所, 北京 100101;
2. 中国科学院大学, 北京 100049;
3. 北京师范大学, 北京 100875
收稿日期:2017-03-16;修回日期:2017-08-20
基金项目:国家自然科学基金创新研究群体科学基金(41421001)
第一作者简介:张宇(1987-), 男, 博士生, 研究方向为海洋地理信息服务。E-mail:zhangyu@lreis.ac.cn
摘要 :鉴于地名库中多数地名仅以中心点坐标形式记录其空间位置信息,缺乏其空间范围的具体描述,造成地名检索中的片面性和局限性,本文在深入分析地名及其空间属性、空间关系的基础上,考虑同类型地名的不同性质在检索中的重要作用,利用泰森多边形在地名边界近似中的优势,提出了针对点状地名信息的加权泰森多边形检索法,依据同类型地名的面积属性作为权重指标构建泰森多边形,以近似表达地名的空间范围,进而描述地名间的各类空间关系;并从拓扑关系、方位关系与距离关系3个方面给出了具体公式以计算地名间的空间相似性;最后以行政区划边界近似与检索为例验证该方法。试验结果表明,该方法可较好地近似表达地名空间范围及空间关系,增强了检索词与地理信息资源在空间位置上的相似性度量,检索结果优于传统方法。
A Weighted Voronoi Diagram-based Retrieval Approach for Point-like Toponym Information
ZHANG Yu1,2,3, WANG Qi1,2,3, WU Wenzhou1, SU Fenzhen1
Abstract : Considering the fact that most of the place names in the gazetteer record the spatial information only in the form of center coordinates, which lacks the description of the specific spatial extent of the place name, one-sidedness and limitations exist in the toponym information retrieval. Based on the fully analysis of the place names, spatial attributes and spatial relations, the paper proposes a weighted Voronoi diagram-based retrieval approach for point-like toponym information, which considers the importance of different properties of the place names belonging to the same type in the information retrieval, and takes advantage of the weighted Voronoi diagram in the boundary approximation of the place. The approach constructed weighted Voronoi diagram based on the area properties of the same type place names, and approximated the spatial extent of the place. Then, spatial relation between two places could be described, and the spatial similarity was achieved by the given equations to calculate the similarities of the topological, directional and distance relationship. The approach was verified by approximating boundaries of administrative divisions and retrieving their information. The experiment results show that the approach can be better applied in the approximation of spatial extents and relations of place names, and the spatial similarity matching between query words and geographical information resources can be improved. Finally, the proposed approach is better than the traditional approaches.
Key words: weighted Voronoi diagram toponym information retrieval place name boundary approximation spatial relation similarity
随着地理信息技术的不断发展及应用的深入,每天都有大量具有地理标记的信息资源产生,并借助于网络传播到全球各地供不同用户检索使用[1]。为快速获取网络中的地理信息资源,地名信息检索技术正日益受到重视[2-7]。地名信息检索一般依据检索词中的主题、地名和空间关系[2],与网络中具有地理标记的各类资源描述进行相似性匹配,进而获取满足条件的资源。地名作为地名信息检索中的重要组成部分,通常利用地名词典或地名库将地名解析为空间坐标形式,然后计算空间相似性。对于具有实际边界的面状地名,最小外包矩形为空间范围计算中的常见方式,且通常利用二者间的重叠面积或者Hausdorff距离[8]计算空间相似性。然而多数地名仅以中心点坐标形式表达其空间位置,难以具体描述空间范围,进而发现潜在的地理信息资源,造成检索中的片面性和局限性。
在地名信息检索研究中,地名本体[9-10]或地名词典[11-12]的构建通常是地理信息资源描述中地名识别、消歧及空间关系表达的基础[2, 4]:地名本体是依据专家知识将地名、地名所表达的地理实体类型及空间关系等数据组织成统一的地名描述体系,然而本体构建过程较为繁琐,需要大量领域专家的参与,且不同组织机构间难以形成统一的标准体系,不易于进行大规模实施[5];地名词典是存储具有地理坐标属性的地名目录[12],一般包括3个基本要素,即地名、要素类型及空间范围(位置),通常利用地理要素中心点表达其空间位置[13]。基于较为成熟的地名词典GeoNames(http://www.geonames.org/),Getty Thesaurus of Geographic Names(http://www.getty.edu/research/tools/vocabularies/tgn/),以及Alexandria Digital Library(http://legacy.alexandria.ucsb.edu/)等,当前在地名信息集成[14-15]、地名语义增强[16],以及空间相似性匹配[17-18]等方面取得众多成就。然而在地名本体或地名词典中,多数地名同样存在空间范围描述的缺失,仅以地名中心点坐标形式表达其空间位置,限制了地理信息资源检索的准确性。
当前主要存在两种类型的地名点,即感兴趣点和城市(村镇)点:前者可用于城市边界的近似表达,而后者可用于更大行政边界的近似表达[19]。地名点的信息检索一般简化为计算参考点与目标点对应的空间关系相似性[6, 20]。为了实现点状地名空间范围的近似表达,文献[1, 19]研究采用基于点集的方法构建地名的模糊边界,进而判断目标地名点与该范围的关系。文献[21-22]研究利用泰森多边形描述同类地名点间的模糊空间关系,但将地名点视为均一性质,忽略了地名点间的差异性,难以突出地名在检索中的不同重要程度。文献[23]研究基于密度表面方法描述地名点集的模糊边界范围,考虑了源地名点与目标地名点间距离因素对检索结果的影响,但通常难以准确描述地名间的空间关系。
为解决当前点状地名信息检索研究中的不足,本文在深入分析地名及其空间属性、空间关系的基础上,利用泰森多边形在空间关系表达与空间范围近似中的优势,且考虑同类型地名点性质上的差异对检索结果的影响,提出了针对点状地名信息的加权泰森多边形检索法。该方法选取同类型地名所具有的面积属性作为权重指标构建泰森多边形,以形成对地名边界的近似表达,进而判断各待匹配点与检索点间所对应的空间关系。在此基础上实现空间关系的相似性度量,并依据空间相似性对检索结果进行排序。
1 点状地名信息的加权泰森多边形检索法
由于当前缺乏有效方法实现地名点空间范围的近似表达,因而难以准确描述地名点间的各类空间关系;且同类型地名点通常存在性质上的差异,会影响到地名信息检索结果的准确性。鉴于以地名中心点表达空间位置的方式在地名信息检索中的局限性,本文利用加权泰森多边形实现地名边界近似,由此建立地名间的近似空间关系,空间关系相似性度量也即转换为地名面间的相似性度量,从而提高地名信息检索效率。以下将详细论述该方法。
1.1 加权泰森多边形
泰森多边形是对空间平面的一种剖分,其特点是多边形内的任何位置离该多边形的样点的距离最近,离相邻多边形内样点的距离远,且每个多边形内含且仅包含一个样点,可较好地解决空间邻接及最邻近问题(图 1(a)):如果泰森多边形中的任意两点拥有共同的边界,则此两点的空间关系可视为相邻关系,由此通过多边形的包含关系查询任意位置处的最邻近点[22]。而加权泰森多边形则是选取空间要素的某种属性特征赋予相应的权重,并依据权重因子实现空间区域的划分,划分的区域大小在一定程度上代表该区域中要素在所选属性特征上的重要性(图 1(b))[24]。鉴于同类型地名点间性质上的差异,一般难以采用统一标准近似表达地名边界,应选取适当的权重因子作为衡量地名重要性的指标,并参与到地名边界表达中[25],以提高地名边界近似的准确性。
图 1 泰森多边形示例Fig. 1 Examples of Voronoi diagrams
图选项
对于平面中的任意点集P={P1,P2,…,Pn}(n≥3),λi(i≥1)为各点所对应的属性因子,则区域
(1)
将平面分为n部分,由Vn(Pi,λi)(i≥ 1)确定的平面分割方法称为点的加权泰森多边形,λi称为点Pi的权重,且各分割区域中的每个点到该区域中心的距离与该点到相邻区域中心的距离之比小于两中心点的权重之比[26]。泰森多边形可看作加权泰森多边形在权重值相等时的一个特例。
利用加权泰森多边形对地名边界的近似表达,可近似计算各地名点对应的空间区域面积,并判断两地名点对应的共同边界长度;依据地名边界的连续性表达,近似建立地名间的各类空间关系,以支持地名信息检索。其中,方位关系、距离关系和拓扑关系是空间关系的重要组成部分,是判断地名间相互关系的前提,也是地名信息检索的重要基础。地名信息检索一般可表达为地名+空间关系+属性的形式[5]。鉴于空间关系在检索中的重要作用,下文中将分别针对拓扑关系、方位关系和距离关系计算展开论述。
1.2 空间关系相似性计算
在地名信息检索中,一般通过计算源地名与目标地名在拓扑关系、方位关系或距离关系中的相似性获取符合条件的地名信息,并依据相似度对计算结果进行排序。本文选取地名点的面积作为权重指标生成加权泰森多边形,实现对地名边界的近似表达,从而将离散地名点间的空间关系计算转换为连续的地名面间的空间关系计算。鉴于地名类型及其隶属层次关系间的差异影响地名边界的近似性[27],本文针对同类型且处于同一层次中的地名点实现地名边界的近似,以减少计算中的误差。地名间的空间关系可由拓扑关系、方位关系和距离关系中的一种或多种进行描述,因而空间关系的相似性计算可采用以下公式
(2)
式中,sim是地名空间关系的总体相似度;simi是地名拓扑关系、方位关系或距离关系的相似度。依据此公式计算获取各地名点的相似性。
1.2.1 拓扑关系
拓扑关系是空间中任意两地理对象在连续形变后还能保持不变的相互关系,而拓扑关系模型主要有区域连接演算模型与9交模型[19],可用于描述点、线、面要素间各种相互关系。本文利用加权泰森多边形实现地名边界的近似表达,因此地名点间拓扑关系的判断将转换为对地名面间拓扑关系的判断,而面要素的拓扑关系主要有包含、被包含、相等、相交、邻接和叠加6种。鉴于4交模型[28]在两个面要素内部交集、边界交集以及相互间差集的基础上建立拓扑关系描述,并利用拓扑距离描述拓扑关系间的关联性,因而可方便计算任意两地名点间的拓扑关系相似性。本文选取6种主要拓扑关系以评价其相似性,各拓扑关系间的拓扑距离度量如下表所示(表 1)。
表 1 6种面/面关系之间的拓扑距离[28]Tab. 1 Topological distance of area/ area relations[28]
D(-,-)相离相接相交包含被包含相等相离012224相接101333相交210222包含232022被包含232202相等432220表选项
基于拓扑距离度量,本文构建以下公式计算两个拓扑关系的相似性
(3)
式中,topo_dist(x,y)是两个拓扑关系间的拓扑距离;n是调节因子(本文选取n=2),用于调节公式在拓扑距离变化中的收敛速度。拓扑关系相似性反比于拓扑距离:拓扑距离越大,其拓扑关系相似性越低。
1.2.2 方位关系
空间中任意两个地名点间相对方位关系表达一般采用锥形模型[29-30],即以源地名点为中心,8等分整个空间范围(东、南、西、北、东北、东南、西南和西北),判断目标地名点所处的空间区域,即为源地名点与目标地名点间的相对方位关系。本文方位关系判断针对于地名面,由于面要素可分为外部区域和内部区域,其方位关系也应分为外方位关系和内方位关系,但锥形模型通常难以直接用于面要素方位关系判断。为此当前研究改进锥形模型,利用面要素的最小外包矩形划分内外空间方位(图 2)[30-31],以分别计算地名间的方位相似性。
图 2 基于最小外包矩形的内外方位关系Fig. 2 Minimum bounding rectangle-based outer and inner direction relationship
图选项
面要素外方位相似性主要依据检索词中的方位条件,判断目标要素所对应的源要素8方位区域(图 2(a))。由于目标要素可能不完全位于源要素的一个方位区域中,存在与多个区域相交的情况,因此本文采用式(4)判断目标要素与源要素间方位关系
(4)
式中,x和y分别表示检索中的目标要素与源要素;dir_region(y)表示依据检索词中方位关系判断的所需方位区域;intersection_area表示目标要素在所需方位区域的对应面积。面要素外方位关系的相似性计算就是计算目标要素在所需方位区域的对应面积与目标要素本身面积之比,比值越大意味着相似性程度越高。当目标要素完全位于所需方位区域时,其相似性为1。面要素内方位相似性计算则依据内方位锥形模型[32]进行相应判断:依据面要素的最小外包矩形9等分整个矩形区域(图 2(b)),进而获取9种内方位关系,由此判断目标要素与源要素的内方位关系相似性,其计算仍采用式(4)进行。
1.2.3 距离关系
地名点间的距离关系一般包括定性关系和定量关系:定性关系是从认知角度衡量源地名与目标地名间的相对距离,其中最常见的定性关系为“周边(附近)”关系,但由于缺乏统一标准实现定性关系的定量化,并且地名关系的定性表达具有较大模糊性,因而通常难以准确计算二者定性关系的相似性;而定量关系主要依据源地名与目标地名所处的空间位置计算二者间的相对距离,主要分为点-点、点-面,以及面与面的距离,而距离计算通常采用欧拉公式进行(式(5))
(5)
式中,a(x1,y1)和b(x2,y2)分别表示源地名与目标地名点的空间位置。定量距离关系的相似性可依据以下公式进行计算
(6)
式中,a和b分别表示源地名与目标地名的空间位置;query_dist表示检索距离。定量距离关系的相似性计算就是计算两地名点间的相对距离与检索距离间的相近程度,目标地名与源地名间的距离越接近相似性程度越高,当两地名点间距离大于检索距离时,相似性程度减少为0。
定性距离关系的相似性计算,主要依据对距离远近的经验性认知,将定性距离描述转换为定量的距离数值表达,进而实现定性距离关系的定量化计算。对于空间区域内源地名点与各目标地名点间相邻关系判断,主要依据在生成的泰森多边形中两个相邻地名间有且仅有一个共同边界[22]。因此通过判断源地名点与目标地名点所在泰森多边形间的相邻关系,获取符合条件的相邻地名点。为进一步实现相邻地名距离关系相似性的排序,采用式(7),距离越近表明两点间的相似性越大
(7)
式中,a和bi分别表示源地名点与第i个目标地名点,而dist表示两地名点间的相对距离。
另外,对于其他定性距离关系,如近、中等、远和很远等距离描述词汇的度量,则从经验性认知的角度经多次试验评估设定,主要以目标地名点所在多边形与源地名点所在多边形间相隔的最少多边形个数为基础,形成两地名点间定性关系定量化计算标准,以实现相似性计算
(8)
式中,VN表示两地名点间相隔最少多边形数目,最终定性距离的相似性计算公式如下
(9)
式中,max(dist)和min(dist)分别表示源地名点与目标地名点间的最大、最小距离,距离越近意味着相似性越大。由于对距离远近的经验性认知依据用户的不同而有所差异,本文制定的定量化指标难以满足所有人的检索需求,但为定性关系的定量化表达提供一种解决方案。未来考虑利用专家打分法、层次分析法等确定取值范围,以提高本文方法的有效性与准确性。
2 试验
为了验证本文所述方法,试验以全国行政区划边界近似与检索为例,验证加权泰森多边形在地名边界近似与检索中的可行性与有效性。由于行政区划地名间存在较强的隶属层次关系,而且地名边界近似表达的准确性与地名点分布情况密切相关,一般地名点密度越大则由此生成的泰森多边形对地名边界近似的精度越高。为获取较高精度的地名边界近似结果,本文以处于底层的地名点为基础,将地名点的面积属性作为权重指标生成泰森多边形,进而计算处于其他各层地名所对应的底层多边形集合,并以此作为该层地名所对应的空间范围,最终实现各层次地名边界的近似表达。
试验选取了全国2408个县级的行政区划面矢量数据为基础数据,同时选取了全国344个市级的行政区划面矢量数据及31个省级面矢量数据。为生成各层次地名的矢量点,试验以县级地名行政区中心点为地名坐标点对各图层进行处理,并将各地名所对应的行政区面积作为字段值记录到地名点中,利用ArcGIS中的相应工具分别生成山西省地名点的泰森多边形(图 3(a))与加权泰森多边形[25](图 3(b))。在图 3(a)中,每个地名点间权重指标均为1,因此对于面积较小的地名点其边界近似的误差较大;在图 3(b)中,多边形的生成依赖于地名点所对应的面积权重指标,其边界近似效果要优于前者。
图 3 地名边界近似Fig. 3 Approximation of place boundary
图选项
为验证加权泰森多边形在地名边界近似中的准确性,试验任意选取内陆中的6省作为目标区域,分别统计泰森多边形与加权泰森多边形在省级单位面积近似中的准确性,主要利用以下公式计算
(10)
式中,A0表示原始地名面积;Ap表示近似地名面积,二者越接近意味着面积近似的准确性越高。
从表 2中可以看出,加权泰森多边形与普通泰森多边形在地名面积近似准确性上均高于98%,且二者各项地名面积的近似程度接近,但加权泰森多边形考虑地名点面积属性在地名边界近似中的影响,因而对于具有不同面积属性的地名点,采用加权泰森多边形更能表达其边界范围,进而提高地名信息检索的效率。
表 2 近似面积准确性统计Tab. 2 Statistics of accuracy of approximation area
省名称原面积/万km2泰森多边形近似面积/万km2准确率/(%)加权泰森多边形近似面积/万km2准确率/(%)山西24.8625.3398.124.3597.9河南23.9824.4098.223.5898.3湖北25.2725.3899.625.3699.6湖南26.9926.8299.427.0799.7江西21.2521.5498.620.9498.5安徽19.4119.1898.819.4999.6表选项
为验证该方法在地名信息检索中的有效性,本文以全国县级点矢量数据为基础构建试验原型系统,并与传统以地名点为核心的检索方法进行比较。当检索词为“北京以南300 km内的城镇”时,传统方法是以北京中心点为核心采用基于锥形模型的方位判别方法,并以距离为限制条件对周边地名进行检索,以返回各地名的相似性检索结果(表 3、图 4)。
表 3 传统检索方法Tab. 3 Traditional toponym information retrieval
序号名称相似度距离/km1大兴区0.873 375.982廊坊0.800 9119.473固安县0.798 5120.914永清县0.788 2127.105霸县0.733 9159.676雄县0.722 0166.797文安县0.696 1182.358静海县0.669 4198.339任丘市0.651 2209.2610大城县0.636 9217.84表选项
图 4 传统检索结果Fig. 4 Traditional retrieval result
图选项
而本文方法则主要考虑地名边界的近似表达,通过建立北京与周边地名间的外方位关系,计算北京与周边地名空间关系的相似性(表 4,图 5)。
表 4 本文检索方法Tab. 4 Proposed toponym information retrieval
序号名称相似度距离/km1新城县0.992 34.642定兴县0.984 39.363霸县0.953 028.234雄县0.945 132.945天津0.944 633.246永清县0.942 807静海县0.937 237.648西青区0.929 442.369文安县0.929 442.3610容城县0.929 442.36表选项
图 5 本文检索结果Fig. 5 Proposed retrieval result
图选项
从试验结果中可以看出,由于地名起算点的不同(后者利用地名边界对应最小外包矩形间的最短距离计算),两种方法所计算出的地名距离及其空间相似性结果显示出较大差异。由于本文充分考虑了地名点的面积因素在地名边界近似中的重要作用,利用加权泰森多边形形成地名边界的近似表达,从而建立地名点间更丰富的空间关系,可更好满足于点状地名信息检索的需求。
3 讨论
本文所提出的基于加权泰森多边形的地名边界近似方法针对同类型地名点集,选取地名的面积属性作为权重因子形成地名边界的近似表达,进而建立地名间的相对空间关系。地名边界的近似精度与地名点分布情况密切相关,一般地名点分布越集中,地名边界近似表达精度越高。另外同类型地名所代表的地理对象间存在隶属层次关系,主要体现在两者空间范围表达上的包含性[23]。相对处于较高层次上的地名点,处于底层的地名点具有较细的空间粒度,因此可由处于底层的地名点近似表达处于其他层次的地名边界,进而支持地名间空间关系的建立。
由于泰森多边形在解决空间邻接及最邻近问题上具有巨大优势,因此针对空间上连续的同类型地名点,可较为准确的表达各地名点间的邻接性,进而建立各地名点间的空间关系。同样针对空间上离散的同类型地名点,通过选取恰当的权重指形成各地名点间影响范围的模拟,将离散的地名点转化为连续地名空间范围,可近似表达各地名点间的邻接性。另外针对与山峰、山谷等地形特征相关联的地名点,仍可利用同类型地名点所具有的高程值作为权重指标近似表达空间范围,以支持空间相似性计算。
在处理空间关系相似性时,由于地名边界近似表达中存在模糊性,因而在空间关系相似性计算中也存在模糊性。本文所采用的计算方法未考虑空间范围及关系的不确定性,仅依据地名边界的近似表达计算二者间的空间关系,从而影响了检索结果的准确性。未来考虑引入不确定场模型描述空间范围及关系的不确定性,以表达地名周边不同位置处的概率分布情况。依据地理学第一定律“任何事物都相关,只是相近的事物关联更紧密”[33],地名周边概率分布应与地名点距离成反比关系。针对空间范围及关系的不确定场的定量化表达,实现地名信息检索的不确定性计算,在一定程度上提高了检索效率。
4 结论
鉴于以中心点记录地名空间位置的方式难以表达地名的空间范围,造成地名信息检索的局限性,针对点状地名的边界近似及检索问题,本文考虑同类型地名的不同性质在检索中的重要作用,提出了针对点状地名信息的加权泰森多边形检索法,依据同类型地名的面积属性作为权重指标构建泰森多边形,以近似表达地名的空间范围,进而建立地名间的各类空间关系,并从拓扑关系、方位关系与距离关系3个方面给出具体公式以计算其空间相似性。最后利用全国行政区划数据进行试验,相比普通泰森多边形的地名边界近似效果,该方法更能体现面积属性差异所造成的边界近似的差异,且其面积近似精度可达98%;另外相比通常的点状地名信息检索方法,该方法在地名边界近似的基础上实现地名信息检索,更有利于空间关系表达以提高空间相似性计算效率,从而证明了该方法的有效性。未来可依据地名信息检索的侧重点,选择多种要素(如地名热度、经济实力及道路通达性)作为权重指标生成加权泰森多边形,以综合评估各地名间的不同影响力,进而满足不同用户对地名信息的检索需求。
【引文格式】张宇,王琦,吴文周,等。点状地名信息的加权泰森多边形检索法[J]. 测绘学报,2017,46(11):1919-1926. DOI: 10.11947/j.AGCS.2017.20170125
往期精彩回顾
8个地球的科学冷知识颠覆你的世界观!
关于稿件“时间”安排那些事儿~
重磅!新增博士、硕士学位授权点名单出炉,有你的母校吗
组建“自然资源部”的来龙去脉
权威 | 专业 | 学术 | 前沿
微信投稿邮箱 | song_qi_fan@163.com
微信公众号中搜索「测绘学报」,关注我们 ,长按上图二维码,关注学术前沿动态。
进群请备注:姓名+单位+稿件编号
相关问答
任鲁豫主持过什么节目?1、1997年,主持河南电视台《河南新闻联播》节目,并兼任新闻节目《午间报道》和《新闻60分》的播音主持工作。2、2002年,主持中央电视台西部频道的交通服务类...
如何成为一名优秀资源匹配师?一、价值变现资源匹配师介绍价值变现源匹配师是指就职于B2B价值传递平台,专门负责价值传递平台两端用户资源整合和梳理,专门负责给作为价值创造核心的创客...(3...
歌手播出那么多季,哪一届含金量最高?每位歌手都各显神通像韩磊演唱的《等待》雄厚嘹亮磁性的嗓音也是打动全场,张宇老师演唱的《月亮惹的祸》也是经典再现,韦唯演唱的《恋寻》悲情的声线也是让现...