博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
关于手机等品牌型号搜索与采集的中文分词分离
阅读量:6256 次
发布时间:2019-06-22

本文共 1054 字,大约阅读时间需要 3 分钟。

hot3.png

很久以前,写过一个手机的搜索查询,这里要涉及到手机类型和型号的分离。

很久之后前,有人问起这个问题,于是,写点说明就把这函数的草稿发布了,并写下了这一些说明。

函数说明,如搜索输入:诺基亚N95,将被拆分成品牌:诺基亚 型号:N95

对于手机数据采集,也可以用这函数分离出品牌和型号。

SetSearchKey(
"
诺基亚N95
"
,
out
 诺基亚,
out
 N95);

 

函数代码如下:

 

protected
 
void
 SetSearchKey(
string
 keyword, 
out
 
string
 goodsName, 
out
 
string
 goodsModel)
        {
            keyword 
=
 keyword.ToLower().Trim();
            
if
 (keyword.Contains(
"
 
"
))
//
带空格,分离
            {
                goodsName 
=
 keyword.Split(
'
 
'
)[
0
].Trim();
                goodsModel 
=
 keyword.Split(
'
 
'
)[
1
].Trim();
            }
            
else
 
if
 (Regex.Match(keyword, 
@"
^[\u4E00-\u9FA5]+[\w\d]+
"
).Success)
//
以中文开头,包含英文,分离
            {
                goodsName 
=
 Regex.Match(keyword, 
@"
^([\u4E00-\u9FA5]+)[\w\d]+
"
).Groups[
1
].Value;
                goodsModel 
=
 keyword.Replace(goodsName, 
string
.Empty);
            }
            
else
            {
                
string
[] keys 
=
 
new
 
string
[] { 
"
nec
"
"
lg
"
"
vk
"
"
cect
"
 };
                
for
 (
int
 i 
=
 
0
; i 
<
 keys.Length; i
++
)
                {
                    
if
 (keyword.IndexOf(keys[i]) 
==
 
0
)
                    {
                        goodsName 
=
 keys[i];
                        goodsModel 
=
 goodsModel 
=
 keyword.Replace(goodsName, 
string
.Empty);
                        
return
;
                    }
                }
                goodsName 
=
 keyword;
                goodsModel 
=
 keyword;
            }
        }

 

 

转载于:https://my.oschina.net/secyaher/blog/274337

你可能感兴趣的文章
学习鸟哥的Linux私房菜笔记(8)——文件查找与文件管理2
查看>>
升级fedora 18到fedora 19
查看>>
11月20日学习内容整理:jquery插件
查看>>
SVN与TortoiseSVN实战:补丁详解
查看>>
获取页面中所有dropdownlist类型控件
查看>>
读《淘宝数据魔方技术架构解析》有感
查看>>
[转载]如何破解Excel VBA密码
查看>>
【BZOJ】2563: 阿狸和桃子的游戏
查看>>
redis 中文字符显示
查看>>
顺序图【6】--☆☆
查看>>
Docker Swarm 让你事半功倍
查看>>
javaScript事件(四)event的公共成员(属性和方法)
查看>>
An easy to use android color picker library
查看>>
Oracle SID爆破工具SidGuess
查看>>
批处理常用命令总结2
查看>>
Android -- 自定义View小Demo,绘制钟表时间(一)
查看>>
信息检索Reading List
查看>>
自动精简配置&重复数据删除核心技术点及其经济效应探究
查看>>
cncert网络安全周报35期 境内被植入后门的政府网站112个 环比上涨24.4%
查看>>
物联网到底是不是泡沫,且看英特尔交出的答案
查看>>