mwstbugdcess向日葵中文什么意思思?

when i saw you这首歌曲的中文意思是什么?_百度知道
when i saw you这首歌曲的中文意思是什么?
mariah carey的这首when i saw you 的中文意思是什么?哪位知道帮忙翻译一下!谢谢!还有她的那首we belong together是什么意思?1、When I Saw You - M. Carey - W. Afanasieff - Soft heavenly eyes gazed into me Transcending space and time And I was rendered still There were no words for me to find at all As I stood there beside myself I could see you and no-one else When I saw you When I saw you I could not breathe I fell so deep Oh When I saw you When I saw you I’d never be I’d never be the same Only once in a lifetime love rushes in Changing you with the tide And dawn’s ribbon of light Bursts through the dark Wakening you inside And I thought it was all untrue Until there, all at once, I knew When I saw you When I saw you I could not breathe I fell so deep Oh When I saw you When I saw you I’d never be I’d never be the same With no beginning And without an end You are the one for me And it’s evident And your eyes told me so yeah Your eyes let me know When I saw you When I saw you I could not breathe I fell so deep Oh When I saw you When I saw you I’d never be I’d never be the same 2、we belong togetherI didn't mean itWhen I said I didn't love you soI should've held on tightI never should've let you goI didnt know nothingI was stupidI was foolishI was lying to myselfI could not fathom that I would everBe without your loveNever imagined I'd beSitting here beside myselfCoz I didn't know youCoz I didn't know meBut I thought I knew everythingI never feltThe feeling that I'm feeling nowNow that I don'tHear your voiceOr haven't touched or kissed your lipsCoz I don't have a choiceOr what I wouldn't giveTo have you lying by my side right here Coz babyWhen you leftI lost a part of meIt's still so hard to believeCome back baby pleaseCoz we belong togetherWho else am I gonna lean onWhen times get roughWho's gonna talk to me on the phone Till the sun comes upWho's gonna take your placethere aint nobody there oh baby babyWe belong togetherI can't sleep at nightWhen you're all on my mindBobby Womack's on the radioSinging to me'If you think you're lonely now'Wait a minuteThis is too deep, too deepI gotta change the stationSo I turn the dialTrying to catch a breakAnd then I hear BabyfaceI only think of youAnd it's breaking my heartI'm trying to keep it togetherBut I'm falling apartI'm feeling all out of my elementI'm throwing thingsCryingTrying to figure outWhere the hell I went wrongThe pain reflected in this songAin't even half of whatI'm feeling insideI need youNeed you back in my life BabyWhen you leftI lost a part of meIt's still so hard to believeCome back baby pleaseCoz we belong together
提问者采纳
1、当我看着你你天使般的眼睛温柔的看着我
超越了时间与空间我从未这样安静过没有语言可以形容我的感觉时间停在我的身边我只看到了你当我看到你当我看到你
我不能呼吸我爱的那么深
oh 当我看着你当我看着你我从没有过我从未这样过一生的时光就像一部从前的爱情电影时间从你身边走过像是黎明时绸缎般的光茫带我逃离黑暗我在你心里苏醒一切那么的不真实直到这时,我忽然了解 当我看着你 当我看着你 我不能呼吸
我爱的那么深Oh
当我看着你 当我看着你 我没有过 我从未这样过不知是什么时候开始是怎样结束 你是我的唯一像是注定你的眼睛告诉我你愿意你的眼睛让我知道当我看着你
当我看着你
我不能呼吸
我爱的那么深Oh
当我看着你当我看着你 我没有过我从未这样过2、
让我们彼此拥有
我不懂当我说不再爱你 我想紧紧的抱着你我不能让你离开我我不想知道什么我那么愚蠢我那么傻我欺骗了自己我不知道自己想要什么没有你的爱
我从未想过我会这样一个人坐在这里我不了解你我不了解自己 我想我不了解一切我不能离开那感觉和我现在的感觉一样现在我不能听到你的声音不能感觉你和亲吻你我没有选择我怎么都不能在你身边说谎宝贝当你离开 我失去了自已我很难相信
请回来吧亲爱的
让我们互相拥有 除了你我还能抱着谁当时间穿过有人告诉我说太阳快出来了我想去你身边我一个人在这里 哦 亲爱的让我们互相拥有我整夜不睡满心都是你宝贝 收音机里 Womack’s 在唱给我听“如果你现在觉得孤单,请等我一下”那么深沉我要换个环境我换了频道试着停止难过当我看到你的婴儿般的脸我只想着你 刺痛着我的心我试着和你一起我深陷在分开的痛苦里我感觉一切离开了自己
我放下所有事情我哭着试着离开我犯了错这首歌刺痛了我不知道为什么我感觉我在你身边我需要你需要你回到我的生命里亲爱的当你离开时我失去了自已 我很难相信回来吧宝贝让我们彼此拥有When I Saw You
当我看着你Soft heavenly eyes gazed into me
你天使般的眼睛温柔的看着我Transcending space and time
超越了时间与空间And I was rendered still
我从未这样安静过There were no words for me to find at all
没有语言可以形容我的感觉As I stood there beside myself
时间停在我的身边I could see you and no-one else
我只看到了你When I saw you
当我看到你When I saw you
当我看到你I could not breathe
我不能呼吸I fell so deep
我爱的那么深Oh
哦When I saw you
当我看着你When I saw you 当我看着你I’d never be 我没有过I’d never be the same
我从未这样过Only once in a lifetime love rushes in
一生的时光像一部从前的爱情电影Changing you with the tide
时间从你身边走过And dawn’s ribbon of light
像是黎明时绸缎般的光茫Bursts through the dark
带我逃离黑暗Wakening you inside
我在你心里苏醒And I thought it was all untrue
一切那么的不真实Until there, all at once, I knew
直到这时,我忽然了解When I saw you 当我看着你When I saw you 当我看着你I could not breathe 我不能呼吸I fell so deep
我爱的那么深Oh When I saw you 当我看着你When I saw you 当我看着你I’d never be 我没有过I’d never be the same
我从未这样过With no beginning
不知是怎么开始And without an end
是怎么结束You are the one for me
你是我的唯一And it’s evident
像是注定And your eyes told me so yeah
你的眼睛告诉我你愿意Your eyes let me know
你的眼睛让我知道When I saw you
当我看着你When I saw you
当我看着你I could not breathe
我不能呼吸I fell so deep
我爱的那么深Oh
When I saw you 当我看着你When I saw you 当我看着你I’d never be 我没有过I’d never be the same
我从未这样过2、we belong together
我们属于彼此I didn't mean it
我不懂When I said I didn't love you so 当我说不再爱你I should've held on tight
我想紧紧的抱着你I never should've let you go
我不能让你离开我I didnt know nothing
我不想知道什么I was stupid 我那么愚蠢I was foolish 我那么傻I was lying to myself
我欺骗了自己I could not fathom that I would ever
我不知道自己想要什么Be without your love 没有你的爱Never imagined I'd be
我从未想过我会这样Sitting here beside myself 一个人坐在这里Coz I didn't know you
我不了解你Coz I didn't know me
我不了解自己 But I thought I knew everything
我想我不了解一切I never felt
我不能离开The feeling that I'm feeling now
那感觉和我现在的感觉一样Now that I don't
现在我不能Hear your voice
听到你的声音Or haven't touched or kissed your lips
不能感觉和亲吻你Coz I don't have a choice
我没有选择Or what I wouldn't give 我怎么都不能To have you lying by my side right here 在你身边说谎Coz baby 宝贝When you left 当你离开 I lost a part of me
我失去了自已It's still so hard to believe
我很难相信Come back baby please
请回来吧亲爱的Coz we belong together
让我们互相拥有 Who else am I gonna lean on
除了你我还能抱着谁When times get rough
当时间穿过Who's gonna talk to me on the phone 谁给我打电话Till the sun comes up
说太阳快出来了Who's gonna take your place
谁会去你那里there aint nobody there oh baby baby
没有人在那里,哦宝贝We belong together
我们互相拥有I can't sleep at night
我整夜不睡When you're all on my mind
心里都是你Bobby Womack's on the radio
宝贝 收音机里 Womack’s Singing to me
在唱给我听'If you think you're lonely now'
如果你现在觉得孤单Wait a minute
请等一下This is too deep, too deep
那么深沉I gotta change the station
我要换个环境So I turn the dial
我换了频道Trying to catch a break
试着停止难过And then I hear Babyface
当我看到你的婴儿般的脸I only think of you
我只想着你And it's breaking my heart
刺痛着我的心I'm trying to keep it together
我试着和你一起But I'm falling apart
我深陷在分开的痛苦里I'm feeling all out of my element
我感觉一切离开了自己I'm throwing things
我放下所有事情Crying 我哭着Trying to figure out 试着离开Where the hell I went wrong
我犯了错The pain reflected in this song
这首歌刺痛了我Ain't even half of what 不知道为什么I'm feeling inside
我感觉在你身边I need you
我需要你Need you back in my life
需要你回到我的生命里Baby 亲爱When you left 当你离开I lost a part of me
我失去了自已 It's still so hard to believe
我很难相信Come back baby please
回来吧宝贝Coz we belong together 让我们彼此拥有
提问者评价
谢谢啦!看来这位是个英语高手啊!肯定也是很喜欢艾薇儿的歌的对吧!
其他类似问题
按默认排序
其他1条回答
1 ,当我看见你-米凯莉-小a f anasieff- 软天堂的眼睛盯着我,成超越时间与空间我仍然提供没有人的话,我觉得在各我站在那里旁边自己我可以看到你,没有人,否则当我看见你当我看见你我不能呼吸我被如此之深哦当我看见你当我看见你我会永远我会永远相同只有一生中只有一次的爱赶在改变您与潮流黎明的丝带轻连发透过黑暗唤醒你内我以为这是一切不真实直到有一次全部,我知道当我看见你当我看见你我不能呼吸我被如此之深哦当我看见你当我看见你我会永远我会永远相同没有开始并没有结束您是第一个为我它的明显和你的眼睛告诉我,所以啊你的眼睛让我知道当我看见你当我看见你我不能呼吸我被如此之深哦当我看见你当我看见你我会永远我会永远相同2 ,我们属于同我不是那个意思当我说我不爱你我应该已经举行紧我从来不应该已经让你去i的didn't一无所知我是愚蠢的我是愚蠢的我是躺在自己我不能量度,我会永远没有你的爱没想到,我就是坐在这里我旁边正版游戏我不知道你正版游戏我不知道我但我以为我知道一切我从来没有感受到感觉,我感觉现在现在我不听到你的声音或者没有触及或亲吻你的嘴唇正版游戏,我不有选择权或有什么,我不会让有你躺在我的一方有权在这里正版游戏宝宝当你离开我失去了一部份,我它还是那么难以相信回来宝宝请正版游戏,我们在一起还有谁,我在哪里也对精益当时代得到粗糙谁在哪里也跟我在电话直到太阳出现谁在哪里取你的地方有没有人有啊宝宝宝宝我们同属在一起我不能彻夜难眠当您所有关于我的心鲍比沃马克的关于电台唱歌给我'如果你认为你是适合孤独的,现在' 且慢这是太深,太深i得改变站所以,我把拨号试图赶上休息然后,我听到娃娃脸( Babyface 我只想到你它打破了我的心我试图保持它一起不过,我敢不成国,家不成我感觉所有出我的元素我扔东西哭泣正在积极筹划如地狱我去错了疼痛反映在这首歌是不是连一半的是什么我感觉里面我需要你需要你回到我自己的生活宝宝当你离开我失去了一部份,我它还是那么难以相信回来宝宝请正版游戏,我们在一起
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁中文分词 _百度百科
特色百科用户权威合作手机百科 收藏 查看&中文分词
中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词分词就是将连续的字序列按照一定的规范重新组合成词序列的过程我们知道在英文的行文中单词之间是以空格作为自然分界符的而中文只是字句和段能通过明显的分界符来简单划界唯独词没有一个形式上的分界符虽然英文也同样存在短语的划分问题不过在词这一层上中文比之英文要复杂的多困难的多
存在中文是由于中文在基本文法上有其特殊性具体表现在
1与英文为代表的拉丁语系语言相比英文以空格作为天然的分隔符而中文由于继承自古代汉语的传统词语之间没有分隔 古代汉语中除了连绵词和人名地名等词通常就是单个汉字所以当时没有分词书写的必要而现代汉语中双字或多字词居多一个字不再等同于一个词
2在中文里词和词组边界模糊
现代汉语的基本表达单元虽然为词且以双字或者多字词居多但由于人们认识水平的不同对词和短语的边界很难去区分
例如对随地吐痰者给予处罚随地吐痰者本身是一个词还是一个短语不同的人会有不同的标准同样的海上酒厂等等即使是同一个人也可能做出不同判断如果汉语真的要分词书写必然会出现混乱难度很大
中文分词的方法其实不局限于中文应用也被应用到英文处理如手写识别单词之间的空格就很清楚中文分词方法可以帮助判别英文单词的边界中文分词是文本挖掘的基础对于输入的一段中文成功的进行中文分词可以达到电脑自动识别语句含义的效果
中文属于技术范畴对于一句话人可以通过自己的知识来明白哪些是词哪些不是词但如何让计算机也能理解其处理过程就是分词算法[1]中文分词对于搜索引擎来说最重要的并不是找到所有结果因为在上百亿的网页中找到所有结果没有太多的意义没有人能看得完最重要的是把最相关的结果排在最前面这也称为相关度排序中文分词的准确与否常常直接影响到对搜索结果的相关度排序从定性分析来说搜索引擎的分词算法不同词库的不同都会影响页面的返回结果现有的分词算法可分为三大类基于的分词方法基于理解的分词方法和基于统计的分词方法按照是否与词性标注过程相结合又可以分为单纯分词方法和分词与标注相结合的一体化方法这种方法又叫做机械分词方法它是按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行配若在词典中找到某个字符串则匹配成功识别出一个词按照扫描方向的不同串匹配分词方法可以分为正向匹配和逆向匹配按照不同长度优先匹配的情况可以分为最大最长匹配和最小最短匹配常用的几种机械分词方法如下
1正向最大匹配法由左到右的方向
2逆向最大匹配法由右到左的方向
3最少切分使每一句中切出的词数最小
4双向最大匹配法进行由左到右由右到左两次扫描
还可以将上述各种方法相互组合例如可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法由于汉语单字成词的特点正向最小匹配和逆向最小匹配一般很少使用一般说来逆向匹配的切分精度略高于正向匹配遇到的歧义现象也较少统计结果表明单纯使用正向最大匹配的错误率为1/169单纯使用逆向最大匹配的错误率为1/245但这种精度还远远不能满足实际的需要实际使用的分词系统都是把机械分词作为一种初分手段还需通过利用各种其它的语言信息来进一步提高切分的准确率
一种方法是改进称为特征扫描或标志切分优先在待分析字符串中识别和切分出一些带有明显特征的词以这些词作为可将原字符串分为较小的串再来进机械分词从而减少匹配的错误率另一种方法是将分词和词类标注结合起来利用丰富的词类信息对分词决策提供帮助并且在标注过程中又反过来对分词结果进行检验调整从而极大地提高切分的准确率
对于机械分词方法可以建立一个一般的模型在这方面有专业的学术论文这里不做详细论述这种分词方法是通过让计算机模拟人对句子的理解达到识别词的效果其基本思想就是在分词的同时进行句法利用句法信息和语义信息来处理歧义现象它通常包括三个部分分词子系统句法语义子系统总控部分在总控部分的协调下分词子系统可以获得有关词句子等的句法和语义信息来对分词歧义进行判断即它模拟了人对句子的理解过程这种分词方法需要使用大量的语言知识和信息由于汉语语言知识的笼统复杂性难以将各种语言信息组织成机器可直接读取的形式因此目前基于理解的分词系统还处在试验阶段从形式上看词是稳定的字的组合因此在上下文中相邻的字同时出现的次数越多就越有可能构成一个词因此字与字相邻共现的频率或概率能够较好的反映成词的可信度可以对语料中相邻共现的各个字的组合的频度进行统计计算它们的互现信息定义两个字的互现信息计算两个汉字XY的相邻共现概率互现信息体现了汉字之间结合关系的紧密程度当紧密程度高于某一个阈值时便可认为此字组可能构成了一个词这种方法只需对语料中的字组频度进行统计不需要切分词典因而又叫做无词典分词法或统计取词方法但这种方法也有一定的局限性会经常抽出一些共现频度高但并不是词的常用字组例如这一之一有的我的许多的等并且对常用词的识别精度差时空开销大实际应用的统计分词系统都要使用一部基本的分词词典常用词词典进行串匹配分词同时使用统计方法识别一些新的词即将串频统计和串匹配结合起来既发挥匹配分词切分速度快效率高的特点又利用了无词典分词结合上下文识别生词自动消除歧义的优点
另外一类是基于统计的方法首先给出大量已经分词的文本利用统计模型学习词语切分的规律称为训练从而实现对未知文本的切分我们知道汉语中各个字单独作词语的能力是不同的此外有的字常常作为前缀出现有的字却常常作为后缀者性结合两个字相临时是否成词的信息这样就得到了许多与分词有关的知识这种方法就是充分利用汉语组词的规律来分词这种方法的最大缺点是需要有大量预先分好词的语料作支撑而且训练过程中时空开销极大
到底哪种分词算法的准确度更高目前并无定论对于任何一个成熟的分词系统来说不可能单独依靠某一种算法来实现都需要综合不同的算法例如海量科技的分词算法就采用复方分词法所谓复方就是像中西医结合般综合运用机械方法和知识方法对于成熟的中文分词系统需要多种算法综合处理问题有了成熟的分词算法是否就能容易的解决中文分词的问题呢事实远非如此中文是一种十分复杂的语言让计算机理解中文语言更是困难在中文分词过程中有两大难题一直没有完全突破歧义是指同样的一句话可能有两种或者更多的切分方法主要的歧义有两种交集型歧义和组合型歧义例如表面的因为表面和面的都是词那么这个短语就可以分成表面 的和表 面的这种称为交集型歧义交叉歧义像这种交集型歧义十分常见前面举的和服的例子其实就是因为交集型歧义引起的错误化妆和服装可以分成化妆 和 服装或者化妆 和服 装由于没有人的知识去理解计算机很难知道到底哪个方案正确
交集型歧义相对组合型歧义来说是还算比较容易处理组合型歧义就必须根据整个句子来判断了例如在句子这个门把手坏了中把手是个词但在句子请把手拿开中把手就不是一个词在句子将军任命了一名中将中中将是个词但在句子产量三年中将增长两倍中中将就不再是词这些词计算机又如何去识别?
如果交集型歧义和组合型歧义计算机都能解决的话在歧义中还有一个难题是真歧义真歧义意思是给出一句话由人去判断也不知道哪个应该是词哪个应该不是词例如乒乓球拍卖完了可以切分成乒乓 球拍 卖 完 了也可切分成乒乓球 拍卖 完 了如果没有上下文其他的句子恐怕谁也不知道拍卖在这里算不算一个词人名地名新词专业术语称为未登录词也就是那些在分词词典中没有收录但又确实能称为词的那些词最典型的是人名人可以很容易理解句子王军虎去广州了中王军虎是个词因为是一个人的名字但要是让计算机去识别就困难了如果把王军虎做为一个词收录到字典中去全世界有那么多名字而且每时每刻都有新增的人名收录这些人名本身就是一项既不划算又巨大的工程即使这项工作可以完成还是会存在问题例如在句子王军虎头虎脑的中王军虎还能不能算词
除了人名以外还有机构名地名产品名商标名简称省略语等都是很难处理的问题而且这些又正好是人们经常使用的词因此对于搜索引擎来说分词系统中的新词识别十分重要新词识别准确率已经成为评价一个分词系统好坏的重要标志之一在技术中中文处理技术比西文处理技术要落后很大一段距离许多西文的处理方法中文不能直接采用就是因为中文必需有分词这道工序中文分词是其他的基础搜索引擎只是中文分词的一个应用其他的比如MT自动分类自动摘要自动校对等等都需要用到分词因为中文需要分词可能会影响一些研究但同时也为一些企业带来机会因为国外的计算机处理技术要想进入首先也是要解决中文分词问题
分词准确性对搜索引擎来说十分重要但如果分词速度太慢即使准确性再高对于搜索引擎来说也是不可用的因为搜索引擎需要处理数以亿计的网页如果分词耗用的时间过长会严重影响搜索引擎内容更新的速度因此对于搜索引擎来说分词的准确性和速度二者都需要达到很高的要求研究中文分词的大多是科研院校清华北大哈工大中科院北京语言学院山西大学IBM研究院微软中国研究院等都有自己的研究队伍而真正专业研究中文分词的商业公司除了海量科技以外几乎没有了科研院校研究的技术大部分不能很快产品化而一个专业公司的力量毕竟有限看来中文要想更好的服务于更多的产品还有很长一段路  功能性能[2]
功能描述1.新词自动识别
对词典中不存在的词可以自动识别对词典的依赖较小
2.词性输出
分词结果中带有丰富的词性
3.动态词性输出
分词结果中的词性并非固定会根据不同的语境赋予不同的词性
4.特殊词识别
比如化学药品等行业词汇地名品牌媒体名等
5.智能歧义解决
根据内部规则智能解决常见分词歧义问题
6.多种编码识别
自动识别各种单一编码并支持混合编码
7.数词量词优化
自动识别数量词
性能介绍处理器AMD Athlon II x2 250 3GHZ
单线程大于833KB/s多线程安全
一个PHP函数实现中文分词使分词更容易使用如下图:
SCWS调用示例Hightman开发的一套基于词频词典的机械中文分词引擎它能将一整段的汉字基本正确的切分成词采用的是采集的词频词典并辅以一定的专有名称人名地名数字年代等规则识别来达到基本分词经小范围测试大概准确率在 90% ~ 95% 之间已能基本满足一些小型搜索引擎关键字提取等场合运用45Kb左右的文本切词时间是0.026秒大概是1.5MB文本/秒支持PHP4和PHP 5FudanNLP主要是为中文而开发的工具包也包含为实现这些任务的算法和数据集本工具包及其包含数据集使用LGPL3.0许可证开发语言为Java功能包括中文分词等不需要字典支持这是最早的中文开源分词项目之一ICTCLAS在国内973专家组组织的评测中活动获得了第一名在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名ICTCLAS3.0分词速度单机996KB/s分词精度98.45%API不超过200KB各种词典数据压缩后不到3M.ICTCLAS全部采用C/C++编写支持LinuxFreeBSD及Windows系列支持C/C++C#DelphiJava等主流的开发语言HTTPCWS 是一款基于的开源中文分词系统目前仅支持Linux系统HTTPCWS 使用ICTCLAS 3.0 2009共享版中文分词算法的API进行分词处理得出分词结果HTTPCWS 将取代之前的 PHPCWS 中文分词扩展一个中文词典开源项目提供一份以汉语拼音为中文辅助的汉英辞典截至日已收录82712个单词其词典可以用于中文分词使用而且不存在版权问题Chrome中文版就是使用的这个词典进行中文分词的是一个开源的基于开发的轻量级的中文分词工具包从2006年12月推出1.0版开始已经推出了3个大版本最初它是以开源项目Luence为应用主体的结合词典分词和文法分析算法的中文分词组件新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件独立于Lucene项目同时提供了对Lucene的默认优化实现Paoding庖丁解牛分词基于Java的开源中文分词组件提供lucene和solr 接口具有极 高效率和 高扩展性引入隐喻采用完全的构思先进
高效率在PIII 1G内存个人机器上1秒可准确分词 100万汉字
采用基于 不限制个数的词典文件对文章进行有效切分使能够将对词汇分类定义
能够对未知的词汇进行合理解析
仅支持MMSEG4J基于Java的开源中文分词组件提供lucene和solr 接口
1mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用
2MMSeg 算法有两种分词方法Simple和Complex都是基于正向最大匹配Complex 加了四个规则过虑官方说词语的正确识别率达到了 98.41% 已经实现了这两种分词算法盘古分词是一个基于.net 平台的开源中文分词组件提供lucene(.net 版本) 和HubbleDotNet的接口
高效Core Duo 1.8 GHz 下单线程 分词速度为 390K 字符每秒
准确盘古分词采用字典和统计结合的分词算法分词准确率较高
功能盘古分词提供中文人名识别简繁混合分词多元分词英文词根化强制一元分词词频优先分词过滤英文专名提取等一系列功能jcseg是使用Java开发的一个中文分词器使用流行的mmseg算法实现[3]
1mmseg四种过滤算法分词准确率达到了98.4%以上
2支持自定义词库在lexicon文件夹下可以随便添加/删除/更改词库和词库内容并且对词库进行了分类词库整合了现代汉语词典和cc-cedict辞典
3词条拼音和同义词支持jcseg为所有词条标注了拼音并且词条可以添加同义词集合jcseg会自动将拼音和同义词加入到分词结果中
4中文数字和分数识别例如&四五十个人都来了三十分之一&中的&四五十&和&三十分之一&并且jcseg会自动将其转换为对应的阿拉伯数字
5支持中英混合词的识别例如B超x射线
6支持基本单字单位的识别例如2012年
7良好的英文支持自动识别电子邮件网址分数小数百分数……
8智能圆角半角转换处理
9特殊字母识别例如ⅠⅡ
10特殊数字识别例如①⑩
11配对标点内容提取例如最好的Java书java编程思想畅想杯黑客技术大赛被,,,标点标记的内容
12智能中文人名识别中文人名识别正确率达94%以上
jcseg佩带了jcseg.properties配置文档使用文本编辑器就可以自主的编辑其选项配置适合不同应用场合的分词应用例如最大匹配分词数是否开启中文人名识别是否载入词条拼音是否载入词条同义词……friso是使用c语言开发的一个中文分词器使用流行的mmseg算法实现完全基于模块化设计和实现可以很方便的植入到其他程序中例如MySQLPHP等并且提供了一个php中文分词扩展robbe
1只支持UTF-8编码源码无需修改就能在各种平台下编译使用加载完20万的词条内存占用稳定为14M
2mmseg四种过滤算法分词准确率达到了98.41%
3支持自定义词库在dict文件夹下可以随便添加/删除/更改词库和词库词条并且对词库进行了分类
4词库使用了friso的Java版本jcseg的简化词库
5支持中英混合词的识别例如c语言IC卡
7很好的英文支持电子邮件网址小数分数百分数
8支持阿拉伯数字基本单字单位的识别例如2012年5吨120斤
9自动英文圆角/半角大写/小写转换
并且具有很高的分词速度简单模式3.7M/秒复杂模式1.8M/秒[4]说明
中文分词接口
您可以方便的利用中文分词API接口开发您自己的中文分词应用程序或网站
注意:如果分词的内容使地址栏超过255个字符,请通过POST发送,因为地址栏传参数无法超过255个字符
可传参数,如下
需要分词文字或文章
  默认  Foxapi 是一个针对开发者提供一些预先定义的接口通过该接口开发者可以获取到相应的数据信息方便开发者调用数据从而间接减少代码编写
优先判断词频  如果一个长的单词由多个短的单词组成而长的单词词频较低则忽略长的单词  如香格里拉酒店的词频比香格里拉和酒店的词频都要低则忽略香格里拉酒店
  默认true
是否匹配汉语人名
  默认true
multiselect
多元分词选项分词将更细致  如微软是大公司  true 则分为 微软/是/大/公司  false 则分为 微软/是/大公司
  默认false
  FOXAPI的每个应用都必须使用APIID用来记录API操作  请到用户中心获取APIID
返回的数据格式
1.xml → XML形式展示数据;   2.json → json形式展示数据;
该API返回的网站信息如下
&?xml version=&1.0& encoding=&UTF-8&?&&root&
&text&Foxapi/ /是/一个/针对/开发者/提供/一些/预先/定义/的/接口//通过/该/接口/开发者/可以/获取/到/相应/的/数据/信息//方便/开发者/调用/数据//从而/间接/减少/代码/编写//&/text&
返回的分词后内容
  errormsg
API错误信息
当访问API出现错误时数据里面将出现此节点否则不出现
新手上路我有疑问投诉建议参考资料 查看}

我要回帖

更多关于 中文什么意思 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信