什么是自然语言处理
2012年6月30日
21:38
自然语言处理(Natural Language Processing简称NLP)
是和领域的分支学科。在这此领域中探讨如何处理及运用;自然语言认知则是指让电脑“懂”人类的。
自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。
任务和限制
理论上,NLP是一种很吸引人的人机交互方式。早期的语言处理系统如,当它们处于一个有限的“积木世界”,运用有限的词汇表会话时,工作得相当好。这使得研究员们对此系统相当乐观,然而,当把这个系统拓展到充满了现实世界的含糊与不确定性的环境中时,他们很快丧失了信心。
由于理解(understanding)自然语言,需要关于外在世界的广泛知识以及运用操作这些知识的能力,自然语言认知,同时也被视为一个人工智能完备(AI-complete)的问题。同时,在自然语言处理中,"理解"的定义也变成一个主要的问题。有关理解定义问题的研究已经引发关注【 】。
实际问题
一些NLP面临的问题实例:
· 句子“我们把香蕉给猴子,因为它们饿了”和“我们把香蕉给猴子,因为它们熟透了”有同样的结构。但是代词“它们”在第一句中指的是“猴子”,在第二句中指的是“香蕉”。如果不了解猴子和香蕉的属性,无法区分。
自然语言处理的主要范畴
· (Text to speech)/(Speech synthesis)
· (Speech recognition)
· (Chinese word segmentation)
· (Part-of-speech tagging)
· (Parsing)
·
· (Text categorization)
· (Information retrieval)
· (Information extraction)
· (Text-proofing)
·
· (Machine translation)
· (Automatic summarization)
· (Textual entailment)
· 自然语言处理研究的难点
在口语中,词与词之间通常是连贯的,而界定字词边界通常使用的办法是取用能让给定的上下文最为通顺且在文法上无误的一种最佳组合。在书写上,也没有词与词之间的边界。
许多字词不单只有一个意思,因而我们必须选出使句意最为通顺的解释。
的通常是的,针对一个句子通常可能会(Parse)出多棵(Parse Tree),而我们必须要仰赖及前后文的资讯才能在其中选择一棵最为适合的剖析树。
例如语音处理时遇到外国口音或地方口音,或者在文本的处理中处理拼写,语法或者(OCR)的错误。
与计划
句子常常并不只是字面上的意思;例如,“你能把盐递过来吗”,一个好的回答应当是把盐递过去;在大多数上下文环境中,“能”将是糟糕的回答,虽说回答“不”或者“太远了我拿不到”也是可以接受的。再者,如果一门课程去年没开设,对于提问“这门课程去年有多少学生没通过?”回答“去年没开这门课”要比回答“没人没通过”好。
当前自然语言处理研究的发展趋势
第一,传统的基于句法-语义规则的理性主义方法受到质疑,随着语料库建设和语料库语言学的崛起,大规模真实文本的处理成为自然语言处理的主要战略目标。
第二,统计数学方法越来越受到重视,自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。
第三,浅层处理与深层处理并重,统计与规则方法并重,形成混合式的系统。
第四,自然语言处理中越来越重视词汇的作用,出现了强烈的“词汇主义”的倾向。词汇知识库的建造成为了普遍关注的问题。
统计自然语言处理
统计自然语言处理运用了、、的方法来解决上述,尤其是针对容易高度模糊的长串句子,当套用实际文法进行分析产生出成千上万笔可能性时所引发之难题。处理这些高度模糊句子所采用消歧的方法通常运用到以及(Markov models)。统计自然语言处理的技术主要由同样自下与学习行为相关的子领域:及所演进而成。
参考
· 科幻小说中的(万能翻译机)
·
·
·
·
·
·
·
·
相关链结
·
·
·
·
·
·
·
[]相关实例
·
·
·
·
来源:维基百科
By Evlis_Zhou
完成时间 2012年6月30日 21:38
发表于2012年7月17日
转载请注明出处