以文本方式查看主题

-  中文XML论坛 - 专业的XML技术讨论区  (http://bbs.xml.org.cn/index.asp)
--  『 人工智能 :: 机器学习|数据挖掘|进化计算 』  (http://bbs.xml.org.cn/list.asp?boardid=62)
----  数据挖掘热点介绍  (http://bbs.xml.org.cn/dispbbs.asp?boardid=62&rootid=&id=46829)


--  作者:DMman
--  发布时间:5/13/2007 7:08:00 PM

--  数据挖掘热点介绍

    

  就目前来看,将来的几个热点包括网站的数据挖掘(Web site data mining)、生物信息或基因(Bioinformatics/genomics)的数据挖掘及其文本的数据挖掘(Textual mining)。下面就这几个方面加以简单介绍。  
    
- 网站的数据挖掘(Web site data mining)
  需求:
  随着Web技术的发展,各类电子商务网站风起云涌,建立起一个电子商务网站并不困难,困难的是如何让您的电子商务网站有效益。要想有效益就必须吸引客户,增加能带来效益的客户忠诚度。电子商务业务的竞争比传统的业务竞争更加激烈,原因有很多方面,其中一个因素是客户从一个电子商务网站转换到竞争对手那边,只需点击几下鼠标即可。网站的内容和层次、用词、标题、奖励方案、服务等任何一个地方都有可能成为吸引客户、同时也可能成为失去客户的因素。而同时电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件(Logfiles)和登记表,如何对这些数据进行分析和挖掘,充分了解客户的喜好、购买模式,甚至是客户一时的冲动,设计出满足于不同客户群体需要的个性化网站,进而增加其竞争力,几乎变得势在必行。若想在竞争中生存进而获胜,就要比您的竞争对手更了解客户。

  电子商务网站数据挖掘:  
  在对网站进行数据挖掘时,所需要的数据主要来自于两个方面:一方面是客户的背景信息,此部分信息主要来自于客户的登记表;而另外一部分数据主要来自浏览者的点击流(Click-stream),此部分数据主要用于考察客户的行为表现。但有的时候,客户对自己的背景信息十分珍重,不肯把这部分信息填写在登记表上,这就会给数据分析和挖掘带来不便。在这种情况之下,就不得不从浏览者的表现数据中来推测客户的背景信息,进而再加以利用。
就分析和建立模型的技术和算法而言,网站的数据挖掘和原来的数据挖掘差别并不是特别大,很多方法和分析思想都可以运用。所不同的是网站的数据格式有很大一部分来自于点击流,和传统的数据库格式有区别。因而对电子商务网站进行数据挖掘所做的主要工作是数据准备。目前,有很多厂商正在致力于开发专门用于网站挖掘的软件。


    
- 生物信息或基因的数据挖掘  
  生物信息或基因数据挖掘则完全属于另外一个领域,在商业上很难讲有多大的价值,但对于人类却受益非浅。例如,基因的组合千变万化,得某种病的人的基因和正常人的基因到底差别多大?能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。

对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法而言,都要复杂得多。从分析算法上讲,更需要一些新的和好的算法。现在很多厂商正在致力于这方面的研究。但就技术和软件而言,还远没有达到成熟的地步。
    
- 文本的数据挖掘(Textualmining)
  人们很关心的另外一个话题是文本数据挖掘。举个例子,在客户服务中心,把同客户的谈话转化为文本数据,再对这些数据进行挖掘,进而了解客户对服务的满意程度和客户的需求以及客户之间的相互关系等信息。从这个例子可以看出,无论是在数据结构还是在分析处理方法方面,文本数据挖掘和前面谈到的数据挖掘相差很大。文本数据挖掘并不是一件容易的事情,尤其是在分析方法方面,还有很多需要研究的专题。目前市场上有一些类似的软件,但大部分方法只是把文本移来移去,或简单地计算一下某些词汇的出现频率,并没有真正的分析功能。

随着计算机计算能力的发展和业务复杂性的提高,数据的类型会越来越多、越来越复杂,数据挖掘将发挥出越来越大的作用。

  


--  作者:Leon.Essence
--  发布时间:5/14/2007 10:31:00 PM

--  
data mining技术和semantic web技术结合起来(或者是data mining in the semantic web)也可以算是一个研究的热点之一,呵呵,不知道有没有人系统的研究过这个问题
--  作者:vipsupply
--  发布时间:6/18/2007 2:08:00 PM

--  
长知识了
--  作者:hellok
--  发布时间:6/22/2007 10:45:00 AM

--  
好啊,继续……
--  作者:todingding
--  发布时间:6/27/2007 10:42:00 AM

--  
文本数据挖掘确实如楼主所说,将一些文本内容移来移去,我目前正在研究利用本体将一些关键的文本内容,我称为知识片段从大量的文献中提取出来,这些知识片段就是一些句子或者是一些段落,目前我选用的颗粒度是带有句法的句子。

--  作者:aappss
--  发布时间:6/28/2007 4:11:00 PM

--  
如何使用啊,本体构建后如何利用起来呢?有这样的平台吗?
--  作者:lrrr
--  发布时间:7/5/2007 9:11:00 AM

--  
楼主,结构化数据的关联分析是不是被研究得比较烂了?
--  作者:haonan917
--  发布时间:7/5/2007 8:52:00 PM

--  
顶~~~~~~~``
--  作者:gzfxxy1978
--  发布时间:7/6/2007 9:53:00 AM

--  

--  作者:DMman
--  发布时间:7/6/2007 12:58:00 PM

--  
以下是引用lrrr在2007-7-5 9:11:00的发言:
楼主,结构化数据的关联分析是不是被研究得比较烂了?


应该说是的.关联分析本身就是数据挖掘算法中的元老了,而结构化数据也是数据挖掘最好的对象.

很多朋友都发现,现在数据挖掘的算法方面的研究一直没有推陈出新,人们只是在原来算法上面修修补补,要么是算法某一个步骤的变化,要么是把算法向并行化 增量计算方面发展.也许 这都是由需求决定的~~


W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
78.125ms