新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> The future of AI, is the future of computer
    [返回] 中文XML论坛 - 专业的XML技术讨论区计算机理论与工程『 人工智能 :: 机器学习|数据挖掘|进化计算 』 → 数据挖掘热点介绍 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 16460 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: 数据挖掘热点介绍 举报  打印  推荐  IE收藏夹 
       本主题类别: 信息检索    
     DMman 帅哥哟,离线,有人找我吗?魔羯座1984-1-11
      
      
      威望:1
      头衔:数据挖掘青年
      等级:研二(Pi-Calculus看得一头雾水)(版主)
      文章:803
      积分:5806
      门派:W3CHINA.ORG
      注册:2007/4/9

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给DMman发送一个短消息 把DMman加入好友 查看DMman的个人资料 搜索DMman在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 点击这里发送电邮给DMman 访问DMman的主页 引用回复这个贴子 回复这个贴子 查看DMman的博客楼主
    发贴心情 数据挖掘热点介绍


        

      就目前来看,将来的几个热点包括网站的数据挖掘(Web site data mining)、生物信息或基因(Bioinformatics/genomics)的数据挖掘及其文本的数据挖掘(Textual mining)。下面就这几个方面加以简单介绍。  
        
    - 网站的数据挖掘(Web site data mining)
      需求:
      随着Web技术的发展,各类电子商务网站风起云涌,建立起一个电子商务网站并不困难,困难的是如何让您的电子商务网站有效益。要想有效益就必须吸引客户,增加能带来效益的客户忠诚度。电子商务业务的竞争比传统的业务竞争更加激烈,原因有很多方面,其中一个因素是客户从一个电子商务网站转换到竞争对手那边,只需点击几下鼠标即可。网站的内容和层次、用词、标题、奖励方案、服务等任何一个地方都有可能成为吸引客户、同时也可能成为失去客户的因素。而同时电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件(Logfiles)和登记表,如何对这些数据进行分析和挖掘,充分了解客户的喜好、购买模式,甚至是客户一时的冲动,设计出满足于不同客户群体需要的个性化网站,进而增加其竞争力,几乎变得势在必行。若想在竞争中生存进而获胜,就要比您的竞争对手更了解客户。

      电子商务网站数据挖掘:  
      在对网站进行数据挖掘时,所需要的数据主要来自于两个方面:一方面是客户的背景信息,此部分信息主要来自于客户的登记表;而另外一部分数据主要来自浏览者的点击流(Click-stream),此部分数据主要用于考察客户的行为表现。但有的时候,客户对自己的背景信息十分珍重,不肯把这部分信息填写在登记表上,这就会给数据分析和挖掘带来不便。在这种情况之下,就不得不从浏览者的表现数据中来推测客户的背景信息,进而再加以利用。
    就分析和建立模型的技术和算法而言,网站的数据挖掘和原来的数据挖掘差别并不是特别大,很多方法和分析思想都可以运用。所不同的是网站的数据格式有很大一部分来自于点击流,和传统的数据库格式有区别。因而对电子商务网站进行数据挖掘所做的主要工作是数据准备。目前,有很多厂商正在致力于开发专门用于网站挖掘的软件。


        
    - 生物信息或基因的数据挖掘  
      生物信息或基因数据挖掘则完全属于另外一个领域,在商业上很难讲有多大的价值,但对于人类却受益非浅。例如,基因的组合千变万化,得某种病的人的基因和正常人的基因到底差别多大?能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。

    对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法而言,都要复杂得多。从分析算法上讲,更需要一些新的和好的算法。现在很多厂商正在致力于这方面的研究。但就技术和软件而言,还远没有达到成熟的地步。
        
    - 文本的数据挖掘(Textualmining)
      人们很关心的另外一个话题是文本数据挖掘。举个例子,在客户服务中心,把同客户的谈话转化为文本数据,再对这些数据进行挖掘,进而了解客户对服务的满意程度和客户的需求以及客户之间的相互关系等信息。从这个例子可以看出,无论是在数据结构还是在分析处理方法方面,文本数据挖掘和前面谈到的数据挖掘相差很大。文本数据挖掘并不是一件容易的事情,尤其是在分析方法方面,还有很多需要研究的专题。目前市场上有一些类似的软件,但大部分方法只是把文本移来移去,或简单地计算一下某些词汇的出现频率,并没有真正的分析功能。

    随着计算机计算能力的发展和业务复杂性的提高,数据的类型会越来越多、越来越复杂,数据挖掘将发挥出越来越大的作用。


       收藏   分享  
    顶(0)
      




    ----------------------------------------------
    数据挖掘青年 http://blogger.org.cn/blog/blog.asp?name=DMman
    纪录片之家 (很多纪录片下载)http://www.jlpzj.com/?fromuid=137653

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/5/13 19:08:00
     
     Leon.Essence 帅哥哟,离线,有人找我吗?
      
      
      
      威望:9
      等级:大四寒假(收到Microsoft的Offer啦)(贵宾)
      文章:129
      积分:1409
      门派:W3CHINA.ORG
      注册:2005/9/4

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给Leon.Essence发送一个短消息 把Leon.Essence加入好友 查看Leon.Essence的个人资料 搜索Leon.Essence在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 点击这里发送电邮给Leon.Essence 引用回复这个贴子 回复这个贴子 查看Leon.Essence的博客2
    发贴心情 
    data mining技术和semantic web技术结合起来(或者是data mining in the semantic web)也可以算是一个研究的热点之一,呵呵,不知道有没有人系统的研究过这个问题

    ----------------------------------------------
    做个勤奋者,思考者,更要做个偏执狂!

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/5/14 22:31:00
     
     vipsupply 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:12
      积分:102
      门派:XML.ORG.CN
      注册:2007/6/18

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给vipsupply发送一个短消息 把vipsupply加入好友 查看vipsupply的个人资料 搜索vipsupply在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 引用回复这个贴子 回复这个贴子 查看vipsupply的博客3
    发贴心情 
    长知识了
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/6/18 14:08:00
     
     hellok 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:1
      积分:58
      门派:XML.ORG.CN
      注册:2007/6/22

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给hellok发送一个短消息 把hellok加入好友 查看hellok的个人资料 搜索hellok在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 引用回复这个贴子 回复这个贴子 查看hellok的博客4
    发贴心情 
    好啊,继续……
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/6/22 10:45:00
     
     todingding 美女呀,离线,快来找我吧!
      
      
      等级:大一(猛啃高等数学)
      文章:21
      积分:166
      门派:XML.ORG.CN
      注册:2006/7/21

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给todingding发送一个短消息 把todingding加入好友 查看todingding的个人资料 搜索todingding在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 引用回复这个贴子 回复这个贴子 查看todingding的博客5
    发贴心情 
    文本数据挖掘确实如楼主所说,将一些文本内容移来移去,我目前正在研究利用本体将一些关键的文本内容,我称为知识片段从大量的文献中提取出来,这些知识片段就是一些句子或者是一些段落,目前我选用的颗粒度是带有句法的句子。
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/6/27 10:42:00
     
     aappss 帅哥哟,离线,有人找我吗?
      
      
      等级:大一(高数修炼中)
      文章:21
      积分:138
      门派:XML.ORG.CN
      注册:2007/4/23

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给aappss发送一个短消息 把aappss加入好友 查看aappss的个人资料 搜索aappss在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 引用回复这个贴子 回复这个贴子 查看aappss的博客6
    发贴心情 
    如何使用啊,本体构建后如何利用起来呢?有这样的平台吗?
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/6/28 16:11:00
     
     lrrr 帅哥哟,离线,有人找我吗?
      
      
      等级:大一(高数修炼中)
      文章:12
      积分:128
      门派:XML.ORG.CN
      注册:2007/7/5

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给lrrr发送一个短消息 把lrrr加入好友 查看lrrr的个人资料 搜索lrrr在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 引用回复这个贴子 回复这个贴子 查看lrrr的博客7
    发贴心情 
    楼主,结构化数据的关联分析是不是被研究得比较烂了?
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/7/5 9:11:00
     
     haonan917 帅哥哟,离线,有人找我吗?处女座1984-9-17
      
      
      等级:大一新生
      文章:6
      积分:80
      门派:IEEE.ORG.CN
      注册:2007/6/11

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给haonan917发送一个短消息 把haonan917加入好友 查看haonan917的个人资料 搜索haonan917在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 引用回复这个贴子 回复这个贴子 查看haonan917的博客8
    发贴心情 
    顶~~~~~~~``

    ----------------------------------------------
    自己打败自己是最可悲的失败,自己战胜自己是最可贵的胜利 欢迎光临我的学习型BLOG-DMFighter: http://blogger.org.cn/blog/blog.asp?name=haonan917

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/7/5 20:52:00
     
     gzfxxy1978 帅哥哟,离线,有人找我吗?天秤座1975-10-18
      
      
      等级:大二期末(汇编考了97分!)
      文章:80
      积分:512
      门派:XML.ORG.CN
      注册:2007/1/31

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给gzfxxy1978发送一个短消息 把gzfxxy1978加入好友 查看gzfxxy1978的个人资料 搜索gzfxxy1978在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 引用回复这个贴子 回复这个贴子 查看gzfxxy1978的博客9
    发贴心情 

    ----------------------------------------------
    本体啊,我的出路

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/7/6 9:53:00
     
     DMman 帅哥哟,离线,有人找我吗?魔羯座1984-1-11
      
      
      威望:1
      头衔:数据挖掘青年
      等级:研二(Pi-Calculus看得一头雾水)(版主)
      文章:803
      积分:5806
      门派:W3CHINA.ORG
      注册:2007/4/9

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给DMman发送一个短消息 把DMman加入好友 查看DMman的个人资料 搜索DMman在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 点击这里发送电邮给DMman 访问DMman的主页 引用回复这个贴子 回复这个贴子 查看DMman的博客10
    发贴心情 
    以下是引用lrrr在2007-7-5 9:11:00的发言:
    楼主,结构化数据的关联分析是不是被研究得比较烂了?


    应该说是的.关联分析本身就是数据挖掘算法中的元老了,而结构化数据也是数据挖掘最好的对象.

    很多朋友都发现,现在数据挖掘的算法方面的研究一直没有推陈出新,人们只是在原来算法上面修修补补,要么是算法某一个步骤的变化,要么是把算法向并行化 增量计算方面发展.也许 这都是由需求决定的~~

    ----------------------------------------------
    数据挖掘青年 http://blogger.org.cn/blog/blog.asp?name=DMman
    纪录片之家 (很多纪录片下载)http://www.jlpzj.com/?fromuid=137653

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/7/6 12:58:00
     
     GoogleAdSense魔羯座1984-1-11
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 点击这里发送电邮给Google AdSense 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2024/5/9 18:23:49

    本主题贴数10,分页: [1]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    281.250ms