当前位置: 首页 > news >正文

办公用纸网站建设/武汉百度百科

办公用纸网站建设,武汉百度百科,电脑网页打不开建设银行网站,网站下载免费新版1.前言 上一篇博文 LDA轻松理解1 让大家对LDA概念有了基本认识,也知道了如何用sklearn去实现它。这篇主要讲解LDA的文章的生成 2. 通俗理解文章生成过程 想想我们写文章之前,都是要先确定一个主题的,所以 step1:选择主题&#…

1.前言

上一篇博文 LDA轻松理解1 让大家对LDA概念有了基本认识,也知道了如何用sklearn去实现它。这篇主要讲解LDA的文章的生成

2. 通俗理解文章生成过程

想想我们写文章之前,都是要先确定一个主题的,所以
step1:选择主题,有两种情况:

  • 一个文章只有一个主题
  • 一个文章有多个主题,LDA就是基于多主题的假设
  • 对于多主题如生活、服装、科技和体育,那我们在写文章时,就要考虑给各个主题分配多少字数和内容,也就是确定各个主题的分布如图
    在这里插入图片描述
    step2:生成文章 =>等价于 生成 list of 单词
    一个一个单词的生成,所以必须有循环,假设一篇文章只有100个单词,我们需要一个一个单词的去遍历,那么如何生成一个单词呢?这个需要借助在 LDA轻松理解1 中定义的 每个主题下单词出现的概率矩阵Φ在这里插入图片描述
    所以对于每一个单词:我们要选择一个主题,然后在该主题下生成单词,即:
    for j = 1, 2,3…100
    • (i) 选择一个主题,如科技
    • (ii) 在科技主题下选择合适的单词

现在我们是有了文章,然后去反推文档的主题分布单词与主题的分布,也就是 LDA轻松理解1 所实现的内容。

3.从官方角度看文章生成过程

先来看最经典的框框图如下:
图1

  • 外层框框代表文档doc,N表示叠加了N个文档
  • 内层框框中Mi代表第i个文档单词总个数
  • θi :第 i 个文档的主题分布
  • K : 主题的个数
  • α,β是超参数。α,β在大框框的外面,表示生成的所有文档都是来自于同一个α,β
  • Tij :第i个文档中第j个单词的主题
  • Wij:第i个文档中的第j个单词
    文章的生成过程如下
    在这里插入图片描述
    我们再来看正式流程①②③④步
    ①:α --> θi
    θi 是从 α分布采样来的,那 α 是什么分布呢?高斯分布行吗?不行的,因为 ∑θi ≠ 1。而 θi 是主题分布,既然是分布,那么一定满足 ∑θi = 1 (θi ≥ 0),Direchlet 分布恰好满足这一条件。
    Direchlet 分布有一个参数 α,
    所以:θi ~ Dir(α)
    ③ β --> Φ= {Φ1, Φ2,…,Φk} # k:主题个数
    在这里插入图片描述
    由于 Φi 这一列也是概率,且要满足概率和为 1,所以 Φi ~ Dir(β)
    ② θi --> Tij
    由于在①我们已经采样到了主题分布了,所以只需要随机地在主题分布中选取某个主题就行。很明显Tij是离散型的随机变量,如 1, 2, 3代表选择的主题1,主题2,和主题3。
    这个采样过程是在多项式分布即Multinormial分布中采样的。
    所以Tij ~ Multinormial (θi)
    ④ Tij, Φ – > Wij
    也就是给定了 Φ 矩阵和某个主题 Tij,相当于我们要在 Φ_Tij 那一列中去选择某个单词,这也是离散型随机变量。所以Wij ~ Multinormial (Φ_Tij)
    完整版本的文章生成过程:
 Φk ~ Dir (β),  k= 1,2,3,..K         # K为主题个数for i = 1,2,....,N   # 总共有 N 个文档θi ~ Dir (α)     #确定每个文档的主题分布for j = 1,2,...Mi    # 第 i 个文档总共有 M 个单词Tij ~ Multimormail (θi)  # 确定每个单词j的主题Wij ~ Multinormail ( Φ_Tij)   # 生成最后每个单词
  1. numpy中有 np.random.direchlet (α), np.Multinormial () …

4. Collapsed Gibbs sample

在这里插入图片描述
① 狄利克雷分布
② 多项式分布
③ 狄利克雷分布
④ 多项式分布
吉布斯采样可以用于任意的贝叶斯模型,而collapsed采样方法比 gibbs 采样方法简单些
在这个图中,我们要估计的参数有 θ,Φ, T。对于LDA这个模型,collapsed 采用方法可以通过只采样 T 就可以估算出 θ 和 Φ,而不需要对这三个参数都进行采样,从而可以减少变量的个数。
举个例子:比如某个文档i 的单词个数是6个(w1,w2w3,w4,w5,w6), 而且我们知道每个单词的主题是什么,比如 {w1: 1, w2:1, w3:1, w4:2, w5:2, w6:3}, 其实这相当于是已知了 Tij 的值,我们依靠这个值去计算 θ, 这里根据 w1,w2,w3,w4,w5,w6的主题,可以知道总共只有3种主题,共有6个单词,那么可以得到主题分布θ = (3/6, 2/6, 1/6), 也可以根据Tij去计算Φ

http://www.lbrq.cn/news/1449721.html

相关文章:

  • 深圳建站网站/软文代写网
  • 找专业做网站的公司/公关公司排行榜
  • 南宁推广软件/新手怎么做seo优化
  • 网站如何做单项链接/外贸如何推广
  • 今天主要新闻/长沙seo霜天博客
  • 英文网站开发/南平seo
  • 做网站的法律/廊坊关键词优化平台
  • 泉州网站建设公司首选/合肥网站关键词排名
  • 网站建设与服务技能实训心得体会/营业推广
  • 单纯做网站的公司/东莞百度快速排名
  • 网站网页/关于新品牌的营销策划
  • 金融网站素材/全国唯一一个没有疫情的城市
  • 专门做日本旅游的网站/成人短期就业培训班
  • 服装网站建设策划/域名注册商怎么查
  • 公司网站模块制作/网络推广优化seo
  • 宣武上海网站建设/有什么公司要做推广的
  • 什么网站算是h5做的/免费的网站软件下载
  • wordpress资讯站模板/搜索引擎推广简称
  • 网址自动生成手机网站/上海百度推广开户
  • 网站做sem优化/珠海网站设计
  • 网站推广的方法和手段/网络运营商
  • cms网站栏目介绍/近期出现的病毒叫什么
  • 莱芜警方网站官网/刷粉网站推广马上刷
  • 伪静态一个虚拟空间做两个网站/链接购买
  • 网页类型分类7种/seo和网络推广有什么区别
  • wordpress企业仿站/厦门seo外包服务
  • 湖南网站建设磐石网络口碑好/高端营销型网站
  • 广州网站建设乐云seo模板中心/如何在网上推广自己的产品
  • skech做网站交互流程/如何网上免费打广告
  • 租房网站开发视频教程/信息流优化师没经验可以做吗
  • 推荐一款优质的开源博客与内容管理系统
  • 虚幻GAS底层原理解剖五 (AS)
  • Linux系统之Docker命令与镜像、容器管理
  • Linux驱动24 --- RkMedia 视频 API 使用
  • LeetCode 刷题【31. 下一个排列】
  • Python 基础语法(二):流程控制语句详解