[转]NLP模型与深度学习

归档：2021年12月分类：数海泛舟,深度学习

1、自然语言处理简介

根据工业界的估计，仅有21% 的数据是以结构化的形式展现的[1]。在日常生活中，大量的数据是以文本、语音的方式产生（例如短信、微博、录音、聊天记录等等），这种方式是高度无结构化的。如何去对这些文本数据进行系统化分析、理解、以及做信息提取，就是自然语言处理（Natural Language Processing，NLP）需要做的事情。

在NLP中，常见的任务包括：自动摘要、机器翻译、命名体识别（NER）、关系提取、情感分析、语音识别、主题分割等。

在NLP与深度学习系列文章中，不会逐一解释各个NLP任务，而是主要介绍深度学习模型在NLP中的应用。整体分为以下几点：

首先介绍NLP基本流程以及在数据预处理方面的技术；而后会介绍最初期使用的神经网络：SimpleRNN、LSTM；继而引入使得文本处理性能得到很大提升的Attention机制以及Transformer模型；最后介绍近几年非常热门的预训练模型BERT，以及如何使用BERT预训练模型的例子

下面首先介绍的NLP任务的一个基本工作流程。

2、NLP 任务流程

典型的NLP任务分为以下几步：

数据收集
数据标注
文本标准化（Normalization）
文本向量化/特征化（Vectorization/Featuring）
建模

前期主要是数据收集，并根据任务类型对数据做标注（例如情感分析中，对好、坏评价做标注）。接下来的2个步骤均是对文本进行预处理的步骤，为了提取文本中隐含的信息，最后通过机器学习建模，达到任务目标。其中 3 – 5 这几步是迭代的流程，为了模型的精度更准确，需要迭代这个过程，进行不断尝试。

数据收集以及标注并非在本文讨论范围内，接下来介绍文本标准化的目标与方法。

3、文本标准化

由于文本数据在可用的数据中是非常无结构的，它内部会包含很多不同类型的噪点。所以在对文本进行预处理之前，它暂时是不适合被用于做直接分析的。

文本预处理过程主要是对文本数据进行清洗与标准化。这个过程会让我们的数据没有噪声，并可以对它直接做分析。

而文本标准化是NLP任务里的一个数据预处理过程。它的主要目标与常规数据预处理的目标一致：提升文本质量，使得文本数据更便于模型训练。

文本标准化主要包含4个步骤：

大小写标准化（Case Normalization）
分词（Tokenization）与 停止词移除（stop word removal）
词性（Parts-of-Speech，POS）标注（Tagging）
词干提取（Stemming）

3.1 大小写标准化

大小写标准化是将大写字符转为小写字符，一般在西语中会用到。但是对于中文，不需要做此操作。而且Case Normalization 也并非是在所有任务场景中都有用，例如在英文垃圾邮件分类中，一般一个明显的特征就是充斥着大写单词，所以在这种情况下，并不需要将单词转为小写。

3.2 分词

文本数据一般序列的形式存在，分词是为了将文本转为单词列表，这个过程称为分词（tokenization），转为的单词称为token。根据任务的类别，单词并非是分词的最小单位，最小单位为字符。在一个英语单词序列中，例如 ride a bike，单词分词的结果为 [ride, a, bkie]。字符分词的结果为[r, i, d, e, a, b, k, e]。

在中文中，分词的最小单元可以不是单个字，而是词语。

3.3 停止词移除

停止词移除是将文本中的标点、停顿词（例如 is，in，of等等）、特殊符号（如@、#等）移除。大部分情况下，此步骤能提升模型效果，但也并非在任何时候都有用。例如在骚扰邮件、垃圾邮件识别中，特殊字符相对较多，对于分辨是否是垃圾邮件有一定帮助。

3.4 词性标注

语言是有语法结构的，在大部分语言中，单词可以被大体分为动词、名词、形容词、副词等等。词性标注的目的就是就是为了一条语句中的单词标注它的词性。

3.5 词干提取

在部分语言中，例如英语，一个单词会有多种表示形式。例如play，它的不同形式有played，plays，playing等，都是play的变种。虽然他们的意思稍微有些区别，但是大部分情况下它们的意思是相近的。词干提取就是提取出词根（例如play 就是它各种不同形式的单词的词根），这样可以减少词库的大小，并且增加单词匹配的精度。

这些文本标准化的步骤，可以用于对文本进行预处理。在进一步基于这些文本数据进行分析时，我们需要将它转化为特征。根据使用用途不同，文本特征可以根据各种技术建立而成。如：句法分析（Syntactical Parsing），N元语法（N-grams），基于单词计数的特征，统计学特征，以及词向量（word embeddings）等。

其中词向量是当前主要的技术，下面主要介绍词向量。

4.文本向量化/特征化

向量化是将单词转为词向量的过程，也称为词嵌入（word embedding），这里嵌入的意思是说将单词所包含的信息嵌入到了向量中。

在word embedding出现之前，有2种文本向量化的方式，下面简单地介绍一下。

4.1基于单词计数的特征

此方法非常简单，首先将语料库文本进行分词，得到单词数。然后在对句子构建向量时，可以根据句子中包含的单词数构建向量。

举个例子，假设语料库为“我爱我的家，我的家是中国”。在进行分词后可以得到:

{'爱', '是', '，', '我', '中', '国', '家', '的'}

对于一个新的句子，例如”我爱我的国“，基于单词计数的表示即为：

[1, 0, 0, 2, 0, 1, 0, 1]

可以看到这种方法仅是对句子中的单词进行了统计，并不包含单词具体代表的含义（例如多义词的意义无法在此体现）。这种称为不包含上下文（context-free）的向量化。不过它提供了一种用于衡量两个文档相似度的方法。一般会通过余弦相似度或是距离来比较两个文档的相近程度。

4.2. 基于统计学的特征

在对文本做向量化时，一个常用的技术是词频-逆文档频率（Term Frequency – Inverse Document Frequency），常称为TF-IDF。TF-IDF 最初源于解决信息检索问题。它的目的是在于：基于单词在文档里出现的频率（不考虑严格的排序），将文档转化为向量模型。

这里Term Frequency很好理解，就是某个单词在文档中出现的频率。

在介绍Inverse Document Frequency（IDF）前，我们看一个例子。假设现在要通过单词检索文档，这里文档主要为各类食谱。如果我们使用单词如苹果、醋、酱油这类经常在食谱中出现的单词，则会有大量的文档可以匹配。而若是我们使用一些不常见的词，例如黑莓，则可以显著缩小要搜索的食谱文档。也就是说，若是一个单词越是不常见，则越有助于检索需要的文档。所以对于这类不常见的词，我们希望给它一个更高的分数。反之，对于在各个文档中都频繁出现的词，希望给它们更低的分数。这就是IDF的思想。

TF-IDF 的计算，数学上表示可以写为：

TF-IDF = TF(t, d) x IDF(t)

这里t表示term，也就是单词；D表示Document，文档。

IDF的定义为：

IDF(t) = log( N/(1+nt) )

这里N表示语料库中的文档总数，nt表示有多少文档中存在单词t。这个加1是为了防止除以0。

4.3 词向量

上面介绍了2种方式，仅仅是解决了用一个向量代表了一个文档，但无法体现词与词之间的关系。而从常理来看，词与词之间是存在联系的。例如，炒锅与锅铲，这2个词，从直觉上来看，会经常在一起出现。而炒锅与人行横道，应该基本不会出现在一起。

词向量，也称为词嵌入，是将单词映射（或称嵌入）到一个高维空间中，使得意义相近的词在空间内距离相近；意义不同的词在空间内距离相远。

4.3.1Word2Vec

在词嵌入技术中，一个具有时代意义的方法是Word2Vec，于2013年由Google的工程师提出。它本身算是神经网络处理任务的一个副产品。例如，搭建一个神经网络，每次取一个批次的5个单词，中间的单词作为target，周围的4个词作为输入，来训练神经网络。初始的输入词向量使用one-hot编码。这样再训练完成后，第一层的输入层参数，即为所得的词向量矩阵。

Word2Vec论文提出了2种训练方式：continuous bag-of-word（CBOW）和continuous skip-gram。在论文提出时，CBOW是当时主流方法；不过最后skip-gram模型与负采样的集成方法，已经成了Word2Vec的代名词。

Word2Vec已经有很多优秀的文章讲解过，在此不再赘述。下面主要举例说明skip-gram负采样的方式。

假设语料库中有一条句子为：“需要把鱼煎到棕黄再翻面”。

我们设置一个单词数为5的窗口，也就是一次处理5个单词，例如“要把鱼煎到”这5个词。中间的词“鱼”会被用于输入到搭建好的神经网络中，用于预测它前面的2个词（“要把”），以及后面的2个词（“煎到”）。

假设语料库中有10000个单词，神经网络的任务就是要判断给定一组词，它们是否相关。例如，对（鱼，煎）判断为true，对（鱼，树）判定为false。这种方法就是Skip-Gram Negative Sampling（SGNS），基于的假设就是：与某个词相关的词会更高概率一起出现（或是离的不远），所以可以从一段短语中拿出一个词，用于预测它周围的词。

SGNS的方法可以显著降低训练超大型语料库的时间，最终第一层输入层的权重矩阵即为词向量矩阵。

当然，Word2Vec也有它的局限性，一个典型的局限就是没有全局的统计信息，因为它在训练的时候最长是以一个窗口为单位，能看到的只有窗口内的上下文信息。

4.3.2 GloVe

GloVe (Global Vectors for Word Representation) 模型于2014年提出，于Word2Vec论文发表1年后。它们生成词向量的方法非常相似，都是通过一个词（例如上述例子中的“鱼”）周围的词，来生成这个词（例如“鱼”）的词嵌入。不过相对于Word2Vec，GloVe利用了全局的文本统计信息，也就是构建语料库的共现矩阵。共现矩阵简单来说，就是2个单词在窗口中一同出现的次数，以矩阵的形式表示。在有了全局统计信息（共现矩阵）后，接下来的问题是如何将全局信息应用到词向量生成中。

在原论文中，作者用了2个单词ice和steam来描述这个理念。假设有另一单词solid，用来探查ice与steam之间的关系。在steam上下文中出现solid的概率为 p(solid | steam)，从直觉上来看，它的概率应该会很小（因为steam与solid从直觉上同时出现的概率不会很高）。

而对于ice上下文中出现solid的概率 p(solid | ice)，直觉上应该会很高（因为ice是固体，直觉上它们同时出现的概率会很高）。

那如果我们计算p(solid | ice)/ p(solid | steam) 的比值，则预期的结果应该会很高。

而若是用gas作为探测词，则 p(gas | ice)/p(gas | steam) 的比值应该会很低（因为gas是气体，在直觉上在steam的上下文中出现的概率高，而在ice的上下文中出现的概率低）。

而若是用water这类与ice和steam相关性都很低的词作为探测词，则p(water | ice)/p(water | steam) 的概率应该接近于1。论文中也举了另一个与ice和steam不相干关的词fasion，p(fasion | ice)/p(fasion | steam) 的结果也近似于1。

也就是说，共现矩阵的概率的比值，可以用来区分词。GloVe的过程就是确保这种关系被用于生成词嵌入，将全局信息引入到了词向量的生成过程中。

若是对GloVe方法有兴趣，可以阅读这位博主的介绍：

https://blog.csdn.net/XB_please/article/details/103602964

或是GloVe论文：

https://nlp.stanford.edu/pubs/glove.pdf

对于GloVe的效果，论文中提到是远高于word2vec。

在使用GloVe时，可以直接从stanford的官网下载预训练的GloVe词嵌入，分为50、100、200、300维的词嵌入。地址为：

http://nlp.stanford.edu/data/glove.6B.zip

4.3.3 BERT

Word2vec与GloVe都有一个特点，就是它们是上下文无关（context-free）的词嵌入。所以它们没有解决：一个单词在不同上下文中代表不同的含义的问题。例如，对于单词bank，它在不同的上下文中，有银行、河畔这种差别非常大的含义。BERT的出现，解决了此问题，并极大地提升了baseline。

另一方面，BERT还解决了GloVe的一个局限性问题，就是：词库不够。例如在使用GloVe预训练的词嵌入应用到 IMDB数据集上时，大约有15%的词不在GloVe的词库中。当然，这也是由于一个词会有多种形式，导致所需词库巨大。

在BERT中，使用了WordPiece的分词方法，词库大小为30000。其实这个大小是远小于GloVe的词库大小，GloVe词库为40000。这是由于BERT使用的subword分词方法可以显著减少词库的大小，WordPiece基于的是BPE（Byte Pair Encoding），BPE属于subword分词法中的一种。

简单地说，subword分词法主要做的就是将单词进行进一步的拆分，让词库更加精简。更精简的词库可以降低训练时间，并减少内存使用。Subword分词法，以英语语言为例，举个简单的例子，例如在词库中引入2个新的词，分别为-ing与-ion。则任何结尾为-ing或-ion的词，均可分为2个词，一个是前缀词，一个是-ing或-ion中的任何一个。这样就极大减少了词库的大小。当然，WordPiece以及BPE中使用的方法并没有这么简单。若是对BPE与WordPiece算法有兴趣，可以阅读这位博主的介绍：
https://www.cnblogs.com/huangyc/p/10223075.html

在BERT中，对它使用的WordPiece分词，我们可以看一个例子：

#!pip install transformers==3.0.2
import tensorflow as tf
from transformers import BertTokenizer
import numpy as np

bert_name = 'bert-base-cased'
tokenizer = BertTokenizer.from_pretrained(bert_name, add_special_tokens=True, do_lower_case=False, max_length=150, pad_to_max_length=True)

# tokenize single sequence
tokens = tokenizer.encode_plus("Don't be lured", 
                      add_special_tokens=True, 
                      max_length=9, 
                      pad_to_max_length=True,
                      truncation='longest_first',
                      return_token_type_ids=True)

res = []
reverse_dic = [(id, item) for item, id in tokenizer.vocab.items()]

for tk in tokens['input_ids']:
    res.append(reverse_dic[tk][1])

print(res)
['[CLS]', 'Don', "'", 't', 'be', 'lure', '##d', '[SEP]', '[PAD]']

可以看到其中lured被拆分成‘lure’与‘##d’。另外的[CLS] 、[SEP] 与[PAD] 是BERT Tokenizer中的保留词，分别代表“分类任务”、“Sequences之间的间隔”，以及序列补全（序列补全与截断是NLP任务中常用的方法，用于将不同长度的文本统一长度）。

更多有关BERT的具体内容会在后续BERT章节进行介绍。

5、总结

在文本数据进行了标准化与向量化后，即可根据任务类型进行建模，将数据输入到模型中进行训练。文本标准化 => 向量化 => 建模，也是一个迭代的过程。下一章会介绍NLP任务早期建模使用的神经网络：SimpleRNN、LSTM以及双向循环神经网络。

References
[1] Natural Language Processing | NLP in Python | NLP Libraries (analyticsvidhya.com)
[2] Essentials of NLP | Advanced Natural Language Processing with TensorFlow 2 (oreilly.com)
[3] Word2Vec与Glove：词嵌入方法的动机和直觉

原文：https://www.cnblogs.com/zackstang/p/15182420.html

阅读全文>>

微分方程模型之传染病数学模型

归档：2021年7月分类：数海泛舟

关于传染病的数学模型，在许多年前数学界早已做过研究，根据传染病的传播速度不同，空间范围各异，传播途径多样，动力学机理等各种因素，对传染病模型按照传染病的类型划分为 SI，SIR，SIRS，SEIR 模型。如果是按照连续时间来划分，那么这些模型基本上可以划分为常微分方程（Ordinary Differential Equation），偏微分方程（Partial Differential Equation）等多种方程模型；如果是基于离散的时间来划分，那么就是所谓的差分方程（Difference Equation）。差分模型其实是微分模型的离散形式，所以我们只讨论微风方程模型。

首先要介绍一些常用的符号：在时间戳上，可以定义以下几种人群：

•易感者（susceptible）：用符号 file 来表示；

•感染者（infective）：用符号 file 来表示；

•康复者（Recoverd）：用符号 file 来表示；

其次，在时间戳t上，总人口是 file 。如果暂时不考虑人口增加和死亡的情况，那么N(t)是一个恒定的常数值。

除此之外，

•r表示在单位时间内感染者接触到的易感者人数；

•传染率 file ：表示感染者接触到易感者之后，易感者得病的概率；

•康复率 file ：表示感染者康复的概率，有可能变成易感者（可再感染），也有可能变成康复者（不再感染）。

在进行下面的分析之前，先讲一个常微分方程的解。

file

一、SI 模型（Susceptible-Infective Model）

在 SI 模型里面，只考虑了易感者和感染者，并且感染者不能够恢复，此类病症有 HIV 等，模型如下：

file

其微分方程就是：

file

这个微风方程近似解法如下：

file

通过数值模拟的结果：

file

在SI模型的假设下，全部人群到最后都会被感染。

二、SIS模型（Susceptible-Infectious-Susceptible Model）

除了HIV这种比较严重的病之外，还有很多小病可以恢复并且反复感染，例如日常的感冒，发烧等。在这种情况下，感染者就有一定的几率重新转化成易感者。如下图所示：

file

其微分方程是：

file

初始值： file ， file 。

这个方程的数值近似解：

file

三、SIR 模型（Susceptible-Infectious-Recovered Model）

很多时候，感染者在康复了之后就有抗体，于是后续就不再会获得此类病症，这种时候就需要考虑SIR模型。此类病症有麻疹，腮腺炎，风疹等。我们熟悉的SIR模型是基于疫情流行区域的总人数、感染人数、易感人数、病愈人数和时间之间的如下关系：

file

其微分方程是：

file

这些方程里的参数和为常数，反映了特定疫情的特征。这些方程貌似简单，但由于常数和是同一数量级，导致方程属于高度耦合的非线性类型，实际上无法求解析解，需要用数值解来提供预测结果。在疫情扩散过程中的早期，由于开始时易感人群也就是总人数，即 ≈ ，我们可以简化感染人数和时间的关系为：

file

由此可得到感染人数的近似解为：

file

这一关系表明，近似的感染人数总数是时间的指数函数。这里的常数和应该根据疫情的特点来确定，从而实现感染人数的估计。当然，疫情防控措施也会影响这些参数，反过来也反映了防控措施的效果。这些参数一般是根据流行病学的统计结果得到的，会在疫情的流行过程中得到反映。也就是说，我们也可以根据实际疫情报告来决定这些参数。由于我们已经积累了一些疫情实际数据，基于SIR分析的回溯拟合可以精确地确定这些参数。

SIR模型的一些近似结果（预测新冠病毒的有症状的确诊病例）：

file

四、总结

最后，除了以上的 SI，SIS，SIR 模型中，还考虑进去。除此之外，如果把潜伏期、潜伏期的传染情况也加进去考虑，还有SIRS模型，SEIR模型等，但是不管怎么变化都是基于SIR这个微分模型，而且有时候考虑的参数越多不一定越准确，比较本身参数就不是绝对精确。

阅读全文>>

隐形马尔可夫模型(HMM)

归档：2021年6月分类：数海泛舟

什么是熵(Entropy)

简单来说，熵是表示物质系统状态的一种度量，用它老表征系统的无序程度。熵越大，系统越无序，意味着系统结构和运动的不确定和无规则；反之，，熵越小，系统越有序，意味着具有确定和有规则的运动状态。熵的中文意思是热量被温度除的商。负熵是物质系统有序化，组织化，复杂化状态的一种度量。

熵最早来原于物理学. 德国物理学家鲁道夫·克劳修斯首次提出熵的概念，用来表示任何一种能量在空间中分布的均匀程度，能量分布得越均匀，熵就越大。

一滴墨水滴在清水中，部成了一杯淡蓝色溶液热水晾在空气中，热量会传到空气中，最后使得温度一致更多的一些生活中的例子:

熵力的一个例子是耳机线，我们将耳机线整理好放进口袋，下次再拿出来已经乱了。让耳机线乱掉的看不见的“力”就是熵力，耳机线喜欢变成更混乱。熵力另一个具体的例子是弹性力。一根弹簧的力，就是熵力。胡克定律其实也是一种熵力的表现。万有引力也是熵力的一种(热烈讨论的话题)。浑水澄清

file

于是从微观看，熵就表现了这个系统所处状态的不确定性程度。香农，描述一个信息系统的时候就借用了熵的概念，这里熵表示的是这个信息系统的平均信息量(平均不确定程度)。

最大熵模型

我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里，这样可以降低风险。在信息处理中，这个原理同样适用。在数学上，这个原理称为最大熵原理(the maximum entropy principle)。

让我们看一个拼音转汉字的简单的例子。假如输入的拼音是"wang-xiao-bo"，利用语言模型，根据有限的上下文(比如前两个词)，我们能给出两个最常见的名字“王小波”和“王晓波 ”。至于要唯一确定是哪个名字就难了，即使利用较长的上下文也做不到。当然，我们知道如果通篇文章是介绍文学的，作家王小波的可能性就较大；而在讨论两岸关系时，台湾学者王晓波的可能性会较大。在上面的例子中，我们只需要综合两类不同的信息，即主题信息和上下文信息。虽然有不少凑合的办法，比如：分成成千上万种的不同的主题单独处理，或者对每种信息的作用加权平均等等，但都不能准确而圆满地解决问题，这样好比以前我们谈到的行星运动模型中的小圆套大圆打补丁的方法。在很多应用中，我们需要综合几十甚至上百种不同的信息，这种小圆套大圆的方法显然行不通。

数学上最漂亮的办法是最大熵(maximum entropy)模型，它相当于行星运动的椭圆模型。“最大熵”这个名词听起来很深奥，但是它的原理很简单，我们每天都在用。说白了，就是要保留全部的不确定性，将风险降到最小。

回到我们刚才谈到的拼音转汉字的例子，我们已知两种信息，第一，根据语言模型，wangxiao-bo可以被转换成王晓波和王小波；第二，根据主题，王小波是作家，《黄金时代》的作者等等，而王晓波是台湾研究两岸关系的学者。因此，我们就可以建立一个最大熵模型，同时满足这两种信息。现在的问题是，这样一个模型是否存在。匈牙利著名数学家、信息论最高奖香农奖得主希萨（Csiszar）证明，对任何一组不自相矛盾的信息，这个最大熵模型不仅存在，而且是唯一的。而且它们都有同一个非常简单的形式 -- 指数函数。下面公式是根据上下文（前两个词）和主题预测下一个词的最大熵模型，其中 w3 是要预测的词（王晓波或者王小波）w1 和 w2 是它的前两个字（比如说它们分别是“出版”，和“”），也就是其上下文的一个大致估计，subject 表示主题。

file

我们看到，在上面的公式中，有几个参数lambda和Z，他们需要通过观测数据训练出来。最大熵模型在形式上是最漂亮的统计模型，而在实现上是最复杂的模型之一。

我们上次谈到用最大熵模型可以将各种信息综合在一起。我们留下一个问题没有回答，就是如何构造最大熵模型。我们已经所有的最大熵模型都是指数函数的形式，现在只需要确定指数函数的参数就可以了，这个过程称为模型的训练。

最原始的最大熵模型的训练方法是一种称为通用迭代算法 GIS(generalized iterative scaling) 的迭代算法。GIS 的原理并不复杂，大致可以概括为以下几个步骤：

假定第零次迭代的初始模型为等概率的均匀分布。
用第 N 次迭代的模型来估算每种信息特征在训练数据中的分布，如果超过了实际的，就把相应的模型参数变小；否则，将它们便大。
重复步骤 2 直到收敛。

GIS 最早是由 Darroch 和 Ratcliff 在七十年代提出的。但是，这两人没有能对这种算法的物理含义进行很好地解释。后来是由数学家希萨（Csiszar)解释清楚的，因此，人们在谈到这个算法时，总是同时引用 Darroch 和Ratcliff 以及希萨的两篇论文。GIS 算法每次迭代的时间都很长，需要迭代很多次才能收敛，而且不太稳定，即使在 64 位计算机上都会出现溢出。因此，在实际应用中很少有人真正使用 GIS。大家只是通过它来了解最大熵模型的算法。

八十年代，很有天才的孪生兄弟的达拉皮垂(Della Pietra)在 IBM 对 GIS 算法进行了两方面的改进，提出了改进迭代算法 IIS（improved iterative scaling）。这使得最大熵模型的训练时间缩短了一到两个数量级。这样最大熵模型才有可能变得实用。即使如此，在当时也只有 IBM 有条件是用最大熵模型。

由于最大熵模型在数学上十分完美，对科学家们有很大的诱惑力，因此不少研究者试图把自己的问题用一个类似最大熵的近似模型去套。谁知这一近似，最大熵模型就变得不完美了，结果可想而知，比打补丁的凑合的方法也好不了多少。于是，不少热心人又放弃了这种方法。第一个在实际信息处理应用中验证了最大熵模型的优势的，是宾夕法尼亚大学马库斯的另一个高徒原 IBM 现微软的研究员拉纳帕提(Adwait Ratnaparkhi)。拉纳帕提的聪明之处在于他没有对最大熵模型进行近似，而是找到了几个最适合用最大熵模型、而计算量相对不太大的自然语言处理问题，比如词性标注和句法分析。拉纳帕提成功地将上下文信息、词性（名词、动词和形容词等）、句子成分（主谓宾）通过最大熵模型结合起来，做出了当时世界上最好的词性标识系统和句法分析器。拉纳帕提的论文发表后让人们耳目一新。拉纳帕提的词性标注系统，至今仍然是使用单一方法最好的系统。科学家们从拉纳帕提的成就中，又看到了用最大熵模型解决复杂的文字信息处理的希望。

但是，最大熵模型的计算量仍然是个拦路虎。我在学校时花了很长时间考虑如何简化最大熵模型的计算量。终于有一天，我对我的导师说，我发现一种数学变换，可以将大部分最大熵模型的训练时间在 IIS 的基础上减少两个数量级。我在黑板上推导了一个多小时，他没有找出我的推导中的任何破绽，接着他又回去想了两天，然后告诉我我的算法是对的。从此，我们就建造了一些很大的最大熵模型。这些模型比修修补补的凑合的方法好不少。即使在我找到了快速训练算法以后，为了训练一个包含上下文信息，主题信息和语法信息的文法模型(language model)，我并行使用了20 台当时最快的 SUN 工作站，仍然计算了三个月。由此可见最大熵模型的复杂的一面。

最大熵模型，可以说是集简与繁于一体，形式简单，实现复杂。值得一提的是，在Google的很多产品中，比如机器翻译，都直接或间接地用到了最大熵模型。

讲到这里，读者也许会问，当年最早改进最大熵模型算法的达拉皮垂兄弟这些年难道没有做任何事吗？他们在九十年代初贾里尼克离开 IBM 后，也退出了学术界，而到在金融界大显身手。他们两人和很多 IBM 语音识别的同事一同到了一家当时还不大，但现在是世界上最成功对冲基金(hedge fund)公司----文艺复兴技术公司 (Renaissance Technologies)。我们知道，决定股票涨落的因素可能有几十甚至上百种，而最大熵方法恰恰能找到一个同时满足成千上万种不同条件的模型。达拉皮垂兄弟等科学家在那里，用于最大熵模型和其他一些先进的数学工具对股票预测，获得了巨大的成功。从该基金 1988 年创立至今，它的净回报率高达平均每年 34%。也就是说，如果 1988 年你在该基金投入一块钱，今天你能得到 200 块钱。这个业绩，远远超过股神巴菲特的旗舰公司伯克夏哈撒韦（Berkshire Hathaway)。同期，伯克夏哈撒韦的总回报是 16 倍。

值得一提的是，信息处理的很多数学手段，包括隐含马尔可夫模型、子波变换、贝叶斯网络等等，在华尔街多有直接的应用。由此可见，数学模型的作用。

HMM（隐马尔可夫模型）

隐马尔可夫模型（Hidden Markov Model，HMM）是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析，例如模式识别。

是在被建模的系统被认为是一个马尔可夫过程与未观测到的（隐藏的）的状态的统计马尔可夫模型。

下面用一个简单的例子来阐述：

假设我手里有三个不同的骰子。第一个骰子是我们平常见的骰子（称这个骰子为D6），6个面，每个面（1，2，3，4，5，6）出现的概率是1/6。第二个骰子是个四面体（称这个骰子为D4），每个面（1，2，3，4）出现的概率是1/4。第三个骰子有八个面（称这个骰子为D8），每个面（1，2，3，4，5，6，7，8）出现的概率是1/8。

file

假设我们开始掷骰子，我们先从三个骰子里挑一个，挑到每一个骰子的概率都是1/3。然后我们掷骰子，得到一个数字，1，2，3，4，5，6，7，8中的一个。不停的重复上述过程，我们会得到一串数字，每个数字都是1，2，3，4，5，6，7，8中的一个。例如我们可能得到这么一串数字（掷骰子10次）：1 6 3 5 2 7 3 5 2 4

这串数字叫做可见状态链。但是在隐马尔可夫模型中，我们不仅仅有这么一串可见状态链，还有一串隐含状态链。在这个例子里，这串隐含状态链就是你用的骰子的序列。比如，隐含状态链有可能是：D6 D8 D8 D6 D4 D8 D6 D6 D4 D8

一般来说，HMM中说到的马尔可夫链其实是指隐含状态链，因为隐含状态（骰子）之间存在转换概率（transition probability）。在我们这个例子里，D6的下一个状态是D4，D6，D8的概率都是1/3。D4，D8的下一个状态是D4，D6，D8的转换概率也都一样是1/3。这样设定是为了最开始容易说清楚，但是我们其实是可以随意设定转换概率的。比如，我们可以这样定义，D6后面不能接D4，D6后面是D6的概率是0.9，是D8的概率是0.1。这样就是一个新的HMM。

同样的，尽管可见状态之间没有转换概率，但是隐含状态和可见状态之间有一个概率叫做输出概率（emission probability）。就我们的例子来说，六面骰（D6）产生1的输出概率是1/6。产生2，3，4，5，6的概率也都是1/6。我们同样可以对输出概率进行其他定义。比如，我有一个被赌场动过手脚的六面骰子，掷出来是1的概率更大，是1/2，掷出来是2，3，4，5，6的概率是1/10。

file

其实对于HMM来说，如果提前知道所有隐含状态之间的转换概率和所有隐含状态到所有可见状态之间的输出概率，做模拟是相当容易的。但是应用HMM模型时候呢，往往是缺失了一部分信息的，有时候你知道骰子有几种，每种骰子是什么，但是不知道掷出来的骰子序列；有时候你只是看到了很多次掷骰子的结果，剩下的什么都不知道。如果应用算法去估计这些缺失的信息，就成了一个很重要的问题。这些算法我会在下面详细讲。

如果你只想看一个简单易懂的例子，就不需要往下看了。

说两句废话，答主认为呢，要了解一个算法，要做到以下两点：会其意，知其形。答主回答的，其实主要是第一点。但是这一点呢，恰恰是最重要，而且很多书上不会讲的。正如你在追一个姑娘，姑娘对你说“你什么都没做错！”你要是只看姑娘的表达形式呢，认为自己什么都没做错，显然就理解错了。你要理会姑娘的意思，“你赶紧给我道歉！”这样当你看到对应的表达形式呢，赶紧认错，跪地求饶就对了。数学也是一样，你要是不理解意思，光看公式，往往一头雾水。不过呢，数学的表达顶多也就是晦涩了点，姑娘的表达呢，有的时候就完全和本意相反。所以答主一直认为理解姑娘比理解数学难多了。

回到正题，和HMM模型相关的算法主要分为三类，分别解决三种问题：

1）知道骰子有几种（隐含状态数量），每种骰子是什么（转换概率），根据掷骰子掷出的结果（可见状态链），我想知道每次掷出来的都是哪种骰子（隐含状态链）。这个问题呢，在语音识别领域呢，叫做解码问题。这个问题其实有两种解法，会给出两个不同的答案。每个答案都对，只不过这些答案的意义不一样。第一种解法求最大似然状态路径，说通俗点呢，就是我求一串骰子序列，这串骰子序列产生观测结果的概率最大。第二种解法呢，就不是求一组骰子序列了，而是求每次掷出的骰子分别是某种骰子的概率。比如说我看到结果后，我可以求得第一次掷骰子是D4的概率是0.5，D6的概率是0.3，D8的概率是0.2.第一种解法我会在下面说到，但是第二种解法我就不写在这里了，如果大家有兴趣，我们另开一个问题继续写吧。

2）还是知道骰子有几种（隐含状态数量），每种骰子是什么（转换概率），根据掷骰子掷出的结果（可见状态链），我想知道掷出这个结果的概率。看似这个问题意义不大，因为你掷出来的结果很多时候都对应了一个比较大的概率。问这个问题的目的呢，其实是检测观察到的结果和已知的模型是否吻合。如果很多次结果都对应了比较小的概率，那么就说明我们已知的模型很有可能是错的，有人偷偷把我们的骰子給换了。

3）知道骰子有几种（隐含状态数量），不知道每种骰子是什么（转换概率），观测到很多次掷骰子的结果（可见状态链），我想反推出每种骰子是什么（转换概率）。这个问题很重要，因为这是最常见的情况。很多时候我们只有可见结果，不知道HMM模型里的参数，我们需要从可见结果估计出这些参数，这是建模的一个必要步骤。

问题阐述完了，下面就开始说解法。（0号问题在上面没有提，只是作为解决上述问题的一个辅助）

0.一个简单问题

其实这个问题实用价值不高。由于对下面较难的问题有帮助，所以先在这里提一下。
知道骰子有几种，每种骰子是什么，每次掷的都是什么骰子，根据掷骰子掷出的结果，求产生这个结果的概率。

file

解法无非就是概率相乘：

file

1.看见不可见的，破解骰子序列

这里我说的是第一种解法，解最大似然路径问题。举例来说，我知道我有三个骰子，六面骰，四面骰，八面骰。我也知道我掷了十次的结果（1 6 3 5 2 7 3 5 2 4），我不知道每次用了那种骰子，我想知道最有可能的骰子序列。

其实最简单而暴力的方法就是穷举所有可能的骰子序列，然后依照第零个问题的解法把每个序列对应的概率算出来。然后我们从里面把对应最大概率的序列挑出来就行了。如果马尔可夫链不长，当然可行。如果长的话，穷举的数量太大，就很难完成了。

另外一种很有名的算法叫做Viterbi algorithm. 要理解这个算法，我们先看几个简单的列子。

首先，如果我们只掷一次骰子：

file

看到结果为1.对应的最大概率骰子序列就是D4，因为D4产生1的概率是1/4，高于1/6和1/8.

把这个情况拓展，我们掷两次骰子：

file

结果为1，6.这时问题变得复杂起来，我们要计算三个值，分别是第二个骰子是D6，D4，D8的最大概率。显然，要取到最大概率，第一个骰子必须为D4。这时，第二个骰子取到D6的最大概率是

file

同样的，我们可以计算第二个骰子是D4或D8时的最大概率。我们发现，第二个骰子取到D6的概率最大。而使这个概率最大时，第一个骰子为D4。所以最大概率骰子序列就是D4 D6。

继续拓展，我们掷三次骰子：

file

同样，我们计算第三个骰子分别是D6，D4，D8的最大概率。我们再次发现，要取到最大概率，第二个骰子必须为D6。这时，第三个骰子取到D4的最大概率是

file

同上，我们可以计算第三个骰子是D6或D8时的最大概率。我们发现，第三个骰子取到D4的概率最大。而使这个概率最大时，第二个骰子为D6，第一个骰子为D4。所以最大概率骰子序列就是D4 D6 D4。

写到这里，大家应该看出点规律了。既然掷骰子一二三次可以算，掷多少次都可以以此类推。我们发现，我们要求最大概率骰子序列时要做这么几件事情。首先，不管序列多长，要从序列长度为1算起，算序列长度为1时取到每个骰子的最大概率。然后，逐渐增加长度，每增加一次长度，重新算一遍在这个长度下最后一个位置取到每个骰子的最大概率。因为上一个长度下的取到每个骰子的最大概率都算过了，重新计算的话其实不难。当我们算到最后一位时，就知道最后一位是哪个骰子的概率最大了。然后，我们要把对应这个最大概率的序列从后往前推出来。

2.谁动了我的骰子？

比如说你怀疑自己的六面骰被赌场动过手脚了，有可能被换成另一种六面骰，这种六面骰掷出来是1的概率更大，是1/2，掷出来是2，3，4，5，6的概率是1/10。你怎么办么？答案很简单，算一算正常的三个骰子掷出一段序列的概率，再算一算不正常的六面骰和另外两个正常骰子掷出这段序列的概率。如果前者比后者小，你就要小心了。比如说掷骰子的结果是：

file

要算用正常的三个骰子掷出这个结果的概率，其实就是将所有可能情况的概率进行加和计算。同样，简单而暴力的方法就是把穷举所有的骰子序列，还是计算每个骰子序列对应的概率，但是这回，我们不挑最大值了，而是把所有算出来的概率相加，得到的总概率就是我们要求的结果。这个方法依然不能应用于太长的骰子序列（马尔可夫链）。

我们会应用一个和前一个问题类似的解法，只不过前一个问题关心的是概率最大值，这个问题关心的是概率之和。解决这个问题的算法叫做前向算法（forward algorithm）。

首先，如果我们只掷一次骰子：

file

看到结果为1.产生这个结果的总概率可以按照如下计算，总概率为0.18：

file

把这个情况拓展，我们掷两次骰子：

file

看到结果为1，6.产生这个结果的总概率可以按照如下计算，总概率为0.05：

file

继续拓展，我们掷三次骰子：

file

看到结果为1，6，3.产生这个结果的总概率可以按照如下计算，总概率为0.03：

file

同样的，我们一步一步的算，有多长算多长，再长的马尔可夫链总能算出来的。用同样的方法，也可以算出不正常的六面骰和另外两个正常骰子掷出这段序列的概率，然后我们比较一下这两个概率大小，就能知道你的骰子是不是被人换了。

Viterbi algorithm

HMM（隐马尔可夫模型）是用来描述隐含未知参数的统计模型，举一个经典的例子：一个东京的朋友每天根据天气{下雨，天晴}决定当天的活动{公园散步,购物,清理房间}中的一种，我每天只能在twitter上看到她发的推“啊，我前天公园散步、昨天购物、今天清理房间了！”，那么我可以根据她发的推特推断东京这三天的天气。在这个例子里，显状态是活动，隐状态是天气。

任何一个HMM都可以通过下列五元组来描述：

:param obs:观测序列
:param states:隐状态
:param start_p:初始概率（隐状态）
:param trans_p:转移概率（隐状态）
:param emit_p: 发射概率 （隐状态表现为显状态的概率）

file

states = ('Rainy', 'Sunny')

observations = ('walk', 'shop', 'clean')

start_probability = {'Rainy': 0.6, 'Sunny': 0.4}

transition_probability = {
    'Rainy' : {'Rainy': 0.7, 'Sunny': 0.3},
    'Sunny' : {'Rainy': 0.4, 'Sunny': 0.6},
    }

emission_probability = {
    'Rainy' : {'walk': 0.1, 'shop': 0.4, 'clean': 0.5},
    'Sunny' : {'walk': 0.6, 'shop': 0.3, 'clean': 0.1},
}

求解最可能的天气

求解最可能的隐状态序列是HMM的三个典型问题之一，通常用维特比算法解决。维特比算法就是求解HMM上的最短路径（-log(prob)，也即是最大概率）的算法。

稍微用中文讲讲思路，很明显，第一天天晴还是下雨可以算出来：

定义V[时间][今天天气] = 概率，注意今天天气指的是，前几天的天气都确定下来了（概率最大）今天天气是X的概率，这里的概率就是一个累乘的概率了。

因为第一天我的朋友去散步了，所以第一天下雨的概率V[第一天][下雨] = 初始概率[下雨] * 发射概率[下雨][散步] = 0.6 * 0.1 = 0.06，同理可得V[第一天][天晴] = 0.24 。从直觉上来看，因为第一天朋友出门了，她一般喜欢在天晴的时候散步，所以第一天天晴的概率比较大，数字与直觉统一了。

从第二天开始，对于每种天气Y，都有前一天天气是X的概率 X转移到Y的概率 Y天气下朋友进行这天这种活动的概率。因为前一天天气X有两种可能，所以Y的概率有两个，选取其中较大一个作为V[第二天][天气Y]的概率，同时将今天的天气加入到结果序列中

比较V[最后一天][下雨]和[最后一天][天晴]的概率，找出较大的哪一个对应的序列，就是最终结果。

Viterbi被广泛应用到分词，词性标注等应用场景。

原文：https://www.cnblogs.com/skyme/p/4651331.html

阅读全文>>

马尔可夫链(Markov Chain)

归档：2021年5月分类：数海泛舟

马尔可夫链是一种非常重要的随机过程模型，在排队论、预测等方面有非常多的应用，当年我考数学系的时候就是冲着学校有一位马尔可夫领域的顶级数学家，不过后来自己越走越偏，也没有来得及进修这个算法。

随机过程

讲马尔可夫链不得不提到随机过程。顾名思义，它其实就是个过程，比如今天下雨，那么明天下不下雨呢？后天下不下雨呢？从今天下雨到明天不下雨再到后天下雨，这就是个过程。那么怎么预测N天后到底下不下雨呢？这其实是可以利用公式进行计算的，随机过程就是这样一个工具，把整个过程进行量化处理，用公式就可以推导出来N天后的天气状况，下雨的概率是多少，不下雨的概率是多少。

说白了，随机过程就是一些统计模型，利用这些统计模型可以对自然界的一些事物进行预测和处理，比如天气预报，比如股票，比如市场分析，比如人工智能。它的应用还真是多了去了。

马尔可夫链（Markov Chain）

马尔可夫链（Markov Chain）是随机过程中的一种过程，到底是哪一种过程呢？好像一两句话也说不清楚，还是先看个例子吧。

比如一个人，每天中午12点的标配，仨状态：吃，玩，睡。这就是传说中的状态分布。

你想知道他n天后中午12点的状态么？是在吃，还是在玩，还是在睡？这些状态发生的概率分别都是多少？

先看个假设，他每个状态的转移都是有概率的，比如今天玩，明天睡的概率是几，今天玩，明天也玩的概率是几几，看图更清楚一点。

file

这个矩阵就是转移概率矩阵P，并且它是保持不变的，就是说第一天到第二天的转移概率矩阵跟第二天到第三天的转移概率矩阵是一样的。（这个叫时齐，不细说了，有兴趣的同学自行百度）。

有了这个矩阵，再加上已知的第一天的状态分布，就可以计算出第N天的状态分布了。

file

S1 是4月1号中午12点的的状态分布矩阵 [0.6, 0.2, 0.2]，里面的数字分别代表吃的概率，玩的概率，睡的概率。

那么

4月2号的状态分布矩阵 S2 = S1 * P (俩矩阵相乘)。

4月3号的状态分布矩阵 S3 = S2 * P (跟S1无关，只跟S2有关)。

4月4号的状态分布矩阵 S4 = S3 * P (跟S1，S2无关，只跟S3有关)。

...

4月n号的状态分布矩阵 Sn = Sn-1 * P (只跟它前面一个状态Sn-1有关)。

总结

马尔可夫链就是这样一个任性的过程，它将来的状态分布只取决于现在，跟过去无关！就把下面这幅图想象成是一个马尔可夫链吧。实际上就是一个随机变量随时间按照Markov性进行变化的过程。

file

阅读全文>>

贝叶斯算法-垃圾邮件过滤器

归档：2021年5月分类：数海泛舟

垃圾邮件是一种令人头痛的顽症，困扰着所有的互联网用户。

正确识别垃圾邮件的技术难度非常大。传统的垃圾邮件过滤方法，主要有"关键词法"和"校验码法"等。前者的过滤依据是特定的词语；后者则是计算邮件文本的校验码，再与已知的垃圾邮件进行对比。它们的识别效果都不理想，而且很容易规避。

2002年，Paul Graham提出使用"贝叶斯推断"过滤垃圾邮件。他说，这样做的效果，好得不可思议。1000封垃圾邮件可以过滤掉995封，且没有一个误判。

另外，这种过滤器还具有自我学习的功能，会根据新收到的邮件，不断调整。收到的垃圾邮件越多，它的准确率就越高。

贝叶斯过滤器是一种统计学过滤器，建立在已有的统计结果之上。所以，我们必须预先提供两组已经识别好的邮件，一组是正常邮件，另一组是垃圾邮件。

我们用这两组邮件，对过滤器进行"训练"。这两组邮件的规模越大，训练效果就越好。Paul Graham使用的邮件规模，是正常邮件和垃圾邮件各4000封。

"训练"过程很简单。首先，解析所有邮件，提取每一个词。然后，计算每个词语在正常邮件和垃圾邮件中的出现频率。比如，我们假定"sex"这个词，在4000封垃圾邮件中，有200封包含这个词，那么它的出现频率就是5%；而在4000封正常邮件中，只有2封包含这个词，那么出现频率就是0.05%。（【注释】如果某个词只出现在垃圾邮件中，Paul Graham就假定，它在正常邮件的出现频率是1%，反之亦然。这样做是为了避免概率为0。随着邮件数量的增加，计算结果会自动调整。）

有了这个初步的统计结果，过滤器就可以投入使用了。

现在，我们收到了一封新邮件。在未经统计分析之前，我们假定它是垃圾邮件的概率为50%。（【注释】有研究表明，用户收到的电子邮件中，80%是垃圾邮件。但是，这里仍然假定垃圾邮件的"先验概率"为50%。）

我们用S表示垃圾邮件（spam），H表示正常邮件（healthy）。因此，P(S)和P(H)的先验概率，都是50%。

file

然后，对这封邮件进行解析，发现其中包含了sex这个词，请问这封邮件属于垃圾邮件的概率有多高？

我们用W表示"sex"这个词，那么问题就变成了如何计算P(S|W)的值，即在某个词语（W）已经存在的条件下，垃圾邮件（S）的概率有多大。

根据条件概率公式，马上可以写出

file

公式中，P(W|S)和P(W|H)的含义是，这个词语在垃圾邮件和正常邮件中，分别出现的概率。这两个值可以从历史资料库中得到，对sex这个词来说，上文假定它们分别等于5%和0.05%。另外，P(S)和P(H)的值，前面说过都等于50%。所以，马上可以计算P(S|W)的值：

file

因此，这封新邮件是垃圾邮件的概率等于99%。这说明，sex这个词的推断能力很强，将50%的"先验概率"一下子提高到了99%的"后验概率"。

做完上面一步，请问我们能否得出结论，这封新邮件就是垃圾邮件？

回答是不能。因为一封邮件包含很多词语，一些词语（比如sex）说这是垃圾邮件，另一些说这不是。你怎么知道以哪个词为准？

Paul Graham的做法是，选出这封信中P(S|W)最高的15个词，计算它们的联合概率。（【注释】如果有的词是第一次出现，无法计算P(S|W)，Paul Graham就假定这个值等于0.4。因为垃圾邮件用的往往都是某些固定的词语，所以如果你从来没见过某个词，它多半是一个正常的词。）

所谓联合概率，就是指在多个事件发生的情况下，另一个事件发生概率有多大。比如，已知W1和W2是两个不同的词语，它们都出现在某封电子邮件之中，那么这封邮件是垃圾邮件的概率，就是联合概率。

在已知W1和W2的情况下，无非就是两种结果：垃圾邮件（事件E1）或正常邮件（事件E2）。

其中，W1、W2和垃圾邮件的概率分别如下：

如果假定所有事件都是独立事件（【注释】严格地说，这个假定不成立，但是这里可以忽略），那么就可以计算P(E1)和P(E2)：

file
file

又由于在W1和W2已经发生的情况下，垃圾邮件的概率等于下面的式子：

file

即

file

将P(S)等于0.5代入，得到

file

将P(S|W1)记为P1，P(S|W2)记为P2，公式就变成

file

这就是联合概率的计算公式。

将上面的公式扩展到15个词的情况，就得到了最终的概率计算公式：

file

一封邮件是不是垃圾邮件，就用这个式子进行计算。这时我们还需要一个用于比较的门槛值。Paul Graham的门槛值是0.9，概率大于0.9，表示15个词联合认定，这封邮件有90%以上的可能属于垃圾邮件；概率小于0.9，就表示是正常邮件。

有了这个公式以后，一封正常的信件即使出现sex这个词，也不会被认定为垃圾邮件了。

阅读全文>>

贝叶斯算法-医患诊断模型

归档：2021年5月分类：数海泛舟

1、背景材料及引言

7岁女孩晓宇（化名）患急性支气管炎,在武汉市儿童医院住院4天，医生为确诊病情，为她抽血化验了32个指标，仅化验费就花费1130元。晓宇的家长质疑：医院如此看病，是过度检查。晓宇的接诊医生李志超说：“晓宇入院时,根据其家长自述病情，我认为孩子的情况有些严重,于是确定了上述化验指标”。该院四内科副主任李医生说：在当时情况下,李志超对患者的病情判断、以及开出的化验指标,都是有道理的。但如果是我接诊，会以自己的经验有针对性地进行化验检查,可能不会一下开出这么多化验指标。该科主任温玟莉主任医师称：一次抽血化验32个指标，是因为李志超当时怀疑孩子得了败血症，这样处理没有问题。但最后的检查结果并不是败血症，这只能说明李志超较年轻，缺乏丰富的临床经验，只有通过全面检查才能确诊。

在医患关系紧张，看病难、看病贵的现实情况下，我们应如何看待这个颇有争议的案例，医生看病是应该有针对性地开方,还是列出“算法式”的化验指标进行排查，本研究以贝叶斯公式为依据，从中国现行的医疗体制出发,对此类问题进行了有益的探索，以期建立一种定量化的诊断模型。

2、模型建立

设“患者有某种病症”为事件A，引起事件A的病因为样本空间Ω。B1，B2，…Bn为Ω的一个分划，即Bi∩Bj=Φ，i≠j,Ｕni=1Bi=Ω，并假定P(Bi)>0。由贝叶斯公式，由某病因引起事件A的概率为：

P（Bi|A)=P(Bi)P(A|Bi)/n/j=1P(Bj)P(A⌒Bj)(1)

公式(1)为医生有针对性地确诊提供了参考。

在疹疗过程中，医生要根据临床经验对各种病因Bi进行权衡。如果误诊，则有可能承担相应的医疗事故风险，相应的误诊概率记为P′(Bi)，并设因可能承担风险而承担的赔偿费用为C′i，患者承担医生针对病因Bi开出的疹疗方案的费用为Ci，于是在一次诊治过程中患者承担的平均费用为：

E(A)=ni=1P(Bi)Ci(2)

医生可能承担的平均赔偿金额为：

E′(A)=ni=1P′(Bi)C′i(3)

我们称该模型为诊断模型，并以δ1≤E(A)-E′(A)≤δ2为标准来衡量诊断方案的合理性，其中δ1≥0,δ2为某一不是特别大的正数。即患者所承担的平均医疗费用应比医生可能承担的平均赔偿金要多，但两者不应差别太大。

3、模型检验

我们以发热和上腹疼痛两个病症的相关数据对该模型进行检验。设原假设为H0：诊断是合理的。备择假设为H1，诊断合理与否需要进一步考查。

对表1和表2中相关数据的说明：中国2002年9月1日实施的《医疗事故处理条例》(以下简称《条例》)第五十条对赔偿项目和标准的规定与当地上一年度职工平均工资水平紧密挂钩，实行一次性结算。表1和表2中的工资水平参考了2007年2月湖北省第十届人民代表大会上的湖北省政府工作报告中的数据：2006年城镇居民人均可支配收入为9803元。对发热症状中的“非典”及“某种类似非典的突发疾病”所可能带来的医疗事故我们以一级医疗事故中的死亡来处理，赔偿金额按<国家赔偿法>第二十七条的规定，检查费用以一次全身检查所需费用10000元进行计算；对“心肺功能缺陷”所可能带来的医疗事故我们按二级医疗事故处理，赔偿金额取202110，检查费用按心电图20元次，心脏彩超180元次,心肌酶谱60元次，肺检查80元次进行计算，药费以相应检查费用的0.8计算。对上腹疼痛症状中的“胃癌”及“心、膈等器官有病变”可能带来的医疗事故我们按二级医疗事故来处理,赔偿金额取202110，对B3的检查费用以B超40元次，催C120元次，胃镜(无痛)240元次进行计算，药费以相应检查费用的0.8计算，对B4的检查费用以胃镜(无痛)240元次和心脏彩超180元次进行计算，药费以相应检查费用的0.8计算。对两种症状中“其它”原因对患者可能造成的损害我们以《条例》第三十三条(三)的规定进行处理：在现有医学科学技术条件下，发生无法预料或者不能防范的不良后果的，不属于医疗事故。对两种症状中“其它”原因，患者的一次医疗费用我们取城镇居民人均可支配收入的5%，即490元进行计算。所有医疗费用均指一次诊治的检查费和药费之和,不包括后续治疗的费用。检查费用以武汉市某三级甲等医院的相关标准为参考。表1发热症状诊断模型的相关数据注:B1=人体生理功能的正常表现：B4=某种类似非典的突发疾病；B5=心肺功能缺陷。表2上腹疼痛症状诊断模型的相关数据注，B2=胃溃疡、十二指肠溃疡；B4=心、膈等器官有病变。

设“发热症状”为事件A1，“上腹疼痛症状”为事件A2，由表1和表2的数据计算得(四舍五入精确到元)：

E（A1）=121，E′（A1）=187165；E（A2）=265，E′（A2）=22232

我们会发现原假设H0：诊断是合理的，是不成立的。这些数据告诉我们医生这个职业的确是个高风险的职业，在中国建立医疗责任保险制度有着必要性与迫切性。

4、模型评价

该模型在合理假设的基础上,对“对症下药”进行量化,对诊疗方案的合理性给出了一个量化的标准，有一定的合理性与临床参考价值。特别是在用数据对模型检验后，证实了医生的确是个高风险的职业，也显示了在中国建立医疗责任保险制度的必要性和紧迫性。但在模型应用过程中还需要注意以下几个方面：①病因的复杂性。病因的复杂性会导致样本空间的分划的个数n比较大，因此需要结合医学规律对样本空间分划进行合理的选择。②患者体质的差别。不同的患者对同类的医疗事故，由于体质的差别可能带来不同程度的损害。③医生临床诊断水平的差异。不同的医生，由于经验等方面的因素，误诊概率可能有较大的差别。④医院的潜规则。有的医院把医生的收入与其给医院的创收挂钩，这样同一病症在不同的医院治疗，诊疗费用会有较大的差别。⑤实际赔偿金的差别。不同地区上一年度人均收入差别较大,加之实际赔偿金还与实际谈判能力有关系，这样就可能导致同类医疗事故在不同地区及不同的患者(或家属)身上，实际赔偿金差别也较大。⑥现行医疗体制对模型的影响。下面对此进行较详细的分析。

中国现行的医疗事故赔偿责任者只有一个，就是医疗机构，但医疗机构作为理性人，会尽量减少其自身的医疗成本以实现利益的最大化。医疗机构会将其自身受到的损失通过以下三种主要方式进行转移：一是利用价格机制，提高医疗费用，即将损失分散于所有的就医者身上；二是由具体责任人承担风险，即将损失的一部分转移给与事故直接相关的医务人员；三是通过责任保险机制，将损失转移给保险公司。但长期以来，在中国实际上只有第一种和第二种途径在发挥着作用,责任保险机制可以说作用甚微。

这样,就很容易导致医疗费用上涨，引发医患关系紧张。医学的专业化使得医疗机构和患者之间存在巨大的信息差，医疗机构有动机也有能力通过使患者进行重复或者不必要的检查项目等方法多收费用,弥补自身损失.因此模型作用的发挥,还需要以下几方面的配合：

①重视医德建设,提高医护人员自身修养。裘法祖院士在文献里有很深刻的认识。

②加强医患之间的沟通，进行换位思考，让医生理解患者的苦衷，让患者理解诊疗的风险。

③加强误诊规律的研究。医疗技术的进步从来都是和风险相并存的，从某种程度上说误诊是不可避免的，但作为医护人员要提高生命权保护意识，不断提高自身的临床思维能力诊断能力力争把误诊率降到最低。

④加强医护人员临床思维能力和临床经验的提高。医学很大程度上是经验学科,医学理论最终还要内化为医护人员的实际诊断能力才能发挥作用。公式(1)为医护人员提高诊断水平提供了一个很好的参考。

⑤探索适合中国国情的、于患于医均有益的医疗责任保险制度。尤其是在生命意识越来越受到重视的今天，只有切实的降低行医的风险，才能从根本上解决医患关系紧张的现状，实现医患关系的和谐。

阅读全文>>

贝叶斯算法概述

归档：2021年5月分类：数海泛舟

简介

假设B是由相互独立的事件组成的概率空间{B1,b2，...bn}。则P(A)可以用全概率公式展开：P(A)=P （A|B1)P(B1)+P（A|B2)P(B2)+..P（A|Bn)P(Bn)。贝叶斯公式表示成：P(Bi|A)=P(A|Bi)P(Bi)/(P(A|B1)P(B1)+P(A|B2)P(B2)+..P(A|Bn)P(Bn))；常常把P(Bi|A)称作后验概率，而P（A|Bn)P(Bn)为先验概率。而P(Bi)又叫做基础概率。

贝叶斯公式：
file

贝叶斯公式看起来很简单，但是在自然科学领域应用范围及其广泛。同时理论本身蕴含了深刻的思想。

贝叶斯概率的历史

贝叶斯理论和贝叶斯概率以托马斯·贝叶斯（1702－1761）命名，他证明了现在称为贝叶斯定理的一个特例。术语贝叶斯却是在1950年左右开始使用，很难说贝叶斯本人是否会支持这个以他命名的概率非常广义的解释。拉普拉斯证明了贝叶斯定理的一个更普遍的版本，并将之用于解决天体力学、医学统计中的问题，在有些情况下，甚至用于法理学。但是拉普拉斯并不认为该定理对于概率论很重要。他还是坚持使用了概率的经典解释。

弗兰克·普伦普顿·拉姆齐在《数学基础》（1931年）中首次建议将主观置信度作为概率的一种解释。Ramsey视这种解释为概率的频率解释的一个补充，而频率解释在当时更为广泛接受。统计学家Bruno de Finetti于1937年采纳了Ramsey的观点，将之作为概率的频率解释的一种可能的代替。L. J. Savage在《统计学基础》（1954年）中拓展了这个思想。

有人试图将“置信度”的直观概念进行形式化的定义和应用。最普通的应用是基于打赌:置信度反映在行为主体愿意在命题上下注的意愿上。

当信任有程度的时候，概率计算的定理测量信任的理性程度，就像一阶逻辑的定理测量信任的理性程度一样。很多人将置信度视为经典的真值（真或假）的一种扩展。

Harold Jeffreys, Richard T. Cox, Edwin Jaynes和I. J. Good研探了贝叶斯理论。其他著名贝叶斯理论的支持者包括John Maynard Keynes和B.O. Koopman。

贝叶斯法则的原理

通常，事件A在事件B(发生)的条件下的概率，与事件B在事件A的条件下的概率是不一样的；然而，这两者是有确定的关系,贝叶斯法则就是这种关系的陈述。

作为一个规范的原理，贝叶斯法则对于所有概率的解释是有效的；然而，频率主义者和贝叶斯主义者对于在应用中概率如何被赋值有着不同的看法：频率主义者根据随机事件发生的频率，或者总体样本里面的个数来赋值概率；贝叶斯主义者要根据未知的命题来赋值概率。一个结果就是，贝叶斯主义者有更多的机会使用贝叶斯法则。

贝叶斯法则是关于随机事件A和B的条件概率和边缘概率的。
其中L(A|B)是在B发生的情况下A发生的可能性。

在贝叶斯法则中，每个名词都有约定俗成的名称：

Pr(A)是A的先验概率或边缘概率。之所以称为"先验"是因为它不考虑任何B方面的因素。

Pr(A|B)是已知B发生后A的条件概率，也由于得自B的取值而被称作A的后验概率。

Pr(B|A)是已知A发生后B的条件概率，也由于得自A的取值而被称作B的后验概率。

Pr(B)是B的先验概率或边缘概率，也作标准化常量（normalized constant）。

按这些术语，Bayes法则可表述为：

后验概率 = (似然度 * 先验概率)/标准化常量也就是说，后验概率与先验概率和似然度的乘积成正比。

另外，比例Pr(B|A)/Pr(B)也有时被称作标准似然度（standardised likelihood），Bayes法则可表述为：

后验概率 = 标准似然度 * 先验概率

要理解贝叶斯推断，必须先理解贝叶斯定理。后者实际上就是计算"条件概率"的公式。

所谓"条件概率"（Conditional probability），就是指在事件B发生的情况下，事件A发生的概率，用P(A|B)来表示。

根据文氏图，可以很清楚地看到在事件B发生的情况下，事件A发生的概率就是P(A∩B)除以P(B)。
file

因此，

file

同理可得，

file

所以，

file

即，

file

这就是条件概率的计算公式。

全概率公式

由于后面要用到，所以除了条件概率以外，这里还要推导全概率公式。

假定样本空间S，是两个事件A与A'的和。

上图中，红色部分是事件A，绿色部分是事件A'，它们共同构成了样本空间S。

在这种情况下，事件B可以划分成两个部分。

即

file

在上一节的推导当中，我们已知

file

所以，

file

这就是全概率公式。它的含义是，如果A和A'构成样本空间的一个划分，那么事件B的概率，就等于A和A'的概率分别乘以B对这两个事件的条件概率之和。

将这个公式代入上一节的条件概率公式，就得到了条件概率的另一种写法：

file

贝叶斯推断的含义

对条件概率公式进行变形，可以得到如下形式：

file

我们把P(A)称为"先验概率"（Prior probability），即在B事件发生之前，我们对A事件概率的一个判断。P(A|B)称为"后验概率"（Posterior probability），即在B事件发生之后，我们对A事件概率的重新评估。P(B|A)/P(B)称为"可能性函数"（Likelyhood），这是一个调整因子，使得预估概率更接近真实概率。

所以，条件概率可以理解成下面的式子：

后验概率　＝　先验概率 ｘ 调整因子

这就是贝叶斯推断的含义。我们先预估一个"先验概率"，然后加入实验结果，看这个实验到底是增强还是削弱了"先验概率"，由此得到更接近事实的"后验概率"。

在这里，如果"可能性函数"P(B|A)/P(B)>1，意味着"先验概率"被增强，事件A的发生的可能性变大；如果"可能性函数"=1，意味着B事件无助于判断事件A的可能性；如果"可能性函数"<1，意味着"先验概率"被削弱，事件A的可能性变小。

别墅和狗

一座别墅在过去的 20 年里一共发生过 2 次被盗，别墅的主人有一条狗，狗平均每周晚上叫 3 次，在盗贼入侵时狗叫的概率被估计为 0.9，问题是：在狗叫的时候发生入侵的概率是多少？

我们假设 A 事件为狗在晚上叫，B 为盗贼入侵，则 P(A) = 3 / 7，P(B)=2/(20·365)=2/7300，P(A | B) = 0.9，按照公式很容易得出结果：P(B|A)=0.9*(2/7300)/(3/7)=0.00058

容器里的球

另一个例子，现分别有 A，B 两个容器，在容器 A 里分别有 7 个红球和 3 个白球，在容器 B 里有 1 个红球和 9 个白球，现已知从这两个容器里任意抽出了一个球，且是红球，问这个红球是来自容器 A 的概率是多少?

假设已经抽出红球为事件 B，从容器 A 里抽出球为事件 A，则有：P(B) = 8 / 20，P(A) = 1 / 2，P(B | A) = 7 / 10，按照公式，则有：P(A|B)=(7 / 10)*(1 / 2)/(8/20)=0.875

贝叶斯公式为利用搜集到的信息对原有判断进行修正提供了有效手段。在采样之前，经济主体对各种假设有一个判断（先验概率），关于先验概率的分布，通常可根据经济主体的经验判断确定(当无任何信息时，一般假设各先验概率相同)，较复杂精确的可利用包括最大熵技术或边际分布密度以及相互信息原理等方法来确定先验概率分布。

贝叶斯定理的推广

对于变量有二个以上的情况，贝式定理亦成立。例如：

P(A|B,C)=P(B|A)P(A)P(C|A,B)/(P(B)*P(C|B))

这个式子可以由套用多次二个变量的贝式定理及条件机率的定义导出。

贝叶斯理论及应用

file

【例子】水果糖问题

为了加深对贝叶斯推断的理解，我们看两个例子。

第一个例子。两个一模一样的碗，一号碗有30颗水果糖和10颗巧克力糖，二号碗有水果糖和巧克力糖各20颗。现在随机选择一个碗，从中摸出一颗糖，发现是水果糖。请问这颗水果糖来自一号碗的概率有多大？

我们假定，H1表示一号碗，H2表示二号碗。由于这两个碗是一样的，所以P(H1)=P(H2)，也就是说，在取出水果糖之前，这两个碗被选中的概率相同。因此，P(H1)=0.5，我们把这个概率就叫做"先验概率"，即没有做实验之前，来自一号碗的概率是0.5。

再假定，E表示水果糖，所以问题就变成了在已知E的情况下，来自一号碗的概率有多大，即求P(H1|E)。我们把这个概率叫做"后验概率"，即在E事件发生之后，对P(H1)的修正。

根据条件概率公式，得到

file

已知，P(H1)等于0.5，P(E|H1)为一号碗中取出水果糖的概率，等于0.75，那么求出P(E)就可以得到答案。根据全概率公式，

file

所以，

file

将数字代入原方程，得到

file

这表明，来自一号碗的概率是0.6。也就是说，取出水果糖之后，H1事件的可能性得到了增强。

原文链接：https://www.cnblogs.com/skyme/p/3564391.html

阅读全文>>

数学基础、集合论和选择公理

归档：2020年7月分类：数海泛舟

这几天又重新学习复习了一下数学基础：逻辑主义、形式主义和直觉主义。我自己当然更倾向于基于公理化集合论的逻辑主义，这也是目前大部分数学家的选择。

一、数学基础

数学上，数学基础一词有时候用于数学的特定领域，例如数理逻辑，公理化集合论，证明论，模型论，和递归论（可计算性理论）。但是寻求数学的基础也是数学哲学的中心问题：在什么终极基础上命题可以称为真?
目前占统治地位的数学范式是基于公理化集合论和形式逻辑的。实际上，几乎所有现在的数学定理都可以表述为集合论下的定理。在这个观点下，所谓数学命题的真实性，不过就是该命题可以从集合论公理使用形式逻辑推导出来。

二、公理化集合论

基础集合论可以用非正式的、直觉的方式学习，在小学中就可以用文氏图说明。基础集合论直观地假设集合就是一群符合任意特定条件的对象的组合，但此假设会造成悖论。最简单及著名的是罗素悖论及布拉利-福尔蒂悖论。公理集合论的形成就是为了避免这些集合论的悖论。
许多数学家研究的公理集合论系统假设所有的集合形成累计层次。这类的系统可分为二类：
1、只由集合构成：这类系统包括最常用的公理集合论：含选择公理的策梅洛-弗兰克尔集合论（ZFC），由亚伯拉罕·弗兰克尔和陶拉尔夫·斯科伦扩展了策梅罗集合论所得。其他和ZFC有关的集合论有：
1）、策梅洛集合论是由德国数学家恩斯特·策梅洛创立，将分类公理代替替代公理。
2）、广义集合论，策梅洛集合论的一小部分，已足以处理皮亚诺公理及有限集合。
3）、克里普克-普拉特克集理论，省略了无穷公理、幂集公理和选择公理，削弱了分类公理和替代公理的公理架构。
2、由集合和真类构成：这类系统包括冯·诺伊曼-博内斯-哥德尔集合论，是设计生成同 ZFC同样结果的集合论公理系统，但只有有限数目的公理而不使用公理模式。单论只涉及集合的内容，此理论的强度和ZFC相当。另外比ZFC强的Morse-Kelley集合论及Tarski–Grothendieck集合论也属于这一类。

三、选择公理

选择公理：对于所有的集族，均存在选择函数。
罗素解释：假设有许多（甚至是无限）双鞋子，则我们可以选取每双鞋左边的鞋子构成一个具体的选择。然而，假设有无限双袜子（假设每双袜子都没有可区分的特征），在对于所有的集族，均存在选择函数。
哥德尔证明了选择公理与ZF的相对协调性。保罗·寇恩用力迫法证明了选择公理独立于ZF。也就是说：哥德尔和寇恩证明了，无论接受选择公理与否，都不会导致矛盾，只是身处不同的『数学世界』而已。
不过，除了一些研究集合论的数学家和逻辑学家以外，大部分数学家都选择接受选择公理，因为在含有选择公理的数学世界里，事情会简单一些。

阅读全文>>

<<First 1 2 3 下一页 Last>>

Page1of3

公告栏

欢迎大家来到我的博客，我是dodoro，希望我的博客能给你带来帮助。

1、自然语言处理简介

2、NLP 任务流程

3、文本标准化

3.1 大小写标准化

3.2 分词

3.3 停止词移除

3.4 词性标注

3.5 词干提取

4.文本向量化/特征化

4.1基于单词计数的特征

4.2. 基于统计学的特征

4.3 词向量

4.3.1Word2Vec

4.3.2 GloVe

4.3.3 BERT

5、总结

一、SI 模型（Susceptible-Infective Model）

二、SIS模型（Susceptible-Infectious-Susceptible Model）

三、SIR 模型（Susceptible-Infectious-Recovered Model）

四、总结

什么是熵(Entropy)

最大熵模型

HMM（隐马尔可夫模型）

Viterbi algorithm

求解最可能的天气

随机过程

马尔可夫链 （Markov Chain）

总结

1、背景材料及引言

2、模型建立

3、模型检验

4、模型评价

简介

贝叶斯概率的历史

贝叶斯法则的原理

全概率公式

贝叶斯推断的含义

别墅和狗

容器里的球

贝叶斯理论及应用

【例子】水果糖问题

一、数学基础

二、公理化集合论

三、选择公理

公告栏

文章分类

热门标签

热门文章

最新文章

所有存档

友情链接

马尔可夫链（Markov Chain）