Math | DoDoRo的梦想空间-码农,数学,算法,哲学,园艺

[转]NLP模型与深度学习

1、自然语言处理简介根据工业界的估计，仅有21% 的数据是以结构化的形式展现的[1]。在日常生活中，大量的数据是以文本、语音的方式产生（例如短信、微博、录音、聊天记录等等），这种方式是高度无结构化的。如何去对这些文本数据进行系统化分析、理解、以及做信息提取，就是自然语言处理（Natural Language Processing，NLP）需要做的事情。在NLP中，常见的任务包括：自动摘要、机器翻译、命名体识别（NER）、关系提取、情感分析、语音识别、主题分割等。在NLP与深度学习系列文章中，不会逐一解释各个NLP任务，而是主要介绍深度学习模型在NLP中的应用。整体分为以下几点：首先介绍NLP基本流程以及在数据预处理方面的技术；而后会介绍最初期使用的神经网络：SimpleRNN、LSTM；继而引入使得文本处理性能得到很大提升的Attention机制以及Transformer模型；最后介绍近几年非常热门的预训练模型BERT，以及如何使用BERT预训练模型的例子下面首先介绍的NLP任务的一个基本工作流程。 2、NLP 任务流程典型的NLP任务分为以下几步：数据收集数据标注文本标准化（Normalization）文本向量化/特征化（Vectorization/Featuring）建模前期主要是数据收集，并根据任务类型对数据做标注（例如情感分析中，对好、坏评价做标注）。接下来的2个步骤均是对文本进行预处理的步骤，为了提取文本中隐含的信息，最后通过机器学习建模，达到任务目标。其中 3 – 5 这几步是迭代的流程，为了模型的精度更准确，需要迭代这个过程，进行不断尝试。数据收集以及标注并非在本文讨论范围内，接下来介绍文本标准化的目标与方法。 3、文本标准化由于文本数据在可用的数据中是非常无结构的，它内部会包含很多不同类型的噪点。所以在对文本进行预处理之前，它暂时是不适合被用于做直接分析的。文本预处理过程主要是对文本数据进行清洗与标准化。这个过程会让我们的数据没有噪声，并可以对它直接做分析。而文本标准化是NLP任务里的一个数据预处理过程。它的主要目标与常规数据预处理的目标一致：提升文本质量，使得文本数据更便于模型训练。文本标准化主要包含4个步骤：大小写标准化（Case Normalization）分词（Tokenization）与停止词移除（stop word removal）词性（Parts-of-Speech，POS）标注（Tagging）词干提取（Stemming） 3.1 大小写标准化大小写标准化是将大写字符转为小写字符，一般在西语中会用到。但是对于中文，不需要做此操作。而且Case Normalization 也并非是在所有任务场景中都有用，例如在英文垃圾邮件分类中，一般一个明显的特征就是充斥着大写单词，所以在这种情况下，并不需要将单词转为小写。 3.2 分词文本数据一般序列的形式存在，分词是为了将文本转为单词列表，这个过程称为分词（tokenization），转为的单词称为token。根据任务的类别，单词并非是分词的最小单位，最小单位为字符。在一个英语单词序列中，例如 ride a bike，单词分词的结果为 [ride, a, bkie]。字符分词的结果为[r, i, d, e, a, b, k, e]。在中文中，分词的最小单元可以不是单个字，而是词语。 3.3 停止词移除停止词移除是将文本中的标点、停顿词（例如 is，in，of等等）、特殊符号（如@、#等）移除。大部分情况下，此步骤能提升模型效果，但也并非在任何时候都有用。例如在骚扰邮件、垃圾邮件识别中，特殊字符相对较多，对于分辨是否是垃圾邮件有一定帮助。 3.4 词性标注语言是有语法结构的，在大部分语言中，单词可以被大体分为动词、名词、形容词、副词等等。词性标注的目的就是就是为了一条语句中的单词标注它的词性。 3.5 词干提取在部分语言中，例如英语，一个单词会有多种表示形式。例如play，它的不同形式有played，plays，playing等，都是play的变种。虽然他们的意思稍微有些区别，但是大部分情况下它们的意思是相近的。词干提取就是提取出词根（例如play 就是它各种不同形式的单词的词根），这样可以减少词库的大小，并且增加单词匹配的精度。这些文本标准化的步骤，可以用于对文本进行预处理。在进一步基于这些文本数据进行分析时，我们需要将它转化为特征。根据使用用途不同，文本特征可以根据各种技术建立而成。如：句法分析（Syntactical Parsing），N元语法（N-grams），基于单词计数的特征，统计学特征，以及词向量（word embeddings）等。 ...

微分方程模型之传染病数学模型

关于传染病的数学模型，在许多年前数学界早已做过研究，根据传染病的传播速度不同，空间范围各异，传播途径多样，动力学机理等各种因素，对传染病模型按照传染病的类型划分为 SI，SIR，SIRS，SEIR 模型。如果是按照连续时间来划分，那么这些模型基本上可以划分为常微分方程（Ordinary Differential Equation），偏微分方程（Partial Differential Equation）等多种方程模型；如果是基于离散的时间来划分，那么就是所谓的差分方程（Difference Equation）。差分模型其实是微分模型的离散形式，所以我们只讨论微风方程模型。首先要介绍一些常用的符号：在时间戳上，可以定义以下几种人群： •易感者（susceptible）：用符号来表示； •感染者（infective）：用符号来表示； •康复者（Recoverd）：用符号来表示；其次，在时间戳t上，总人口是。如果暂时不考虑人口增加和死亡的情况，那么N(t)是一个恒定的常数值。除此之外， •r表示在单位时间内感染者接触到的易感者人数； •传染率：表示感染者接触到易感者之后，易感者得病的概率； •康复率：表示感染者康复的概率，有可能变成易感者（可再感染），也有可能变成康复者（不再感染）。在进行下面的分析之前，先讲一个常微分方程的解。一、SI 模型（Susceptible-Infective Model）在 SI 模型里面，只考虑了易感者和感染者，并且感染者不能够恢复，此类病症有 HIV 等，模型如下：其微分方程就是：这个微风方程近似解法如下：通过数值模拟的结果：在SI模型的假设下，全部人群到最后都会被感染。二、SIS模型（Susceptible-Infectious-Susceptible Model）除了HIV这种比较严重的病之外，还有很多小病可以恢复并且反复感染，例如日常的感冒，发烧等。在这种情况下，感染者就有一定的几率重新转化成易感者。如下图所示：其微分方程是：初始值：，。这个方程的数值近似解：三、SIR 模型（Susceptible-Infectious-Recovered Model）很多时候，感染者在康复了之后就有抗体，于是后续就不再会获得此类病症，这种时候就需要考虑SIR模型。此类病症有麻疹，腮腺炎，风疹等。我们熟悉的SIR模型是基于疫情流行区域的总人数、感染人数、易感人数、病愈人数和时间之间的如下关系：其微分方程是：这些方程里的参数和为常数，反映了特定疫情的特征。这些方程貌似简单，但由于常数和是同一数量级，导致方程属于高度耦合的非线性类型，实际上无法求解析解，需要用数值解来提供预测结果。在疫情扩散过程中的早期，由于开始时易感人群也就是总人数，即 ≈ ，我们可以简化感染人数和时间的关系为：由此可得到感染人数的近似解为：这一关系表明，近似的感染人数总数是时间的指数函数。这里的常数和应该根据疫情的特点来确定，从而实现感染人数的估计。当然，疫情防控措施也会影响这些参数，反过来也反映了防控措施的效果。这些参数一般是根据流行病学的统计结果得到的，会在疫情的流行过程中得到反映。也就是说，我们也可以根据实际疫情报告来决定这些参数。由于我们已经积累了一些疫情实际数据，基于SIR分析的回溯拟合可以精确地确定这些参数。 SIR模型的一些近似结果（预测新冠病毒的有症状的确诊病例）：四、总结最后，除了以上的 SI，SIS，SIR 模型中，还考虑进去。除此之外，如果把潜伏期、潜伏期的传染情况也加进去考虑，还有SIRS模型，SEIR模型等，但是不管怎么变化都是基于SIR这个微分模型，而且有时候考虑的参数越多不一定越准确，比较本身参数就不是绝对精确。

隐形马尔可夫模型(HMM)

什么是熵(Entropy) 简单来说，熵是表示物质系统状态的一种度量，用它老表征系统的无序程度。熵越大，系统越无序，意味着系统结构和运动的不确定和无规则；反之，，熵越小，系统越有序，意味着具有确定和有规则的运动状态。熵的中文意思是热量被温度除的商。负熵是物质系统有序化，组织化，复杂化状态的一种度量。熵最早来原于物理学. 德国物理学家鲁道夫·克劳修斯首次提出熵的概念，用来表示任何一种能量在空间中分布的均匀程度，能量分布得越均匀，熵就越大。一滴墨水滴在清水中，部成了一杯淡蓝色溶液热水晾在空气中，热量会传到空气中，最后使得温度一致更多的一些生活中的例子: 熵力的一个例子是耳机线，我们将耳机线整理好放进口袋，下次再拿出来已经乱了。让耳机线乱掉的看不见的“力”就是熵力，耳机线喜欢变成更混乱。熵力另一个具体的例子是弹性力。一根弹簧的力，就是熵力。胡克定律其实也是一种熵力的表现。万有引力也是熵力的一种(热烈讨论的话题)。浑水澄清于是从微观看，熵就表现了这个系统所处状态的不确定性程度。香农，描述一个信息系统的时候就借用了熵的概念，这里熵表示的是这个信息系统的平均信息量(平均不确定程度)。最大熵模型我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里，这样可以降低风险。在信息处理中，这个原理同样适用。在数学上，这个原理称为最大熵原理(the maximum entropy principle)。让我们看一个拼音转汉字的简单的例子。假如输入的拼音是"wang-xiao-bo"，利用语言模型，根据有限的上下文(比如前两个词)，我们能给出两个最常见的名字“王小波”和“王晓波 ”。至于要唯一确定是哪个名字就难了，即使利用较长的上下文也做不到。当然，我们知道如果通篇文章是介绍文学的，作家王小波的可能性就较大；而在讨论两岸关系时，台湾学者王晓波的可能性会较大。在上面的例子中，我们只需要综合两类不同的信息，即主题信息和上下文信息。虽然有不少凑合的办法，比如：分成成千上万种的不同的主题单独处理，或者对每种信息的作用加权平均等等，但都不能准确而圆满地解决问题，这样好比以前我们谈到的行星运动模型中的小圆套大圆打补丁的方法。在很多应用中，我们需要综合几十甚至上百种不同的信息，这种小圆套大圆的方法显然行不通。数学上最漂亮的办法是最大熵(maximum entropy)模型，它相当于行星运动的椭圆模型。“最大熵”这个名词听起来很深奥，但是它的原理很简单，我们每天都在用。说白了，就是要保留全部的不确定性，将风险降到最小。回到我们刚才谈到的拼音转汉字的例子，我们已知两种信息，第一，根据语言模型，wangxiao-bo可以被转换成王晓波和王小波；第二，根据主题，王小波是作家，《黄金时代》的作者等等，而王晓波是台湾研究两岸关系的学者。因此，我们就可以建立一个最大熵模型，同时满足这两种信息。现在的问题是，这样一个模型是否存在。匈牙利著名数学家、信息论最高奖香农奖得主希萨（Csiszar）证明，对任何一组不自相矛盾的信息，这个最大熵模型不仅存在，而且是唯一的。而且它们都有同一个非常简单的形式 – 指数函数。下面公式是根据上下文（前两个词）和主题预测下一个词的最大熵模型，其中 w3 是要预测的词（王晓波或者王小波）w1 和 w2 是它的前两个字（比如说它们分别是“出版”，和“”），也就是其上下文的一个大致估计，subject 表示主题。我们看到，在上面的公式中，有几个参数lambda和Z，他们需要通过观测数据训练出来。最大熵模型在形式上是最漂亮的统计模型，而在实现上是最复杂的模型之一。我们上次谈到用最大熵模型可以将各种信息综合在一起。我们留下一个问题没有回答，就是如何构造最大熵模型。我们已经所有的最大熵模型都是指数函数的形式，现在只需要确定指数函数的参数就可以了，这个过程称为模型的训练。最原始的最大熵模型的训练方法是一种称为通用迭代算法 GIS(generalized iterative scaling) 的迭代算法。GIS 的原理并不复杂，大致可以概括为以下几个步骤：假定第零次迭代的初始模型为等概率的均匀分布。用第 N 次迭代的模型来估算每种信息特征在训练数据中的分布，如果超过了实际的，就把相应的模型参数变小；否则，将它们便大。重复步骤 2 直到收敛。 GIS 最早是由 Darroch 和 Ratcliff 在七十年代提出的。但是，这两人没有能对这种算法的物理含义进行很好地解释。后来是由数学家希萨（Csiszar)解释清楚的，因此，人们在谈到这个算法时，总是同时引用 Darroch 和Ratcliff 以及希萨的两篇论文。GIS 算法每次迭代的时间都很长，需要迭代很多次才能收敛，而且不太稳定，即使在 64 位计算机上都会出现溢出。因此，在实际应用中很少有人真正使用 GIS。大家只是通过它来了解最大熵模型的算法。八十年代，很有天才的孪生兄弟的达拉皮垂(Della Pietra)在 IBM 对 GIS 算法进行了两方面的改进，提出了改进迭代算法 IIS（improved iterative scaling）。这使得最大熵模型的训练时间缩短了一到两个数量级。这样最大熵模型才有可能变得实用。即使如此，在当时也只有 IBM 有条件是用最大熵模型。由于最大熵模型在数学上十分完美，对科学家们有很大的诱惑力，因此不少研究者试图把自己的问题用一个类似最大熵的近似模型去套。谁知这一近似，最大熵模型就变得不完美了，结果可想而知，比打补丁的凑合的方法也好不了多少。于是，不少热心人又放弃了这种方法。第一个在实际信息处理应用中验证了最大熵模型的优势的，是宾夕法尼亚大学马库斯的另一个高徒原 IBM 现微软的研究员拉纳帕提(Adwait Ratnaparkhi)。拉纳帕提的聪明之处在于他没有对最大熵模型进行近似，而是找到了几个最适合用最大熵模型、而计算量相对不太大的自然语言处理问题，比如词性标注和句法分析。拉纳帕提成功地将上下文信息、词性（名词、动词和形容词等）、句子成分（主谓宾）通过最大熵模型结合起来，做出了当时世界上最好的词性标识系统和句法分析器。拉纳帕提的论文发表后让人们耳目一新。拉纳帕提的词性标注系统，至今仍然是使用单一方法最好的系统。科学家们从拉纳帕提的成就中，又看到了用最大熵模型解决复杂的文字信息处理的希望。 ...

马尔可夫链(Markov Chain)

马尔可夫链是一种非常重要的随机过程模型，在排队论、预测等方面有非常多的应用，当年我考数学系的时候就是冲着学校有一位马尔可夫领域的顶级数学家，不过后来自己越走越偏，也没有来得及进修这个算法。随机过程讲马尔可夫链不得不提到随机过程。顾名思义，它其实就是个过程，比如今天下雨，那么明天下不下雨呢？后天下不下雨呢？从今天下雨到明天不下雨再到后天下雨，这就是个过程。那么怎么预测N天后到底下不下雨呢？这其实是可以利用公式进行计算的，随机过程就是这样一个工具，把整个过程进行量化处理，用公式就可以推导出来N天后的天气状况，下雨的概率是多少，不下雨的概率是多少。说白了，随机过程就是一些统计模型，利用这些统计模型可以对自然界的一些事物进行预测和处理，比如天气预报，比如股票，比如市场分析，比如人工智能。它的应用还真是多了去了。马尔可夫链（Markov Chain）马尔可夫链（Markov Chain）是随机过程中的一种过程，到底是哪一种过程呢？好像一两句话也说不清楚，还是先看个例子吧。比如一个人，每天中午12点的标配，仨状态：吃，玩，睡。这就是传说中的状态分布。你想知道他n天后中午12点的状态么？是在吃，还是在玩，还是在睡？这些状态发生的概率分别都是多少？先看个假设，他每个状态的转移都是有概率的，比如今天玩，明天睡的概率是几，今天玩，明天也玩的概率是几几，看图更清楚一点。这个矩阵就是转移概率矩阵P，并且它是保持不变的，就是说第一天到第二天的转移概率矩阵跟第二天到第三天的转移概率矩阵是一样的。（这个叫时齐，不细说了，有兴趣的同学自行百度）。有了这个矩阵，再加上已知的第一天的状态分布，就可以计算出第N天的状态分布了。 S1 是4月1号中午12点的的状态分布矩阵 [0.6, 0.2, 0.2]，里面的数字分别代表吃的概率，玩的概率，睡的概率。那么 4月2号的状态分布矩阵 S2 = S1 * P (俩矩阵相乘)。 4月3号的状态分布矩阵 S3 = S2 * P (跟S1无关，只跟S2有关)。 4月4号的状态分布矩阵 S4 = S3 * P (跟S1，S2无关，只跟S3有关)。 … 4月n号的状态分布矩阵 Sn = Sn-1 * P (只跟它前面一个状态Sn-1有关)。总结马尔可夫链就是这样一个任性的过程，它将来的状态分布只取决于现在，跟过去无关！就把下面这幅图想象成是一个马尔可夫链吧。实际上就是一个随机变量随时间按照Markov性进行变化的过程。

贝叶斯算法-垃圾邮件过滤器

垃圾邮件是一种令人头痛的顽症，困扰着所有的互联网用户。正确识别垃圾邮件的技术难度非常大。传统的垃圾邮件过滤方法，主要有"关键词法"和"校验码法"等。前者的过滤依据是特定的词语；后者则是计算邮件文本的校验码，再与已知的垃圾邮件进行对比。它们的识别效果都不理想，而且很容易规避。 2002年，Paul Graham提出使用"贝叶斯推断"过滤垃圾邮件。他说，这样做的效果，好得不可思议。1000封垃圾邮件可以过滤掉995封，且没有一个误判。另外，这种过滤器还具有自我学习的功能，会根据新收到的邮件，不断调整。收到的垃圾邮件越多，它的准确率就越高。贝叶斯过滤器是一种统计学过滤器，建立在已有的统计结果之上。所以，我们必须预先提供两组已经识别好的邮件，一组是正常邮件，另一组是垃圾邮件。我们用这两组邮件，对过滤器进行"训练"。这两组邮件的规模越大，训练效果就越好。Paul Graham使用的邮件规模，是正常邮件和垃圾邮件各4000封。 “训练"过程很简单。首先，解析所有邮件，提取每一个词。然后，计算每个词语在正常邮件和垃圾邮件中的出现频率。比如，我们假定"sex"这个词，在4000封垃圾邮件中，有200封包含这个词，那么它的出现频率就是5%；而在4000封正常邮件中，只有2封包含这个词，那么出现频率就是0.05%。（【注释】如果某个词只出现在垃圾邮件中，Paul Graham就假定，它在正常邮件的出现频率是1%，反之亦然。这样做是为了避免概率为0。随着邮件数量的增加，计算结果会自动调整。）有了这个初步的统计结果，过滤器就可以投入使用了。现在，我们收到了一封新邮件。在未经统计分析之前，我们假定它是垃圾邮件的概率为50%。（【注释】有研究表明，用户收到的电子邮件中，80%是垃圾邮件。但是，这里仍然假定垃圾邮件的"先验概率"为50%。）我们用S表示垃圾邮件（spam），H表示正常邮件（healthy）。因此，P(S)和P(H)的先验概率，都是50%。然后，对这封邮件进行解析，发现其中包含了sex这个词，请问这封邮件属于垃圾邮件的概率有多高？我们用W表示"sex"这个词，那么问题就变成了如何计算P(S|W)的值，即在某个词语（W）已经存在的条件下，垃圾邮件（S）的概率有多大。根据条件概率公式，马上可以写出公式中，P(W|S)和P(W|H)的含义是，这个词语在垃圾邮件和正常邮件中，分别出现的概率。这两个值可以从历史资料库中得到，对sex这个词来说，上文假定它们分别等于5%和0.05%。另外，P(S)和P(H)的值，前面说过都等于50%。所以，马上可以计算P(S|W)的值：因此，这封新邮件是垃圾邮件的概率等于99%。这说明，sex这个词的推断能力很强，将50%的"先验概率"一下子提高到了99%的"后验概率”。做完上面一步，请问我们能否得出结论，这封新邮件就是垃圾邮件？回答是不能。因为一封邮件包含很多词语，一些词语（比如sex）说这是垃圾邮件，另一些说这不是。你怎么知道以哪个词为准？ Paul Graham的做法是，选出这封信中P(S|W)最高的15个词，计算它们的联合概率。（【注释】如果有的词是第一次出现，无法计算P(S|W)，Paul Graham就假定这个值等于0.4。因为垃圾邮件用的往往都是某些固定的词语，所以如果你从来没见过某个词，它多半是一个正常的词。）所谓联合概率，就是指在多个事件发生的情况下，另一个事件发生概率有多大。比如，已知W1和W2是两个不同的词语，它们都出现在某封电子邮件之中，那么这封邮件是垃圾邮件的概率，就是联合概率。在已知W1和W2的情况下，无非就是两种结果：垃圾邮件（事件E1）或正常邮件（事件E2）。其中，W1、W2和垃圾邮件的概率分别如下：如果假定所有事件都是独立事件（【注释】严格地说，这个假定不成立，但是这里可以忽略），那么就可以计算P(E1)和P(E2)：又由于在W1和W2已经发生的情况下，垃圾邮件的概率等于下面的式子：即将P(S)等于0.5代入，得到将P(S|W1)记为P1，P(S|W2)记为P2，公式就变成这就是联合概率的计算公式。将上面的公式扩展到15个词的情况，就得到了最终的概率计算公式：一封邮件是不是垃圾邮件，就用这个式子进行计算。这时我们还需要一个用于比较的门槛值。Paul Graham的门槛值是0.9，概率大于0.9，表示15个词联合认定，这封邮件有90%以上的可能属于垃圾邮件；概率小于0.9，就表示是正常邮件。有了这个公式以后，一封正常的信件即使出现sex这个词，也不会被认定为垃圾邮件了。

贝叶斯算法-医患诊断模型

1、背景材料及引言 7岁女孩晓宇（化名）患急性支气管炎,在武汉市儿童医院住院4天，医生为确诊病情，为她抽血化验了32个指标，仅化验费就花费1130元。晓宇的家长质疑：医院如此看病，是过度检查。晓宇的接诊医生李志超说：“晓宇入院时,根据其家长自述病情，我认为孩子的情况有些严重,于是确定了上述化验指标”。该院四内科副主任李医生说：在当时情况下,李志超对患者的病情判断、以及开出的化验指标,都是有道理的。但如果是我接诊，会以自己的经验有针对性地进行化验检查,可能不会一下开出这么多化验指标。该科主任温玟莉主任医师称：一次抽血化验32个指标，是因为李志超当时怀疑孩子得了败血症，这样处理没有问题。但最后的检查结果并不是败血症，这只能说明李志超较年轻，缺乏丰富的临床经验，只有通过全面检查才能确诊。在医患关系紧张，看病难、看病贵的现实情况下，我们应如何看待这个颇有争议的案例，医生看病是应该有针对性地开方,还是列出“算法式”的化验指标进行排查，本研究以贝叶斯公式为依据，从中国现行的医疗体制出发,对此类问题进行了有益的探索，以期建立一种定量化的诊断模型。 2、模型建立设“患者有某种病症”为事件A，引起事件A的病因为样本空间Ω。B1，B2，…Bn为Ω的一个分划，即Bi∩Bj=Φ，i≠j,Ｕni=1Bi=Ω，并假定P(Bi)>0。由贝叶斯公式，由某病因引起事件A的概率为： P（Bi|A)=P(Bi)P(A|Bi)/n/j=1P(Bj)P(A⌒Bj)(1) 公式(1)为医生有针对性地确诊提供了参考。在疹疗过程中，医生要根据临床经验对各种病因Bi进行权衡。如果误诊，则有可能承担相应的医疗事故风险，相应的误诊概率记为P′(Bi)，并设因可能承担风险而承担的赔偿费用为C′i，患者承担医生针对病因Bi开出的疹疗方案的费用为Ci，于是在一次诊治过程中患者承担的平均费用为： E(A)=ni=1P(Bi)Ci(2) 医生可能承担的平均赔偿金额为： E′(A)=ni=1P′(Bi)C′i(3) 我们称该模型为诊断模型，并以δ1≤E(A)-E′(A)≤δ2为标准来衡量诊断方案的合理性，其中δ1≥0,δ2为某一不是特别大的正数。即患者所承担的平均医疗费用应比医生可能承担的平均赔偿金要多，但两者不应差别太大。 3、模型检验我们以发热和上腹疼痛两个病症的相关数据对该模型进行检验。设原假设为H0：诊断是合理的。备择假设为H1，诊断合理与否需要进一步考查。对表1和表2中相关数据的说明：中国2002年9月1日实施的《医疗事故处理条例》(以下简称《条例》)第五十条对赔偿项目和标准的规定与当地上一年度职工平均工资水平紧密挂钩，实行一次性结算。表1和表2中的工资水平参考了2007年2月湖北省第十届人民代表大会上的湖北省政府工作报告中的数据：2006年城镇居民人均可支配收入为9803元。对发热症状中的“非典”及“某种类似非典的突发疾病”所可能带来的医疗事故我们以一级医疗事故中的死亡来处理，赔偿金额按<国家赔偿法>第二十七条的规定，检查费用以一次全身检查所需费用10000元进行计算；对“心肺功能缺陷”所可能带来的医疗事故我们按二级医疗事故处理，赔偿金额取202110，检查费用按心电图20元次，心脏彩超180元次,心肌酶谱60元次，肺检查80元次进行计算，药费以相应检查费用的0.8计算。对上腹疼痛症状中的“胃癌”及“心、膈等器官有病变”可能带来的医疗事故我们按二级医疗事故来处理,赔偿金额取202110，对B3的检查费用以B超40元次，催C120元次，胃镜(无痛)240元次进行计算，药费以相应检查费用的0.8计算，对B4的检查费用以胃镜(无痛)240元次和心脏彩超180元次进行计算，药费以相应检查费用的0.8计算。对两种症状中“其它”原因对患者可能造成的损害我们以《条例》第三十三条(三)的规定进行处理：在现有医学科学技术条件下，发生无法预料或者不能防范的不良后果的，不属于医疗事故。对两种症状中“其它”原因，患者的一次医疗费用我们取城镇居民人均可支配收入的5%，即490元进行计算。所有医疗费用均指一次诊治的检查费和药费之和,不包括后续治疗的费用。检查费用以武汉市某三级甲等医院的相关标准为参考。表1发热症状诊断模型的相关数据注:B1=人体生理功能的正常表现：B4=某种类似非典的突发疾病；B5=心肺功能缺陷。表2上腹疼痛症状诊断模型的相关数据注，B2=胃溃疡、十二指肠溃疡；B4=心、膈等器官有病变。设“发热症状”为事件A1，“上腹疼痛症状”为事件A2，由表1和表2的数据计算得(四舍五入精确到元)： E（A1）=121，E′（A1）=187165；E（A2）=265，E′（A2）=22232 我们会发现原假设H0：诊断是合理的，是不成立的。这些数据告诉我们医生这个职业的确是个高风险的职业，在中国建立医疗责任保险制度有着必要性与迫切性。 4、模型评价该模型在合理假设的基础上,对“对症下药”进行量化,对诊疗方案的合理性给出了一个量化的标准，有一定的合理性与临床参考价值。特别是在用数据对模型检验后，证实了医生的确是个高风险的职业，也显示了在中国建立医疗责任保险制度的必要性和紧迫性。但在模型应用过程中还需要注意以下几个方面：①病因的复杂性。病因的复杂性会导致样本空间的分划的个数n比较大，因此需要结合医学规律对样本空间分划进行合理的选择。②患者体质的差别。不同的患者对同类的医疗事故，由于体质的差别可能带来不同程度的损害。③医生临床诊断水平的差异。不同的医生，由于经验等方面的因素，误诊概率可能有较大的差别。④医院的潜规则。有的医院把医生的收入与其给医院的创收挂钩，这样同一病症在不同的医院治疗，诊疗费用会有较大的差别。⑤实际赔偿金的差别。不同地区上一年度人均收入差别较大,加之实际赔偿金还与实际谈判能力有关系，这样就可能导致同类医疗事故在不同地区及不同的患者(或家属)身上，实际赔偿金差别也较大。⑥现行医疗体制对模型的影响。下面对此进行较详细的分析。中国现行的医疗事故赔偿责任者只有一个，就是医疗机构，但医疗机构作为理性人，会尽量减少其自身的医疗成本以实现利益的最大化。医疗机构会将其自身受到的损失通过以下三种主要方式进行转移：一是利用价格机制，提高医疗费用，即将损失分散于所有的就医者身上；二是由具体责任人承担风险，即将损失的一部分转移给与事故直接相关的医务人员；三是通过责任保险机制，将损失转移给保险公司。但长期以来，在中国实际上只有第一种和第二种途径在发挥着作用,责任保险机制可以说作用甚微。这样,就很容易导致医疗费用上涨，引发医患关系紧张。医学的专业化使得医疗机构和患者之间存在巨大的信息差，医疗机构有动机也有能力通过使患者进行重复或者不必要的检查项目等方法多收费用,弥补自身损失.因此模型作用的发挥,还需要以下几方面的配合： ①重视医德建设,提高医护人员自身修养。裘法祖院士在文献里有很深刻的认识。 ②加强医患之间的沟通，进行换位思考，让医生理解患者的苦衷，让患者理解诊疗的风险。 ③加强误诊规律的研究。医疗技术的进步从来都是和风险相并存的，从某种程度上说误诊是不可避免的，但作为医护人员要提高生命权保护意识，不断提高自身的临床思维能力诊断能力力争把误诊率降到最低。 ④加强医护人员临床思维能力和临床经验的提高。医学很大程度上是经验学科,医学理论最终还要内化为医护人员的实际诊断能力才能发挥作用。公式(1)为医护人员提高诊断水平提供了一个很好的参考。 ⑤探索适合中国国情的、于患于医均有益的医疗责任保险制度。尤其是在生命意识越来越受到重视的今天，只有切实的降低行医的风险，才能从根本上解决医患关系紧张的现状，实现医患关系的和谐。

贝叶斯算法概述

简介概率论中贝叶斯算法是最基本的一个条件概率算法。学过概率理论的人都知道条件概率的公式：P(AB)=P(A)P(B|A)=P(B)P(A|B)；即事件A和事件B同时发生的概率等于在发生A的条件下B发生的概率乘以A的概率。由条件概率公式推导出贝叶斯公式：P(B|A)=P(A|B)P(B)/P(A)；即,已知P(A|B)，P(A)和P(B)可以计算出P(B|A)。假设B是由相互独立的事件组成的概率空间{B1,b2，…bn}。则P(A)可以用全概率公式展开：P(A)=P （A|B1)P(B1)+P（A|B2)P(B2)+..P（A|Bn)P(Bn)。贝叶斯公式表示成：P(Bi|A)=P(A|Bi)P(Bi)/(P(A|B1)P(B1)+P(A|B2)P(B2)+..P(A|Bn)P(Bn))；常常把P(Bi|A)称作后验概率，而P（A|Bn)P(Bn)为先验概率。而P(Bi)又叫做基础概率。贝叶斯公式：贝叶斯公式看起来很简单，但是在自然科学领域应用范围及其广泛。同时理论本身蕴含了深刻的思想。贝叶斯概率的历史贝叶斯理论和贝叶斯概率以托马斯·贝叶斯（1702－1761）命名，他证明了现在称为贝叶斯定理的一个特例。术语贝叶斯却是在1950年左右开始使用，很难说贝叶斯本人是否会支持这个以他命名的概率非常广义的解释。拉普拉斯证明了贝叶斯定理的一个更普遍的版本，并将之用于解决天体力学、医学统计中的问题，在有些情况下，甚至用于法理学。但是拉普拉斯并不认为该定理对于概率论很重要。他还是坚持使用了概率的经典解释。弗兰克·普伦普顿·拉姆齐在《数学基础》（1931年）中首次建议将主观置信度作为概率的一种解释。Ramsey视这种解释为概率的频率解释的一个补充，而频率解释在当时更为广泛接受。统计学家Bruno de Finetti于1937年采纳了Ramsey的观点，将之作为概率的频率解释的一种可能的代替。L. J. Savage在《统计学基础》（1954年）中拓展了这个思想。有人试图将“置信度”的直观概念进行形式化的定义和应用。最普通的应用是基于打赌:置信度反映在行为主体愿意在命题上下注的意愿上。当信任有程度的时候，概率计算的定理测量信任的理性程度，就像一阶逻辑的定理测量信任的理性程度一样。很多人将置信度视为经典的真值（真或假）的一种扩展。 Harold Jeffreys, Richard T. Cox, Edwin Jaynes和I. J. Good研探了贝叶斯理论。其他著名贝叶斯理论的支持者包括John Maynard Keynes和B.O. Koopman。贝叶斯法则的原理通常，事件A在事件B(发生)的条件下的概率，与事件B在事件A的条件下的概率是不一样的；然而，这两者是有确定的关系,贝叶斯法则就是这种关系的陈述。作为一个规范的原理，贝叶斯法则对于所有概率的解释是有效的；然而，频率主义者和贝叶斯主义者对于在应用中概率如何被赋值有着不同的看法：频率主义者根据随机事件发生的频率，或者总体样本里面的个数来赋值概率；贝叶斯主义者要根据未知的命题来赋值概率。一个结果就是，贝叶斯主义者有更多的机会使用贝叶斯法则。贝叶斯法则是关于随机事件A和B的条件概率和边缘概率的。其中L(A|B)是在B发生的情况下A发生的可能性。在贝叶斯法则中，每个名词都有约定俗成的名称： Pr(A)是A的先验概率或边缘概率。之所以称为"先验"是因为它不考虑任何B方面的因素。 Pr(A|B)是已知B发生后A的条件概率，也由于得自B的取值而被称作A的后验概率。 Pr(B|A)是已知A发生后B的条件概率，也由于得自A的取值而被称作B的后验概率。 Pr(B)是B的先验概率或边缘概率，也作标准化常量（normalized constant）。按这些术语，Bayes法则可表述为：后验概率 = (似然度 * 先验概率)/标准化常量也就是说，后验概率与先验概率和似然度的乘积成正比。另外，比例Pr(B|A)/Pr(B)也有时被称作标准似然度（standardised likelihood），Bayes法则可表述为：后验概率 = 标准似然度 * 先验概率要理解贝叶斯推断，必须先理解贝叶斯定理。后者实际上就是计算"条件概率"的公式。所谓"条件概率"（Conditional probability），就是指在事件B发生的情况下，事件A发生的概率，用P(A|B)来表示。根据文氏图，可以很清楚地看到在事件B发生的情况下，事件A发生的概率就是P(A∩B)除以P(B)。因此，同理可得，所以，即，这就是条件概率的计算公式。全概率公式由于后面要用到，所以除了条件概率以外，这里还要推导全概率公式。假定样本空间S，是两个事件A与A’的和。上图中，红色部分是事件A，绿色部分是事件A’，它们共同构成了样本空间S。在这种情况下，事件B可以划分成两个部分。 ...

数学基础、集合论和选择公理

这几天又重新学习复习了一下数学基础：逻辑主义、形式主义和直觉主义。我自己当然更倾向于基于公理化集合论的逻辑主义，这也是目前大部分数学家的选择。一、数学基础数学上，数学基础一词有时候用于数学的特定领域，例如数理逻辑，公理化集合论，证明论，模型论，和递归论（可计算性理论）。但是寻求数学的基础也是数学哲学的中心问题：在什么终极基础上命题可以称为真? 目前占统治地位的数学范式是基于公理化集合论和形式逻辑的。实际上，几乎所有现在的数学定理都可以表述为集合论下的定理。在这个观点下，所谓数学命题的真实性，不过就是该命题可以从集合论公理使用形式逻辑推导出来。二、公理化集合论基础集合论可以用非正式的、直觉的方式学习，在小学中就可以用文氏图说明。基础集合论直观地假设集合就是一群符合任意特定条件的对象的组合，但此假设会造成悖论。最简单及著名的是罗素悖论及布拉利-福尔蒂悖论。公理集合论的形成就是为了避免这些集合论的悖论。许多数学家研究的公理集合论系统假设所有的集合形成累计层次。这类的系统可分为二类： 1、只由集合构成：这类系统包括最常用的公理集合论：含选择公理的策梅洛-弗兰克尔集合论（ZFC），由亚伯拉罕·弗兰克尔和陶拉尔夫·斯科伦扩展了策梅罗集合论所得。其他和ZFC有关的集合论有： 1）、策梅洛集合论是由德国数学家恩斯特·策梅洛创立，将分类公理代替替代公理。 2）、广义集合论，策梅洛集合论的一小部分，已足以处理皮亚诺公理及有限集合。 3）、克里普克-普拉特克集理论，省略了无穷公理、幂集公理和选择公理，削弱了分类公理和替代公理的公理架构。 2、由集合和真类构成：这类系统包括冯·诺伊曼-博内斯-哥德尔集合论，是设计生成同 ZFC同样结果的集合论公理系统，但只有有限数目的公理而不使用公理模式。单论只涉及集合的内容，此理论的强度和ZFC相当。另外比ZFC强的Morse-Kelley集合论及Tarski–Grothendieck集合论也属于这一类。三、选择公理选择公理：对于所有的集族，均存在选择函数。罗素解释：假设有许多（甚至是无限）双鞋子，则我们可以选取每双鞋左边的鞋子构成一个具体的选择。然而，假设有无限双袜子（假设每双袜子都没有可区分的特征），在对于所有的集族，均存在选择函数。哥德尔证明了选择公理与ZF的相对协调性。保罗·寇恩用力迫法证明了选择公理独立于ZF。也就是说：哥德尔和寇恩证明了，无论接受选择公理与否，都不会导致矛盾，只是身处不同的『数学世界』而已。不过，除了一些研究集合论的数学家和逻辑学家以外，大部分数学家都选择接受选择公理，因为在含有选择公理的数学世界里，事情会简单一些。

数学最重要的公式

一、费马大定理 $$ x^n+y^n=z^n \mbox{(n=2,为毕达哥拉斯定理)} $$ 二、欧拉公式 $$e^{i\pi} + 1 = 0$$ 三、牛顿-莱布尼茨公式 $$ \int_a^bf(x){\rm d}x=F(b)-F(a) $$ 四、黎曼zeta函数整数形式 $$\zeta(p) = \sum_{n=1}^{\infty}{\frac{1}{n^p}}$$ 复数形式 $$\zeta(s) = \sum_{n=1}^{\infty}{\frac{1}{n^s}} \mbox{ （其中，} s \in C \mbox{，且 } Re(z) > 1 \mbox{）}$$

数学模型概述

这一个多月以来，我投入了大量的时间回顾和复习本科基础数学课程，重点是《数学分析》、《高等代数》、《解析几何》、《概率论与数理统计》、《数值分析》、《数学模型》，并且延申阅读了这几个学科的历史。我最关心的是数学模型，这个也是我大学里除了三门基础课程之外学得最好的一门课程，而且我投入了大量时间数学模型的学习，并且参加了校级、国级和美国数学建模比赛，分别获得一等奖、二等奖和一等奖。所谓数学模型，其实简单地说就是：使用数学方法解决实际应用问题。除了常见的数学模型，还有其他大量地借用数学方法来解决实际问题的例子，比如爱因斯坦的相对论，其实就是借用非欧几何的数学理论来解决物理问题。关于常见的数学模型，已经有人进行了非常好的整理：线性规划、整数规划、非线性规划、图与网络模型、插值与拟合、微分方程建模、数理统计、时间序列、支持向量机、多元分析、偏最小二乘回归分析、现代优化算法（模拟退火、遗传算法）、数字图像处理、综合评价与决策方法、预测方法（微分方程、灰色度预测、差分方程、马尔可夫预测、插值与拟合、神经网络）。我后续会比较深入地重新捡起这些算法和模型，并且运用到实际生活中，我这里的实际生活，就是针对实实在在发生和进行的事情。