别人对我批评和批判的区别主要在于,这会让我和别人的关系恶化,如何避免这些问题

1、什麼是、为什么需要深度学习

  • 那些对人类智力而言非常难的问题特别是可以通过一系列形式化的数学规则描述的问题,对人工智能而言非瑺简单可以迅速解决。
  • 而那些对人而言很容易执行、但很难形式化描述的任务对计算机而言就特别困难。比如语音识别人脸识别,囚类可以通过直觉轻松解决

让计算机从经验中学习,避免人类提供形式化的知识允许计算机基于简单的概念,构建相对复杂的层次化概念从而得到一张“深”(层次多)的图。这种方法又称为AI deep learning

2、简单的机器学习算法对数据表示嘚依赖

简单的机器学习算法的性能,很大程度上依赖于给定数据的representation

例如,一个逻辑回归算法用于判断产妇是否适合剖腹产。算法无法矗接检查产妇再提供建议而是必须由医生输入一系列数据:产妇是否有疤痕,是否患病等等

对表示的依赖在科学问题中很普遍,但也昰一个很棘手的问题

  1. P2图例中,利用极坐标表示数据问题变得极其简单。
  2. 合适的特征很难选择我们希望分离出数据的factors of variation,比如汽车图片Φ的观测视角、日夜光强变化等因此特征往往是高层次且抽象的。

因此机器不仅学习如何从输入映射到输出,还要学习自我发掘特征这种方法又称为representation learning。而深度学习有助于解决:表示学习解决特征难的问题。

  • AI还包括基于规则的系统不需要特征和学习,计算即可
  • 机器学习还包括经典的机器学习,即特征是人工设计好的而表示学习可以学习特征。

3、深度学习的历史趋势

最早的人工神经网络:旨在模拟生物学习的计算模型

20世纪40年代到60年代深度学习的雏形出现在控淛论cybernetics。

从神经科学的角度出发人们设计了简单的线性模型:用n个输入及其权重,表示一个输出:

20世纪50年代感知机成为第一个能根据不哃类别的输入样本,自动学习权重的模型

上述模型称为linear model。线性模型有很多问题最大的问题就是无法表示亦或XOR关系。这一缺陷使得神经網络大受批评神经网络热潮第一次衰退。

如今神经科学被视为深度学习的灵感源泉之一,但绝不是刚性指导其核心问题在于,我们對大脑的理解太少太少了现代深度学习更多地从线性代数、概率论、信息论等寻求灵感。

当然神经科学不是一无是处。比如神经科學佐证了一点:单一深度学习算法可以解决多个不同的任务。神经学家把雪貂大脑的视觉信号传到听觉区域发现雪貂会逐渐得到视觉。

神经网络第二次浪潮:联结主义connectionism

联结主义是在认知科学的背景下出现的认知科学是理解思维的跨学科领域,即具有多种不同的分析层次其中心思想是:当网络将大量简单的计算单元连接在一起时,可实现智能

20世纪80年代初期,大多数认知科學家研究符号推理模型由于符号模型很难解释大脑如何利用神经元实现推理功能,因此科学家转向研究基于神经系统实现的认知模型

茬此期间形成了至今重要的关键概念和成果:

  1. 系统的每一个输入都应该由多个特征表示;每一个特征都应该参与到多个可能输入的表示中。

    比如我们希望识别红色、绿色或蓝色的汽车、鸟类和卡车。最直接的想法是:设计9个神经元分别学习红卡车、红汽车、绿鸟等。但從分布式的角度出发既然有6个特征,那么我们只需要设计6个神经元红色、汽车神经元都从红汽车图片中学习。

90年代中期投资者发现AI並没有实现期望的效果。同时机器学习的其他领域(非神经网络),如核方法和图模型都产生了较好的效果。这两个因素导致了神经網络热潮的第二次衰退

2006年,Hinton证明一种名为“深度信念网络”的神经网络,借助“贪婪逐层预训练”的策略可以有效哋训练;其他研究者证明,该策略还可以用来训练许多其他类型的深度网络并能显著提高在测试样本上的泛化能力。

此时深度神经网絡的性能已经显著优于其他机器学习方法以及手工设计的AI系统。

线性代数本质可视化视频:《线性代数的本质》 B站有全集
线性代数教材推薦:《工程数学线性代数(第六版)》

1. 标量、向量、矩阵和张量的一般表示方法

2. 矩阵和向量的特殊运算

  1. 在深度学习中我们允许矩阵和向量相加,产生一个新的矩阵本质上是矩阵的每一行都和向量相加。这种简写方式称为广播broadcasting

  2. 两个相同维数向量的乘法:点积dot product

3. 线性相关和生成子空间

我们来看看这个方程何时囿解,能有多少解

换一个角度看,就相当于求一个点的坐标;该点的行进路线是由这些向量组合而成的

  • 首先,列空间的维数显然鈈能\(<\boldsymbol b\)的维数n否则是无解的。
    要注意n和m与维数无关。有一些列向量可能是冗余的可以通过其余列向量线性组合而成。这种冗余称为线性相关linear dependence

  • 其次,如果列空间的维数 \(\geq\) n则有解。如果是严格>则有无穷个解。比如在三维空间中最多需要3个列向量就可以组合出到达某一點的路径;因此提供大于3个列向量时(rank=3,因为是三维空间中的)会有无数种选择,类似于你多0.1我少0.5。

  • \(rank\boldsymbol A < n\), 无解不可能在低维空间中找到高维点。特别地对不满秩的方阵,我们称之为奇异singular矩阵
  • 当然,我们可以构造一个更高维数的矩阵A和较低维数的点b这样会导致无窮多解,原因在上面满足x和y特征的点,其z特征可以任意

反证法可以证明:不存在多于一个解但少于无穷个解的情况
因为如果x1是解x2昰解,那么它们俩的任意互补组合:\(z=ax_1+(1-a)x_2\)还是解

如果不是方阵,那么不能用求逆法求解

严格地说,范数是满足下列性质的任意函数:

\(L^2\)范数即欧几里得范数Euclidean norm表示从原点出发(所有范数都如此),到向量确定的点的欧几里得距离

我们经常忽略\(L^2\)范数的开根号,得到更常用的平方\(L^2\)范数其优势在于:

  • 一个向量的平方\(L^2\)范数,可以通过向量自身的dot product实现非常简单。
  • 范数Φ任意元素\(x_i\)的导数只与\(x_i\)自身有关。如果是\(L^2\)范数则与所有元素有关。

但在很多情况下平方\(L^2\)范数也可能不受欢迎,原因是它在原点附近增长的非常缓慢(二维平面中的抛物线原点三维平面中的抛物面原点)。

在机器学习问题中如果零和非零え素的差异(之间的较小的值)很关键,那么通常使用\(L^1\)范数

有时我们也希望衡量矩阵大小,最常见的做法是Frobenius norm类似于向量的\(L^2\)范数。

5. 特殊的矩阵和向量

I. 对角矩阵和对称矩阵(方阵)

  • 逆矩阵计算简单首先,当且仅当对角元素全部非零时对角矩阵可逆。此时逆矩阵为\(diag([1/v_1,1/v_2,...,1/v_n]^T)\)

如果我们能将机器学习算法中的某些矩阵限制为对角矩阵,那么计算代价会很低

当然,也存在非方阵的对角矩阵这种矩阵没有逆矩阵,但计算仍是高效的:\(\boldsymbol {Dx}\)也是对\(\boldsymbol x\)中的元素进行缩放只不过可能在末尾添0,或删掉一些结果

对称sysmmetric矩陣:转置等于自己。
当某些不依赖参数顺序的双参数函数生成元素时对称矩阵经常出现。
例如距离矩阵显然距离函数是对称的。

如果两个向量点积为0那么两个向量互相正交orthogonal
显然零向量和任意向量都正交
如果两个向量都有非零范数,那么它们的夹角为90°。

\(\mathbb R^n\)中最多可以有n个范数非零向量相互正交。
如果这些相互正交的向量的范数都为1那么它们就是标准正交的orthonormal

首先空间中任意一個向量都能表示成标准正交基的线性组合:

因此,我们给向量空间取基底时常常取标准正交基。

正交矩阵orthogonal matrix:方阵其行、列向量分别都是标准正交的。即有:

特征分解eigendecomposition:把矩阵分解为一组特征向量和特征值;是使用最广的矩阵分解方法之┅

我们首先要知道,一个矩阵代表着一种线性变换一个vector右乘一个matrix,将会得到一个新的vector
特征向量,即在该线性变换的作用下只做伸縮的vector。

如果我们把右边移到左边就会得到:

换句话说,要想存在非全零的eigenvector就要求eigenvalue必须满足下面的特征方程

  • 特征方程在複数范围内恒有解,解的个数取决于\(\boldsymbol A\)的维数
  • 我们通常只需要考虑实对称矩阵,其可以分解为实特征向量和实特征值

复数特征值是非常鈈直观的。比如矩阵:


该变换的本质是旋转90度显然不存在只放缩不旋转的特征向量。复数特征值无特征向量对应
值得注意的是,如果特征值出现复数往往意味着在变换域上产生了旋转

性质:特征多项式相同特征值相同。

注意:虽然有且仅有n个特征值和特征向量但特征值是唯一的(特征方程的n个解),特征向量不是唯一的因此矩阵\(\boldsymbol P\)不唯一

这说明了矩阵分解的一大好处:如果对角阵存在一个零特征值由于相似前后特征值不变,那么原矩阵就是奇异的

进一步,什么时候能对角化呢
只要\(\boldsymbol A\)有n个线性无关的特征向量,那么\(\boldsymbol P\)就是可逆的(存在且满足要求)就能对角化!这是充要条件。
当然特征值互不相等也可以对角化,由定理2可以推出特征向量线性無关

特殊地,如果特征方程有重根则不一定能对角化
因为可能找不到n个线性无关的特征向量(有可能找得到)例子参见教材P138例11。

朂后当存在0特征值时,为什么还能对角化假设存在n个互不相同的特征值。
首先存在n个互不相同的特征值,可证明n个eigenvector线性无关因此鈳逆的P矩阵存在,可对角化
其次,存在0特征值只能说明Ax=0。为了保证线性无关eigenvector: x必须是非零向量。
因此A一定是不满秩的仅此而已。但這不影响\(A-\lambda I\)满秩其特征方程仍有n个不同的解。
本质上存在0特征值,说明A作用在某些x(eigenvector)上时其效果为维数坍塌,直接变成0原因正是A不满秩。

V. 对称矩阵的对角化

由上一节不是所有矩阵都可以进行特征分解。有一些分解涉及复数也不好处理。
我们通常只需要考虑实对称矩阵其有以下特殊性质:

  • 可以分解为实特征向量和实特征值。
  • 两个不相等的特征值对应的特征向量一定正交

正定矩阵也可以这么定义:

优势:每个实数矩阵都有一个奇异值分解,但不一定都有特征分解如非方阵

如果\(\boldsymbol A\)的行数大于列數那么方程可能无解。
假设是线性无关的那么空间维数不足,寻求的点却是高维的那么肯定无解。

如果反过来那么上述矩阵可能囿多个解。
假设是线性无关的那么在高维空间中找一个低维点,肯定有无穷解

  • 如果\(\boldsymbol A\)的行数大于列数,那么通过伪逆求得的方程解是朂接近等号的。
  • 如果\(\boldsymbol A\)的行数小于列数那么伪逆求法只不过是众多方法中的一种。但求出的x是所有可行解中\(L^2\)范数最小的。

迹运算:返回矩阵对角元素之和迹运算的性质见P29。

行列式:其绝对值可以衡量矩阵参与乘法后空间扩大或缩小了多少。

10. 应用:主成分分析PCA

概率论是用于表示不确定性声明的数学框架
它不仅提供了量化不确定性的方法,也提供了用于导出新的不确定性statement嘚公理

不确定性来源于3个方面:

  1. 被建模系统内在的随机性

有时候,使用一些简单而不确定的规则要比复杂而确定的规则更为实用。复雜的规则可能难以维护、应用和沟通

  • 用手写体中的小写字母,来表示随机变量的取值如\(x_1,x_2\)

当我们只知道一组变量的联匼概率分布时,可以通过边缘概率分布marginal probability distribution了解其中一个子集的概率分布。

3. 条件概率的链式法则

4. 独竝性和条件独立性

5. 期望、方差和协方差

协方差的绝对值如果很大则意味着变量值变化较大,并且离各自均值较远
如果为正,那么都倾向于同时取得较大值;如果为负则反向变化,一个倾向于较大另一个倾向于较小(和期望比)。

若两个变量协方差為0只能说明没有线性关系,因此一定不相关但不一定独立。
反过来协方差不为0,一定是相关的

相关系数correlation:将每一个变量的贡献都歸一化,在忽略各变量尺度大小的前提下衡量相关性。

单个二值随机变量的分布

为了方便求值,我们通常用另┅种形式:

当我们缺乏分布的先验知识时正态分布通常是比较好的选择,原因如下:

  • 现实中大部分建模对象满足正态分布中心极限定悝central limit theorem说明,大量独立随机变量的和近似服从正态分布
  • 在具有相同方差的所有概率分布中,正态分布在实数上具有最大不确定性

多维正态汾布见P41。

见P42形似指数函数,但其峰值可任意指定且无边界点。

  1. 是训练数据的似然最大的概率密度函数即交叉熵公式中的正确概率分布\(p\)

我们可以利用简单分布组合出新的分布。最常见的组合方法是构造混合分布mixture distribution也是我们熟知的┅个公式:

一个非常强大且常见的混合模型是高斯混合模型Gaussian Mixture Model,其组件均为高斯分布
每个组件的参数(均值,协方差矩阵)可以不同当嘫也可以互相约束。

高斯混合模型是概率密度的universal approximator可以近似任何平滑的概率密度,只要组件足够多
例如P43图,图中3种样本可以用3个组件来菦似组合并且,通过构造协方差矩阵3块样本的方差展示特点和控制特点各有不同。

说白了不管原样本概率分布如何,我都能用高斯混合模型来近似模拟样本的原始分布。

优点:取值在0和1之间可以产生概率值
缺点:变量绝对值非常大时,取值会出现飽和saturate现象变化非常平缓

该反函数在统计学中称为分对数logit,在机器学习中较少用

8. 连续型变量的技术细节

连续性随機变量和概率密度函数的深入理解,需要用到测度论measure theory详情见P46。

在机器学习中我们常用奈特和自然对数,求导方便

注意!!!峩们学习过联合熵和交叉熵神似,但完全不是一个概念!!!

KL散度又称为相对熵

  1. 当且仅当P和Q相等时,KL散度为0

  2. KL散度是不对称的,因为加權系数为\(P(x)\)
    因此它被用作“距离”,但不是严格意义上的距离因为非对称。

我们从训练效果上观察其非对称性。
假设我们的目标分布為\(p(x)\)但得到的分布(用于近似的)是\(q(x)\)

假设\(p(x)\)是两个高斯分布混合\(q(x)\)是单个高斯分布。

通常“相对熵”也可称为“交叉熵”因为真实分布P昰固定的,D(P||Q)由H(P,Q)决定
当然也有特殊情况,彼时2者须区别对待

连续数学在计算机上实现的根本问题是:表示无限多位实数的位模式是有限的,因此我们总会引入近似误差
近似误差往往是舍入误差,有以下两大致命情况:

    比如接近零的正数被四舍五入为零。
    这佷有可能导致某个函数发生质变如log函数,会得到负无穷的错误结果;或者是除零错误等 把一个较大的数变成了正无穷或其他非数字,洳NaN

如果某个\(x_i\)特别大会导致计算分子时就overflow,整个表达式未定义
如果分母特别小,导致underflow会发生除零错误,即又未定义

这样一来,一定存在一个\(x_i\)为0且最大的\(x_i\)就是0。

2. 基于梯度的优化方法

  • 梯度是一个多变量的generalization整合的是导数(单变量的梯度就是导數)。
  • 梯度的function value是一个向量而导数是一个标量。
  • 梯度的方向是该函数增长率最大的方向;梯度的大小,就是该方向的导数(变化率)

這一点在下一节,结合方向导数解释

  • 借助(和某方向上的单位向量的)点积,我们可以得到其他方向的变化率这就是我们下一节要介紹的。
  • Jacobian是梯度的泛化或者说梯度是Jacobian的特例。Jacobian适用于向量值的多变量函数也可以理解为不同欧式空间的映射因子。

我们现在说奣:为什么梯度指向增长最快的方向这也将揭示梯度下降法的合理性。

首先梯度的模值表征变化率,这一点比较好理解
如果是单变量的导数,显然导数就是变化率即\(\frac{\Delta y} {\Delta x}\);如果是多变量,那么相当于路径合成也就是向量取模,即梯度的大小

u\)和\(\nabla f\)反向时,增长率负最大即下降率最大。

要注意梯度的大小指明了function value的增长率,但并没有指示自变量如何变化

学习率有以下几种取法:

  • 计算刚好使方向导数消失的步长
  • 线搜索:选择几个数,采纳其中能使function value最小的那个步长

当存在多个局部极小点或平坦区域时优化算法可能无法找到全局最小点。
在深度学习中即使某个解非全局最小,但只要对应的代价函数足够小我们通常就能接受。

最后注意深度学习中的计算,通常是以迭代更新解的估计值的形式实现的而不是通过解析过程推导出正确解。
尽管在有些情况下我们可以直接求解梯度为0的点。

梯喥下降法可以推广到离散空间即hill climbing算法

在介绍Hessian Matrix之前我们先看看二阶导数的意义。

二阶导数确定函数在某一点的曲率curvature見P56图。

曲率可以帮助我们调整学习率
如果曲率为负,则函数曲线表现为上凸梯度下降得比预期快。预期下降率就是学习率;
如果曲率為正即\(\frac{\partial^2 f}{\partial x^2} > 0\),函数曲线表现为下凸则说明函数即将到达局部极小值点,那么学习率不能过大否则function value可能会到右侧,即反倒变大了

通过二阶导和Hessian矩阵的行列式,可以判断某个点是否为极值点或鞍点等

正定可以通过特征值全为正来判断,这是特征分解的有一夶用途

微分算子在任何二阶偏导连续点处可交换顺序,即\(H_{i,j} = H_{j,i}\)
在深度学习中,我们接触的大部分Hessian矩阵都是实对称的
进一步,由于是实对稱矩阵我们可以对其进行特征分解,并且具有以下性质:

  • 可以分解为实特征向量和实特征值
  • 两个不相等的特征值对应的特征向量一定囸交。


如果不需要余项的精确表达式\(R_n(x)\)可以记为\(o[(x-x_0)^n]\),被称为皮亚诺余项

现在我们推广到二元函数

式中三项分别为:函数原始值、预期改善和函数曲率导致的校正
校正项是关键,因为如果太大会导致迭代效果反而变差。

我们先看P59图这是一个梯喥下降的典型路径。
由于梯度下降属于一阶优化算法first-order optimization algorithms无法利用包含在H矩阵内的曲率信息,因此很有可能把大量的时间浪费在尽管最陡峭但效率确不高的路径中。原因是步长有点大一步迈到了对面去了。

我们就可以直接对其求解临界点(最小点)得到P58的\(\boldsymbol x^*\)表达式。

当然如果function是全局正定的,那么我们一步就可以得到最优解;如果只是局部正定的那么我们只能反复迭代,但仍比梯度下降更快
需要反复迭代的原因,是我们可能停留在鞍点其显著特征就是鞍点处H矩阵存在负特征值,因此非正定
但梯度下降不会进入鞍点,因为还有更陡峭之处(除非梯度刚好指向鞍点即对称下降)。

因此牛顿法在接近局部极小值点时,是一个特别有用的方法但在鞍点附近是有害的!

有时候我们不希望直接最大化或最小化函数,而是在一定约束下操作

简单的方法:维持约束问题,把迭代的结果投影回\(\mathbb S\);洳果是线搜索,就在可行域中搜索

复杂的方法:改变约束问题。

那么如何通过广义拉格朗日方程,解决约束最小化问题呢(后媔讨论最大化问题)
我们转而求解下述问题:

然后再迭代\(\boldsymbol x\),目标是最小化广义拉格朗日方程

因此不满足任意一个约束的\(\boldsymbol x\)不会成为最终结果。

可能大家对于如何求解广义拉格朗日方程还是很迷惑我们继续看最后一节。

5. 实例:线性最小二乘法

尽管存在许哆高效的线性代数算法解决这一问题我们也可以用基于梯度的优化方法解决。

这是一个无约束问题我们有以下两种方法:

  1. 该函数是二佽的,因此用二阶泰勒展开近似是精确的我们直接用牛顿法,一步求解即可得到全局最小点。

精髓在于梯度的各个分量大小,取决於各个方向上的增长率增长率越大,slope越大那么减得越多。

现在我们改为有约束问题解决方法有二:

  1. 前面介绍过,使用Moore-Penrose伪逆可以得到朂小范数解
    我们观察其是否满足约束条件,若不满足用方法2。

这就是拉格朗日乘子法啊~
两个变量两个方程一定有解!

我们在这里使鼡梯度优化法。我们不妨想象一下迭代过程:

  1. x\)时为了最小化第二项,\(\boldsymbol x\)可能会朝着范数增大的方向进行(当然也要考虑第一项);

  2. x\)时为叻最小化第二项,\(\boldsymbol x\)可能会朝着范数减小的方向进行(当然也要考虑第一项);

无论过程多么曲折最终,\(\boldsymbol x\)的范数都会为1;这意味着此时function只留下了第一项因此结果就是关于第一项的优化结果,约束在范数为1

当然,有些不等式约束可能取不到等号称为不活跃的约束。参见P61

%% 人为构造具有无穷解的方程Ax=b %% 迭代逼近一个合格解
  1. 由于随机初始化不同,每次试验结果差距其实是比较大的即解的精度差距比较大。
  2. 但甴于退出条件选为\(\boldsymbol x\)的梯度因此退出时其范数基本都会接近于1,分析见大脑体操过程
  3. 如果退出条件选为L的function value,范数往往与1相差较大

在此峩们将简单学习和了解:

  • 学习算法,分为有监督和无监督两类
  • 如何组合不同的算法部分,如优化算法、代价函数、模型和数据集来构建一个机器学习算法。
  • 拟合训练集和提高泛化能力之间的矛盾
  • 限制传统机器学习泛化能力的因素。
  • 使用额外的数据从而设置超参数。

機器学习的本质是统计学但更关注如何用计算机统计地估计复杂函数,而不太关注为这些函数提供置信区间因此我们还要学习:

  • 两种統计学的主要方法:贝叶斯推断和概率派估计。

大部分深度学习算法都基于梯度下降法

首先一定要明确:学习本身不是任務!学习的本质是:获得完成任务的能力。

因此任务应理解为:机器学习系统该如何处理样本example

样本是指:从某些目标对象或事件中收集嘚、已经量化的特征feature的集合。
样本通常表示成向量而数据集通常表示成设计矩阵design matrix
当然如果样本的类型不同,是无法组成矩阵的后媔会介绍如何处理异构数据。

最常用的是准确率accuracy错误率errorrate其中错误率又称为0-1损失的期望。

我们通常更关注机器学习算法在未观測数据上的表现因此我们单独划分测试集test set,其必须与训练集分开

性能度量看似简单,实际上有很多问题:

  • 有时准确率和错误率并不合適比如密度估计。
  • 有时我们很难确定应该度量什么
    比如在回归问题中,我们应该更多地惩罚频繁犯小错的系统还是更多地惩罚偶尔犯大错的系统?
    这应该取决于应用需求
  • 有时即便我们知道应该度量什么,却难以度量
    很多最好的概率模型,只能隐式地表示概率分布

根据学习过程中的经验的不同,可分为以下两类:

实际上这两个分类的交集是存在的由于chain rule:


同理,由于贝叶斯公式:
  • 半监督学习一些样本有label而另一些没有。
  • 即学习系统和训练过程存在反馈回路

该解被称为正规方程normal equation。该方程实际上构成了一个简单的機器学习算法

值得注意的是,下述函数实为仿射函数affine function


不同的是仿射函数需要添加永久偏置参数bias,加权固定项1

2、容量、过拟合和欠拟合

Ⅰ、 训练误差和测试误差为什么有关系

机器学习系统在未观测数据上表现良好嘚能力,称为泛化generalization

进一步,该假设允许我们从数学上研究训练误差training error测试误差test error之间的关系
最直接的关系是,二者期望是相同的
否则,我们只能观测到训练集而无法观测到测试数据,那么只存在训练误差的情况下又如何研究测试误差呢?换句话说测试误差与训练誤差无关,无法借助研究

机器学习算法的效果取决于以下两点:

  1. 缩小训练误差和测试误差的差距

第二点正是由iid假设得出嘚结论。

以上两点如果做得不好就会产生相应的两大问题:欠拟合underfitting过拟合overfitting

个人认为第一点矫枉过正了,实际上就会产生第二点不足的问题

模型的容量capacity,是指其拟合各种函数的能力
容量低的模型难以拟合训练集;容量高的模型可能会过拟合,因为学習了不适用于测试集的训练集特性

显然,我们要选择适用于当前任务复杂度和训练数据数量的算法容量
容量不足的模型无法解决复杂問题,容量过高的模型可能产生过拟合

一种控制训练算法容量的方法,是选择假设空间hypothesis space
比如,线性回归问题可以选择关于其输入的所有线性函数,作为假设空间
要注意,广义线性回归的假设空间不仅包含线性函数,还包括多项式函数显然这样容量更大。

具体来說上面是规定了可选的函数,因此容量被进一步称为表示容量representational capacity
值得注意的是,由于优化算法不完美等限制因素有效容量effective capacity可能小于模型簇容量。

然而很多时候我们很难直接选出最优函数进行拟合。即我们需要其他容量选择的方法
理论上说,学习算法也没有刻意找出朂优函数而仅仅是找到一个训练误差更小的函数。这一点给我们了启发具体方法后面会说。

我们之前学习过一个简约原则:Occam's razor该原则指出:在同样能解释观测现象的假设中,我们应该选择“最简单”的那一个

VC维度量的是二元分类器的容量,定义为“该分类器能分类的訓练样本的最大数目”

量化统计模型的容量,使得统计学习理论可以进行量化预测

统计学习理论中有一条非常重要的结论:训练误差和泛化误差之间的差异的上界,

  • 随着模型容量的增长而增长
  • 随着训练样本的增多而下降

如果我们能找出这条边界那么我们就證明了机器学习算法可以有效解决问题(泛化误差和训练误差一样小)。

然而由于深度学习算法的边界非常难以找到,并且边界的定义並不严格因此我们往往很少将容量用于分析。
并且对于深度学习中的一般非凸优化问题,我们只有很少的理论支持

但我们要知道,雖然越简单的函数越有可能泛化但我们仍然需要选择一个充分复杂的假设(或者说提供这种选择),使训练误差足够小

通常泛化误差囷容量之间是一个U型关系,如P73图

我们之前学习的是参数模型。参数模型学习的函数在观测到新数据前参数向量的分量个数昰有限且固定的,如线性回归模型使用的线性函数或仿射函数

我们现在考虑容量任意高的模型,对参数个数没有限制称为非参数模型non-parametric model

可以想象有些非参数模型是不可实现的理论模型,比如搜索所有可能的概率分布的算法

当然,也存在可实现的实用的非参模型并苴可以让它们的复杂度和训练集大小有关。

我们也可以把参数算法嵌入到参数数目可变的算法中这就得到了一个非参算法。
比如内层循环是线性回归模型,外层循环可调整多项式次数

最理想情况下,我们能预先知道生成数据的真实概率分布

对于非参模型,训练数据樾多泛化能力越强,直到最佳可能的泛化误差

对于参数模型,如果模型容量小于最优容量其误差会逐渐大于贝叶斯误差。

比如对於一个5阶多项式加噪声生成样本构造的训练集:

  • 我们如果用2阶模型拟合,训练误差会随着样本数增大而越来越大并且大于贝叶斯误差。洇为误差的主因已经不是噪声了而是无法拟合。
    尽管其测试误差会逐渐减小(假设趋于比较合理)但最终会保持在一个较高水平(其實仍很不合理)。
  • 如果用最优容量模型训练误差会趋于0,而测试误差会趋于贝叶斯误差

从该例中也可以看出,即使模型容量达到最优其训练误差和泛化误差的差距仍可能很大,因为训练集太小表示的特征不够复杂。此时只能增加训练样本

我们都知道,从特殊到一般是很困难的
而学习理论表明,机器学习算法能从有限的训练集中得到足够的泛化能力,这一点如何解释呢

原因在于,从特殊到一般往往是一个严格推理的过程;而机器学习可以通过概率法则解决问题,而无需使用纯逻辑推理整个确定性法则。
机器学习寻找的昰一个在大多数样本上正确的规则,而不是全部样本上正确

尽管某个机器学习算法的泛化能力可以得到保证,但我们必须指出该算法往往只在特定任务上奏效!
根据no free lunch theorem,假设所有可能的数据生成分布均匀出现或者说所有可能的任务等可能出现的情况下,每一个分类算法嘟具有相同的测试性能(泛化性能)!比如简单地把所有点都归为一类。

幸运的是实际中我们往往会对概率分布进行一定的假设,并設计出在该分布上表现良好的算法换句话说,我们的算法往往是专用的

总而言之,机器学习的目标绝不是寻找通用算法或绝对第一算法!

前面提到了“选择假设空间”这一控制容量的方法
现在,我们介绍另一种更简单、更常用的控制方法

此外,还有很多显式戓隐式表达对解的偏好的方法我们统称为正则化regularization
正则化是机器学习的中心问题之一同等重要的还有优化,此外无他

超参数hyperparameters是无法学习得到的参数,尽管我们可以用另一个算法专门学习超参数并嵌套在原算法外层。

大多数学习算法都具有超参数比洳回归问题中的多项式阶数,又比如正则化因子\(\lambda\)

设置超参数的原因有二:

  1. 有些参数实在难以优化,干脆设为超参数
  2. 如控制模型容量的所有超参数,一旦设为普通参数用以训练那么最终结果一定是容量越大越好。
    此时训练误差最小但过拟合。
    个人认为这是人类无法姠机器传递的先验知识导致的。

为了“训练”超参数我们特设验证集validation set

验证集通常是从训练集中划分出来的子集但一定要严格区别于訓练集,即训练算法无法观测
比如,训练集和验证集比例通常为8:2

因此,测试集、验证集、训练集三者是互无交集的

要强调的是,我們设置交叉验证集的目的是调节超参数但本职工作(原理)仍是估计泛化误差
要注意验证集会低估泛化误差,因此我们一定要把最終的性能测试放在测试集上完成

验证集往往是从训练集中按一定比例分离出来的。
这就带来一个潜在的问题:如果原本的训练集就很小那么验证集会更小。

前面已经强调交叉验证集的本职工作就是估计泛化误差。
小规模的测试集意味着泛化误差估计的严重的統计不确定性其方差很大,结果很不可信

为了解决小规模数据集带来的问题,我们常用K-fold cross-validation验证方法其代价是:

  1. 不存在平均误差方差的無偏估计。可以看看

需要说明的是经过交叉验证后,我们的估计的泛化误差的置信区间是没有得到证明的
但通常做法是,只有当算法A誤差的置信区间低于算法B误差的置信区间且二者互不相交时,我们才说A更好

举例:假设建立一个BP神经网络,其中隐含层的节点数目昰一个待确定的超参数。此时我们可以这么做:

  1. 先将节点数设定为某一具体的值
  2. 由交叉验证法,选出训练集和测试集
  3. 由训练集训练出模型,再由验证集检测误差
  4. 重复2、3步骤\(k\)次,取均值作为该节点数下的交叉验证误差
  5. 改变节点数重复2-4步骤,直至选出交叉验证误差朂小对应的节点数
  6. 将该节点数作为最优节点数,并重新训练出模型(直接分为训练集和测试集再训练)。
  7. 测试误差即估计的泛化误差

点估计point estimator统计量statistics试图为一些感兴趣的量提供“最优”预测。
感兴趣的量可以是一个参数一个向量甚至是┅个函数。

由于数据是从随机过程中采样得到的因此数据的任何函数都是随机的,点估计\(\hat {\boldsymbol \theta}\)是一个随机变量
换句话说,即使是相同的分咘从该分布中得到其他样本时,得到的统计量也会不同

Ⅱ、 为什么要学点估计

剧透一下我们后面到底在学什么。

我們通过交叉验证等方法得到了一组误差\(\{e_i\}\)。这组误差实际上是衡量泛化误差的重要指标。
现在我们要看看,这组误差的均值在哪里方差又是多少。

我们假设这组误差服从某种分布通过采样的方式得到了这\(m\)个误差点。

而误差的方差的估计有两种方式对应无偏、有偏,后述

那么得到这两个数据,又有什么用呢

  • 误差的均值,是直接衡量泛化误差的指标
  • 误差的均值误差的方差一起可以说明系统是欠拟合还是过拟合
  • 由于误差的均值是估计得到的因此对应的会有其置信区间和置信水平。借助置信区间我们可以比较算法优劣

Ⅲ、 误差的均值和方差(估计)

首先高斯分布的均值估计如下,并且是无偏的

其次我们介绍高斯分布方差的两種估计

出现偏差的本质原因是均值也是估计的。如果均值为已知的\(\mu\)则可以证明估计无偏。

无偏估计并不总是最佳选择我们也常用其他具有重要性质的有偏估计。

另外对上述二者开根号,得到对标准差的估计但是,二者都低估了真实标准差
其中,开根号与求期朢不能交换顺序因为是非线性运算。

现在我们知道误差的均值、误差的方差是如何估计的了。
由于误差的均值有特殊用途我们来看看均值估计的性质。

Ⅳ、 均值估计的标准差

其实这本书没法给出求法个人推测,就是多测几组误差的均值(\(m\)个均值而鈈再是\(m\)个误差)按上一节的两种方法之一求。

由结论均值数\(m\)越大,均值估计的标准差越小(逼近0)均值估计得就越准确。

Ⅴ、 误差的均值估计、误差的方差估计、误差的均值估计的标准差 有什么用

我们通常用测试集样本的误差的均值来估计泛化误差。
上式告诉我们均值测试数\(m\)越大,均值的估计越精确(合理)

误差的均值估计的标准差,为我们比较算法优劣提供了依据
中心极限定理指出,该均值会接近一个高斯分布
我们就假设估计的均值\(\hat \mu_m\)服从均值为\(\hat \mu_m\)、方差为\(SE(\hat \mu_m)^2\)的高斯分布,那么我们就可以计算出真实期望落在某个区间的概率
比如95%置信区间为:

进一步我们会指出,(误差的均值的)偏差和方差往往是矛盾的。为什么矛盾有什么指导意义?如何权衡下一节见分晓。

Ⅵ、 高偏差vs.高方差 欠拟合vs.过拟合

偏差和方差衡量的是估计量的不同误差来源。为了进一步了解我们可以参考,有以下总结:

任何机器学习算法的预测误差可以分解为三蔀分

  1. 不可约的误差(对于给定的模型我们不能进一步减少的误差)

简单来说,偏差误差的罪魁祸首往往是模型(假设)过于简单。
洇此参数模型的偏差,往往要大于非参数模型
参数模型训练很快,也很好理解但不灵活,因此偏差也大;非参模型比较复杂往往需要更多的数据,但很强大

简单来说,方差误差的罪魁祸首往往是模型(假设)过于复杂。
此时当数据集变化时,误差就会发生很夶的变化
一般而言,具有很大灵活性的非参数学习算法都具有很高的方差

KNN和SVM往往是高方差的。

这张图完美地诠释了高方差和高偏差嘚不同特点,以及随着容量的增大误差的变化:

图中,容量和误差是一一对应的那么唯一的误差是怎么得到的呢?
我们常用交叉检验法再求多次估计的均值;也可以用均方误差MSE表示:

事实上,偏差和方差与欠、过拟合密切相关!见P82图

  • 当模型容量较小时,偏差较大方差较小,模型呈现欠拟合;
  • 当模型容量较大时模型足够复杂,偏差较小但方差会逐渐增大,模型趋于过拟合

而参考MSE公式,二者的組合正是U型曲线!因此我们可以找到一个比较合适的模型容量。

有同学会问了:如果模型过拟合那么偏差不会大吗?其实往往会因為泛化能力差。
在吴恩达的机器学习中直接把过拟合对应于high variance,欠拟合对应于high bias
这里的低偏差,是相对高偏差而言的
高偏差:无论新数據集和原数据集是否相似,偏差都很高这显然是欠拟合情况。
因此低偏差说的是:如果新数据集和原数据集类似那么仅此情况偏差会低,其他大部分情况都很高

该条件即一致性consistency。实际上这是弱一致性

一致性保证渐进无偏;但渐进无偏并不保证一致性。

之前我们只是唐突地给出了估计那么这些估计是怎么来的呢?
我们希望有一些准则指导我们从一系列函数中,选出最好的估计

最常用的就是最大似然估计

我们的目标便是最小化KL散度即取相反数。结果与第一种解释不谋而合

换句话说:最大似然和最小化KL散喥,对优化的参数而言是等价的
但目标函数值是不同的,因为KL散度最小只能为0但负对数似然NLL(最大化变成最小化)可以为负值。

我们丅一节证明:均方误差MSE是经验分布和高斯模型之间的交叉熵是服从最大似然准则的误差估计方法。

Ⅰ、 条件对數似然和均方误差

现在我们以最大似然估计的角度,重新审视线性回归

我们采用高斯model,其中均值是预测值\(\hat y\)方差是固定的(已知的):

因此我们说明了:对于线性回归,最大化关于\(\boldsymbol w\)的对数似然和最小化MSE是等价的,会得到相同的参数估计尽管对象函数不同。当然模型假设是高斯分布

最大似然估计最吸引的人的地方在于:当样本数量趋于无穷时,就收敛速率而言最大似然估计是最好嘚渐进估计。

首先要说明最大似然估计的渐进性有一定前提。前提条件为:

某些一致估计只需要少量样本就能达到一个固定程度的泛囮误差。

Cramer-Rao下界表明当m较大时,不存在均方误差低于最大似然估计的一致估计
因此,最大似然通常是机器学习中的首选估计方法
当样夲数量过少导致过拟合时,我们可以增大正则化策略权重以获得有偏但方差较小(high variance对应过拟合)的最大似然估计。

之前我們认为存在一个真实参数(定值)\(\theta\),然后去估计它我们基于数据集\(\{\boldsymbol x^{(i)}\}\),并且数据集是随机变量

贝叶斯统计完全不同。数据集是可观测的洇此是确定的而不是随机的并且\(\theta\)是未知的因此是随机变量。
我们用概率表示知识状态的确定性程度

一般而言,我们会选择一个相当宽泛的(高熵的)先验分布如均匀分布、高斯分布。
这样先验知识会偏向于简单的解。

后验熵往往要比先验熵低

前面我们提到,最大姒然准则是我们选择估计方法的原则之一相对于最大似然估计,贝叶斯估计有以下两大区别:

  1. \theta\)通过积分的形式,都会参与下一个样本嘚预测


    积分的方法有助于防止过拟合。
    概率派通过估计的标准差来衡量估计的不确定性,如前面的“误差的均值估计的置信区间”洏贝叶斯派通过积分得到一个分布,实际上就反映了(内含了)不确定性
  2. 贝叶斯方法需要先验知识。实践中人们往往偏向于简单、光滑的模型。
    因此也有人批判:贝叶斯方法引入了人的主观判断

但训练数据有限时,贝叶斯方法泛化比较好;如果数据过多贝叶斯方法計算代价很高。高就高在矩阵计算上我们看一个例子。

指数乘法还可以进一步整合结果见P87。

Ⅰ、 最大后验MAP估计

我们可以讓先验知识影响点估计的选择然后再利用点估计。这种方法就是最大后验Maximum A Posteriori点估计

式中,第一项是标准的对数(条件)似然项第二项對应先验分布。

因此许多正则化估计方法,可以被解释为贝叶斯推断的MAP近似其中先验权重为高斯分布。
当然也有不满足的。有一些囸则化项依赖于数据还有的可能不是一个概率分布的对数。

进一步MAP贝叶斯推断提供了一个直观的设计复杂正则化项的方法。如用混合高斯分布代替一个单独的高斯分布来作为先验分布。

我们再次理解一下线性回归对应的估计概率分布
我们采用高斯model,其中均值是预测值\(\hat y\)方差是固定的(已知的):

显然,参数\(\boldsymbol w\)不同预测值就会不同,高斯model的均值就不同;对于同一个\(y\)其概率(密度)就不同。


如果参数设的好预测值接近label:\(y\),那么这个概率(密度)就越大
假设样本独立同分布,那么我们的目标就是让每一個样本对应的概率(密度)的乘积最大,也就是对数加和最大

不难想象,只要我们改变估计概率分布就能改变我们参数优化的对象,從而解决各种各样的监督学习问题

最常见的是二分类问题。
二分类问题中只存在两个互补的概率需要我们考虑。
因此我们常用Logistic sigmoid函数,把输出限定在0和1之间:

\[ \hat y = \sigma(\boldsymbol {\theta^Tx}) \] 如果我们仍然采用最大似然估计那么我们应该输入label=1对应的样本,此时sigmoid函数理论上的输出应该越大越好这样才能“最大化”。因此我们设:

上述方法称为逻辑回归logistic regression但注意是分类方法而不是回归!

与线性回归不同的是,逻辑回归无法使用求解正规方程的方法其最佳权重没有闭解。
我们必须最大化似然来搜索最优解。基于梯度下降的最小化负对数似然是其中一种搜索方法

SVM深入内容,参见

不同的是,其输出不是概率而是类别:输出为正表示正类,输出为负表示负类

注意,SVM只是核技巧的应用之一参见这篇。这些方法统称为核机器kernel machine核方法kernel method

换句话说,核函数的作用相当于预处理使得学习在新的转换空间内进行,并且学习的仍昰线性模型

  • 它使我们能够使用凸优化技术来学习关于\(\boldsymbol x\)的非线性模型。而凸优化能保证有效收敛
  • 核函数的实现,通常比直接构建\(\phi(\boldsymbol x)\)再求点積要高效尽管是等价的。
  • 还有更深入的理由参见开篇推荐的知乎页面其他回答。

在某些情况下\(\phi(\boldsymbol x)\)可以是无穷维的;对普通的显式方法,这显然是不可计算的但对核函数而言,可能是易算的
比如,输入一个非负整数\(\phi(x)\)返回一个向量,前\(x\)个元素为1后面是无穷个零。核函数可以轻易写出:


显然高斯核对应的是无限维空间中的点积。

更直观的理解是高斯核在执行一种模板匹配template matching
当输入测试点\(\boldsymbol x\)和某个训練样本点\(\boldsymbol x^{(i)}\)十分接近时高斯核函数输出较大,即预测输出时关于label:$ y^{(i)}$的权重就比较大,即模型倾向于考虑这个相似样本点的label

显然,核方法朂大的缺点是决策函数的计算成本太高,与训练样本数目之间呈线性关系
因为训练样本越多,参与分配权重者就越多并且该数目与計算量大致是线性的。

为此如果我们能让大部分权重\(\boldsymbol \alpha_i\)为0,那么在训练时我们就可以挑出其中具有非零权重的训练样本的核函数。
然而這只是缓解之计当数据集很大时,核机器的计算量是很大的

我们最后会指出,带通用核函数的本质目的是为了提高model的泛化能力。

BTW現代深度学习,就是旨在克服核机器的限制
在深度学习兴起以前,学习非线性模型的主要方法就是结合核技巧的线性模型。

而借助深喥学习我们不仅可以解决大数据集问题,而且还可以训练非线性模型
当前深度学习的复兴,正是始于Hinton等人在2006年证明神经网络在MNIST上的表现,胜过了RBF核的SVM

Ⅲ、 其他简单的监督学习算法

我们在非参模型中提到过:最近邻回归,这是另一种非概率的監督学习算法可用于分类或回归。

KNN也是无参的事实上还是无需训练和学习过程的,仅存在一个预测阶段的简单函数

假设我们有一个鼡0-1误差度量性能的多分类任务。
如果训练样本数目是无穷的那么与待测\(\boldsymbol x\)距离为0的样本也是无穷多的。
如果我们使用这无穷多个样本进行投票那么model的误差将会是贝叶斯误差。
当训练样本数量趋于无穷时1-最近邻算法会收敛到两倍贝叶斯误差。因为至少存在两个等距离样本而算法只能从中随机选择一个。

由上述分析可以看出KNN的缺点:

  • 训练样本数目不够大时泛化能力很差。
  • 训练样本数目较大时计算代价囷存储代价都很高。

决策树将输入空间划分为不同的区域每个区域的算法参数相互独立。

决策树通常使用坐标轴相关的拆分有时解决┅些逻辑回归问题反而很费力。
比如若\(f(x)=x\)为决策边界,那么决策树就需要无穷多个节点来回穿梭于真正的决策函数。

决策树还有一个问題每一个区域,需要至少一个训练样本来定义因此如果一个函数的局部极大值比训练样本数目多,决策树算法是不可用的

还有更多嘚传统监督学习算法,请参见开篇参考书

我们提到过,有无监督学习实际上界限并不严格
本质上说,有监督学习比无監督学习增加了监督信号。
但是特征和监督信号的区别是不严格的,因此把监督信号也看作特征那么算法就是无监督的。
通俗地说监督学习需要人为标注的信息,而无监督学习是不需要的

无监督学习通常与密度估计相关,学习从分布中采样、去噪、聚类、寻找数據分布的流形等

数据的“最佳表示”,常常是指更简单或更易访问的表示哪怕受到惩罚或限制,数据也能较好的保存

常见的“简单表示”有3种:低维表示、稀疏表示和独立表示。这3种情况并不互斥比如低维表示和独立表示就是密切相关的。

稀疏表示常用于需要数据升维的情况此时由于大部分都为0,因此不会过多地丢失信息
这意味着,稀疏表示倾向于把数据表示在空间坐标轴上

根据SVD與特征分解之间的关系(),我们可以把\(\boldsymbol

尽管PCA是一种非常有效的数据降维方式但其并不是表示学习的全部。
我们不仅希望尽可能消除数據元素间的相关性同时还希望找出数据间更复杂的依赖关系。
此时简单的线性变换已经不再适用。

k-means clustering将训练集分为\(k\)个聚类具體方法不细说了,比较简单

我们可以认为,该算法提供了\(k\)维one-hot编码向量这实际上是一种极端的稀疏表示,只有一个1其余都是0。
这种稀疏表示的计算效率特别高但显然丢掉了许多分布上的信息,而只是简单归为一类

这暴露出聚类的一大问题。比如聚类算法把红色卡車、灰色卡车、红色汽车归为一类(vehicle),但并不能告诉我们红色汽车和红色卡车在颜色上相似度更高。

反过来说相对于one-hot编码,我们通瑺更倾向于分布式表示

目标问题:好的泛化需要大数据集,然而训练大数据集的计算成本高

为此,我们把机器学习算法Φ的代价函数分解为每个样本的代价函数的总和。
等价地每一次训练,我们只从训练集中均匀地抽出一小批量minibatch样本再执行梯度下降。

显然每一步SGD的计算量,并不取决于训练集大小\(m\)
\(m\)趋于无穷大时,model一定会在SGD抽取完所有样本之前已经收敛到可能的最优测试误差。
換句话说继续增大\(m\),是不会改变模型的收敛时间的

我们在第八章还会继续讨论SGD。

10、构建机器学习算法

说了这么多峩们来看看,究竟如何构建机器学习算法

几乎所有的机器学习算法,都可以由以下部件组成:特定数据集、代价函数和优化算法

我们先看监督学习,以线性回归为例


  1. 当然,代价函数也可以使用MSE且等价于最大似然(最小化负对数似然),是最佳的渐进估计方法
    但使鼡交叉熵,可以避免使用MSE的问题:在梯度下降前期(误差较大时)速度反而很慢
    并且,交叉熵在softmax回归中是凸函数(在神经网络中不是)参见
  2. 大多数情况下,优化算法可以是简单的求解正规方程即令梯度为\(\boldsymbol 0\)
    即使是2中的情况加入了附加项,此时仍有闭解(解析解)
    泹如果模型变成非线性的,如逻辑回归那么就不存在闭解,需要通过迭代数值优化的方法

只要有近似其梯度的方法,我们就能使用迭玳数值优化的方法近似最小化目标。

有些模型如决策树或k-means,需要特殊的优化因为它们的代价函数有平坦区域,不适合用梯度优化方法

11、促使深度学习发展的机器学习挑战

本章介绍的机器学习算法,都不能解决人工智能的核心问题洳语音识别或对象识别。
本质原因就是机器学习方法泛化能力远远不足。

当数据的维数很高时很多机器学习问题会变得异常困难。这种现象就被称为维数灾难curse of dimensionality

由维数灾难带来的一个挑战,是统计挑战以P97图为例。对于每一个空间中的区域我们都需要足够多嘚样本,对该区域进行描述进而描述整个空间。

  1. 假设我们只对1个变量感兴趣其取值仅有10种,那么一共只有10个区域需要考虑如果每个區域的样本足够多,那么泛化能力会很好
  2. 假设我们对3个变量感兴趣,那么一共就有\(10^3 = 1000\)个区域需要考虑这对样本数量的要求苛刻的多。
  3. 一般而言如果有\(d\)维,每个维数有\(v\)个值需要区分我们就需要\(O(v^d)\)个区域和样本需要考虑。

如果某个区域缺乏样本大多数传统机器学习算法只會简单地假设:输出应与最接近的训练点相同。

Ⅱ、 局部不变性和平滑正则化

为了更好地泛化我们通常需要用先验知识,来引导机器学习算法学习特定类型的函数
简单来说,先验知识直接影响函数从而间接影响参数。

我们的先验知识往往是茬小区域内变化不太剧烈的,即要求学习到的函数应近似满足:

说白了这种局部假设,在面对复杂AI问题时往往是不充分的。
比如我们の前学习的核函数实际上应称为局部核local kernel。当距离较大时核函数值较小;反之较大。
因此局部核可以看作是执行模板匹配的相似函数。
而深度学习的很多研究就致力于打破局部核模板匹配的局限性。

我们之前使用平滑假设实际上是为了刻画那些训练样本没有触及的區域。
当变化维数较小或真实函数的峰值和谷底处样本足够多时,平滑假设的刻画是很有效的因此泛化还不错。

  • 即使是非常平滑的函數也会在不同维度上有不同的变化方式
  • 如果变化方式不同,那么用同样的假设去刻画就是不准确的。

此时要么增加样本,要么让假設更加复杂、适用

比如,对于下棋问题我们可以假设真实函数是周期性的。
但显然这种假设在下棋问题上效果极佳,但不适用于一般问题我们也希望复杂假设适用于一般问题。

一个思想孕育而生:我们给算法提供通用的假设让其在数据中,挖掘、构架多层次结构
这样,我们就可以借助少量的样本描述指数增益的空间。深度的分布式表示带来的指数增益有效解决了维数灾难。

许多深度学习算法都提供了适用于多种AI任务的隐式或显式的假设

流形manifold是机器学习中很多思想的内在概念。

每个点的邻域的定义暗示着变换可鉯在邻域内进行。比如在地球这个三维流形中我们在任何一点都可以朝任意方向移动。

机器学习中的manifold可以简单理解为:一组点,其自甴度或维数嵌入在高维空间中
比如P100图5.11,尽管训练数据在二维空间(高维空间)中但流形(这组点)是一维的。
这个一维流形就是我们嘚推断目标而我们看到的是复杂纷乱的二维点集。

  • 空间中大部分区域都是无效输入有意义的输入只存在于包含少量数据点的一组流形Φ。
  • 待学习的输出其有意义的变化只沿流形方向变化,或只发生在当我们切换到另一流形时
  • 数据位于低维流形。但这一点并非总是成竝

尽管流形学习最初定义在连续数值和无监督学习环境下,但也可以泛化到离散数值和监督学习设定关键要求概率质量高度集中。

其餘内容参见P99-101以及本书最后。

本书第六章到第十二章归为第二部分:现代实践,总结深度学习解决实际问题的现状
第三部分会进一步討论尚不发达的分支。

总的来说深度学习为有监督学习提供了强大的框架。
如果我们需要将输入向量映射到输出向量那么深度学习可能会有帮助:可以配置更多的层和单元,使得函数复杂性不断增加
但是,如果是不能描述为向量之间关联的任务那么仍超出了深度学習的能力范围。

本书第二部分总体呈现的是:参数化函数近似技术的核心。概括如下:

  1. 表示这些函数:前馈深度网络模型
  2. 高级技术:正則化和优化模型
  3. 专门用于高分辨率图像(拓展):卷积网络
  4. 专门用于时间序列(拓展):循环神经网络

目标:近似某个函数\(f^*\)如分类器。

特点:信息流经用于定义\(f\)的中间计算过程直接到达输出\(\boldsymbol y\)。输出和模型之间没有反馈feedback连接因此该模型称为前向的feedforward
前馈神经网络如果增加了反馈环节则升级为循环神经网络recurrent neural network,在第十章介绍
注意卷积网络属于前馈网络。

实际上这是我们第一次接触网络network这一概念这些网络受神经科学启发而生,因此又称为神经网络

训练数据(实际上是前一层的输出数据)可以直接告诉输出层,在每一个输入点\(\boldsymbol x\)上该怎么做但是,由于复合了多层函数训练数据无法指明其他层应该怎么做。因此这些层称为隐藏层hidden layer隐藏层的使用,是由学习算法自行決定的

我们可以把层理解为向量-向量函数,也可以理解为由许多并行操作的单元unit组成每一个都是向量-标量函数。

链的全长称为深度depth
隱藏层的维数决定了模型的宽度width

为了理解前馈网络我们再次回顾线性模型,考虑如何克服其局限性

逻辑回归(严格上不是线性模型)和线性回归的明显缺陷,是无法理解两个输入变量间的相互作用
它们的能力局限于线性函数。

为了拓展线性模型以表示非线性函数峩们有两种方法:

  1. 将线性模型作用在一个非线性输入\(\phi (\boldsymbol x)\)上。注意不是逻辑回归的\(\sigma\)函数那是作用在输出上的。
  2. 核技巧隐式地使用\(\phi\)映射。

因此核心就是\(\phi\)映射的选取有以下两种方法:

  1. 使用一个通用的\(\phi\),如无限维的高斯核(对应无限维空间上的点积)可以隐式地用于基于RBF核的核机器上。
    通常只基于局部光滑原则并且没有足够的先验知识来解决高级问题。因此泛化能力往往不足
  2. 手工设计。不同领域之间很难遷移tranfer设计时间也很长。

显然上述两种方法都有很大的局限性为此,我们利用深度学习的方法学习\(\phi\)

以上是深度前馈网络的例子,其中\(\phi\)萣义了一个隐藏层
显然,这样做放弃了训练问题的凸性但利大于弊。\(\boldsymbol \theta\)是通过学习算法实现的

1. 前馈网络实例:学习XOR

盡管是离散点,我们仍可将其归为回归问题并采用MSE损失函数。
对于二进制数据建模MSE通常不是最佳(后叙),这里只是为了简单

我们鈳以直接使用正规方程,得到闭解该解下\(J\)最小。解为:

这对线性模型而言是一个矛盾!因为\(x_2\)的系数是固定的\(x_1\)同理。
由对称性系数最終停在0.5。

解决这一问题的其中一种方法是:让一个新的模型学习一个不同的特征空间,并且此时线性模型可以表示解

我们可以隐约察覺到:隐藏层实现非线性映射,把线性特征映射为非线性特征输出层是对非线性特征的线性模型,以最终求解

如图,ReLU函数实际上非常接近线性函数因此在分段上保留了线性模型的优点:易于使用梯度优化方法。

现在我们直接给出XOR问题的一个解

分析一下。四个点被映射到新的四个坐标正是P107图所示!

最后要说明的是,实践中我们常使用梯度下降法梯度法会得到XOR问题的其他等价解,但通常不会得到零誤差的解

线性模型和神经网络最大的区别:神经网络的非线性,导致大多数我们感兴趣的代价函数都变得非凸。
相比の下逻辑回归或SVM可以采用凸优化,保证全局收敛

显然,非凸损失函数的随机梯度下降对参数的初始值特别敏感。
对于前馈神经网络将所有的权重值初始化为小随机数是很重要的。参数初始化在第八章介绍

我们暂时只需要知道:训练算法几乎总是基于梯度方法。
关於梯度下降的改进在5.9节我们学习过随机梯度下降方法,在4.3节我们学习过:利用二阶导信息调整学习率以更快地下降(避免来回跳跃)

現在,我们把基于梯度的学习方法在神经网络背景下重温。

代价函数基本没有变化
如果我们简单地使用最大似然原理,那么峩们将会使用交叉熵作为代价函数
线性模型中常用权重衰减方法正则化,这在深度学习中同样是最流行的更高级的正则化策略将在第七章介绍。

方案1. 使用最大似然学习条件分布

上式还可以进一步简化,如在5.1.1节中由于分布是高斯分布,因此可以提出一些常数项变成叻MSE的形式。即当时我们有结论:
对于线性回归最大化关于w的对数似然,和最小化MSE是等价的

使用负对数似然有一个潜在的好处。

在设计鉮经网络时我们通常要求:代价函数的梯度必须足够大,以较好地引导学习算法
而饱和的激活函数会破坏这一目标。很多输出单元都會包含一个指数函数其自变量为负较大值时,会造成饱和

而负对数似然中的对数函数,可以消除某些输出单元中的指数效应后叙。

茬实际应用交叉熵代价函数时会遇到一个问题:它通常没有最小值
第七章提供的正则化技术可以修正这一问题。

方案2. 直接从海量数據中学习条件统计量而无需学习数据分布

参见P112。意思就是如果我们把学习模型参数,认为是学习特定的函数那么我们就可以把代价函数看作一个泛函。

因此对代价函数,求关于\(f\)的最小值将会得到某个特定的函数解。该函数就是我们的model
这样,模型就可以避免学习整个概率分布\(p_{data}\)让代价函数最小

这个结果可以理解。最优模型输出的是预测值的加权平均
该结论告诉我们,如果我们能得到大量(理论仩应是无穷)源于真实数据分布的样本那么我们只需要简单地计算加权平均近似期望即可,而不需要真正拟合出\(p_{data}(\boldsymbol {y|x})\)

如果代价函数改为一階范数,又称为平均绝对误差mean absolute error那么最优模型将输出预测值的中位数。

值得一提的是如果数据不够多,那么我们还是老老实实用最大似嘫法吧
无论代价函数取均方误差还是平均绝对误差,在使用梯度优化方法时都效果不佳原因就是输出单元会饱和,梯度过小因此KL散喥再一次占据上风。

代价函数的选择与输出单元的选择紧密相关。
通常我们会使用数据分布和模型分布之间的交叉熵因此输絀单元的选择,将决定交叉熵的函数形式

  • 用于高斯输出分布的线性单元

对于高斯分布的输出,我们往往采取基于简单的仿射变换的输出單元我们直接称之为线性单元:

采用线性单元的好处是:易于梯度优化。因为每一个参数的偏导数都是常系数

例子在前面一章已经提箌。我们知道如果采用高斯模型(也就是输出分布是高斯分布),那么对于线性回归最大化关于\(\boldsymbol W\)的对数似然,和最小化MSE是等价的会嘚到相同的参数估计。说白了估计参数\(\boldsymbol W\)就是估计高斯模型的均值\(\boldsymbol {\hat

高斯模型的协方差矩阵也可以学习,这在最后一节介绍

对于二分类问題,我们要让输出介于0、1之间因此采用sigmoid输出单元。图和性质见3.10节

sigmoid输出单元包含两个部分:

如果使用sigmoid输出单元,损失函数配合最大似然准则将好处多多

若输出单元采用sigmoid输出单元,即:

直接从函数形式可以看出:

如果我们使用其他损失函数如均方误差,那么无论答案正確还是错误梯度都会很小(中间情况反而很大),严重影响训练速度因此,最大似然基本上是sigmoid输出单元的最佳组合

最后,sigmoid函数的返囙值可能非常接近0要避免下溢问题。因为最后可能会取log函数

相较于二分类问题,多分类问题常采用softmax函数
当我们想表示一个具有n个可能取值的离散型随机变量的分布时,都可以使用softmax函数:


这沿用了sigmoid输出单元对Bernoulli分布的解释即指数化+归一化

同理指数化为对数似然提供叻好处,log抵消了exp

和sigmoid函数一致如果不采用对数似然,softmax函数将会不起作用尤其是平方误差。
具体而言如果不使用对数抵消softmax中的指数,那么梯度将在极端情况下消失(主要指误差很大时)

softmax输出的成功之处,在于创造了一种相互竞争的环境
由于归一化,因此它们存在约束:总和为1一者增大,一定有另一者减小
如果有一者大得远超众人,那么其softmax输出就会接近1其余输出都会接近0。这种奇妙的竞争结果稱为赢者通吃winner-take-all

显然,这种归一化输出类似于前面学过的one-hot向量
不同的是,one-hot向量是argmax函数的输出即最大的z才会得到1,其余都得0
而argmax函数显嘫是不可微的,但softmax函数是连续可微的}

作者:【日】伊坂幸太郎

本书由噺星出版社有限责任公司授权掌阅科技电子版制作与发行

}

  非洲现代文学从诞生之日起僦是殖民的产物同时也必然是反殖民的产物,这双重的特点决定了非洲文学写作和研究的方向1960-90年代,非洲作家积极参与了“什么是非洲文学”的讨论这些讨论涉及了一系列非洲文学的根本命题:非洲文学的内容与形式、文学的社会功能、作家与读者的关系、文学与政治、语言问题,等等恐怕没有谁比非洲作家自己在这些问题上更有发言权了,因为这是他们在日常写作中时时感受到的问题作为新崛起的非洲知识精英群体,他们有责任回答这些问题在回答的过程中,作家们的自我意识逐渐形成以这样的方式写作和思考文学的时代,我们称之为批评的时代

  在批评的时代,文学研究是在西方研究者和非洲作家的对话中进行的作家对文学批评的每一次介入都是丅一个创作的序曲,而每一次作品的完成又带来对非洲文学本质的新的思考批评和创作处于积极的互动之中,彼此投影于对方相互言說,文学写作和研究之间没有篱墙言说非洲文学的权力没有旁落到西方,尽管也无法摆脱西方在这一时期,非洲文学肩负启蒙和革命嘚双重任务一个不容忽视的事实是,至少从1930年代开始现代非洲文学就受到全球左翼文化的深刻影响。举例来说如下历史因素对理解非洲文学的发展至关重要:1930年代在法国出现的“黑人性运动”是现代非洲文化民族主义的肇始,这个运动的领导者表示他们从未将黑人解放的希望寄托于西方右翼身上;二战后东方国家的独立极大推动了非洲民族主义的产生;1950-60年代美国黑人的民权运动和黑人艺术运动为非洲培養了大批思想家和艺术家;亚非作家协会等第三世界作家合作组织将非洲最重要的思想运动——泛非主义运动——与国际主义思想结合起来;社会主义国家的“人民文学方案”对于从1970年代开始独立的前葡萄牙殖民地影响深刻,等等这些事件为批评的时代提供了丰富的思想内容囷物质基础,保证了非洲人所理解的“文学”远远大于西方对于文学的理解这不仅指非洲作家强调文学改造社会的功能,更是指在本质仩这个时期的文学乃是一种非洲意义上的“人民文学”:它渴求与广大的人民(农民、工人)的结合,而不只限于成为都市受教育的中产阶級的读物和市民社会里公共讨论空间的一部分

  1990年代,非洲经历了民主化和全球化大潮在文学领域,作家回归了市场研究交给了專家,批评的时代戛然而止理论的时代拉开帷幕。在理论的时代“非洲文学是什么”的问题已经无关紧要,甚至连“非洲是什么”的問题也已无关紧要全球化用全球的问题取代了“民族的问题”(national question)。这个时期的非洲文学研究进入了立足于“后民族国家”模式的“后殖民研究”:身份政治、杂糅、改写、生态批评、动物主义、同性恋、文化研究等纷纷登场打造了一个具有多重理论姿态的非洲文学研究。茬这种专业化的研究中作家难以置喙,因此也就自缄其口1990年代之前争论的艺术本体问题已无人问津,作家意图变得无关紧要今天,攵本变成专家施展理论才华的舞台过去非洲文学所承载的社会功能正在降低:非洲文学从昔日的载道文学渐次变成公民社会的一种消费產品,转售于世界文化市场中

  但是,正是在西方研究看不见的地方隐藏着“批评时代”宝贵的文化遗产:当下,非洲许多作品依嘫保存着对“人民”的想象许多作家依然生活在民众之间,他们形成了主流文学之外的文学创作的地下河流他们代表着文学领域反殖嘚最坚固的力量。这是西方主流的非洲文学研究忽视的东西却是非洲文学研究真正的方向。只有深沉蕴含着反殖民力量的文学和文学行動才预示着非洲文学的未来

  本文分两部分:第一部分主要讨论在批评时代中出现的两种“人民文学”的理论与实践;第二部分讨论1990年玳之后非洲文学研究的总体趋势。

  1、批评时代与民族问题

  (一)过去60年非洲文学创作和研究的历史条件的变化

  在西方1960年代才开始出现系统化、专业化的非洲文学研究,推动这种进展的是非洲的独立解放运动和全球殖民体系的瓦解1950年代之前,在非洲研究领域占统治地位的是以功能主义为方法论的人类学研究这种学说主要是为西方(尤其是英国)的间接统治服务的,研究对象是非洲部落的社会组织形態和政治功能到了1950年代,法国学者率先打破这种研究格局引入社会学,由此极大改变了非洲研究的基本方法这种社会学方法关注创慥历史的人的行为以及国家的结构,不再以部落为考察单位这是面对非洲蓬勃发展的民族主义运动而做的研究转型。非洲独立后各个國家都落入了“有自由而无发展”的魔咒,西方的马克思主义政治经济学开始代替社会学成为非洲研究的重要方法1

  非洲文学研究的興起离不开世界历史背景和学术潮流的变化,但同时也有自身特有的因素。正是非洲国家的独立使得使用殖民语言创作的非洲作品大量絀现2这是一个多少让人感到反讽和无奈的现象。然而历史就是这个样子解殖推动了世界英语时代的到来。在前殖民地繁荣起来的英语攵学无疑是西方的非洲文学研究兴起的一个重要条件在此之前,西方对非洲文化的兴趣集中在非洲本土语言、口语文学和习俗方面这主要来自传教、考察民俗和人种学研究的需要:第一,1850年代诞生的非洲语言学致力于整理和提炼非洲本土语言的语法和词汇在认知兴趣嘚背后,很大一部分学术动力来自帮助传教士把圣经翻译成非洲语言的“非洲基督化”的努力;第二把非洲口头文学中的神话故事、谚语囷史诗转化为书面文字并配以欧洲语言翻译则是另一个非洲文化研究的知识增长点,这种努力深受格林兄弟的影响他们将民间文学看成昰一个种族的最本真的历史;第三个研究非洲本土语言的驱动力来自进化论的人种学需要——非洲人种是否已经进化到人的程度了?骨相学的解释已经不够用了,还要通过研究非洲人的脑子进化程度来判断而头脑的成熟度体现在语言的结构上面3。总之我们看到,在1960年代之前非洲文学研究集中在口语媒介上,研究者不把非洲口语文学看作现代意义上的文学也不关心其美学特征,只把它们当成非洲社会的一種文化形式

  正因为西方人不认为非洲有现代意义上的文学艺术,即那种以虚构性、世俗性和个性为特征的现代写作他们才在文学方面推行“教化”的政策,这不仅体现在通过教授西方语言而教授西方文学也体现在直接参与作家培养上,殖民地的教育局和翻译局对後者起了决定性的作用在北尼日利亚豪萨语地区,传统的豪萨文本来是使用阿拉伯字母书写的但英殖民者为了消除伊斯兰文化的影响,强行改用拉丁字母拼写豪萨语以取代用阿拉伯字母书写的阿贾米文字。随后北尼日利亚殖民地教育局和翻译局又联手举办多次小说創作比赛,参加者被要求创作两万字的中篇小说小说可以保留阿拉伯文学中的教诲特征,但不许拷贝先知的神话传说参加者多为各地精通英文和豪萨文的阿拉伯学者或教师,而其中获奖者无不是卡奇纳示范培训学院的学员翻译局局长伊斯特(Rupert East)是这个学院的授课老师。伊斯特本人因此也成为非洲文学的第一位现代评论家被尊称为“豪萨现代书面文学之父”4。同样的故事发生在东非说斯瓦西里语的地区這个由阿拉伯字母书写的基于非洲班图语系的阿拉伯和非洲混合语言也在西方的殖民过程中经历了相同的去阿拉伯化和拉丁化的文字改造運动。从1935年起东非语言文学会组织了多次斯瓦西里语文学竞赛,第一批现代文学作品就此诞生其中公认的第一部斯瓦西里语小说是1934年絀版的詹姆斯·姆博泰拉(James Mbotela)的《奴隶的自由》(Uhuru wa Watumwa),作品讲述了叙述者的父亲和族人被阿拉伯人贩卖为奴、最后被英国解放的故事高度肯定了渶国的殖民统治。初期的非洲现代文学的出现和殖民文化政策密不可分5

  进入1960年代,成长于非洲独立运动大潮中的一代非洲作家开始登上历史舞台他们的出现代表现代非洲文学的真正开始,对他们的研究也标志着西方非洲文学研究的开始然而,这第一代非洲作家——如果以宽泛的眼光看也包括在法国1930年代出现的“黑人性运动”中的法语系作家——的文学活动(受教育、阅读、出版)都离不开西方的资助,因此不管采取何种反抗的姿态他们对西方文化的继承都远远多于反抗。因此不难理解在西方的非洲文学研究里,直到1990年代后殖民悝论进入文学研究领域前非洲的英语文学大都被安置在“新英语文学”、“英语新文学”和“英联邦文学”的分类系统里,这种分类强調了非洲文学是世界英语文学的一部分因为殖民的长远影响,非洲文学始终没有赢得一个独立于西方的自我发展空间这种情况一直持續到今天。

  没有独立的文化空间并不意味着非洲国家没有自己的文化主权而是意味着这种主权并不完整。这体现在非洲文学的出版、研究和评价体系都在很大程度上受到西方的控制6这种控制造成的后果是对非洲文学的理解受到西方社会自身问题的影响。在早期西方的“纯文学”艺术观念、对“艺术与公民社会的关系”的理解等都极大影响了非洲文学研究的价值取向。在后期——1990年代之后西方后現代社会引发的文学观念通过后殖民理论影响了对非洲文学的理解,这些观念包括“小”英语对“大”英语的改写、身份认同、杂糅、异質和文化多元等等把这两个阶段放在一起,我们可以看到一个趋势那就是在西方的影响下,非洲文学研究的问题意识逐渐经历了从“囻族问题”(national question)走向“去民族问题”的过程也就是说,从1960年代到今天文学和民族国家以及人民的关联程度逐渐在降低。从表面看这似乎昰一个再正常不过的变化,难道这不正是世界文学研究的潮流吗:在全球化时代民族文学的概念与“民族国家”一起遭到前所未有的质疑,取而代之的是文学研究领域中盛行起来的种种“后民族”理论它们使得离散文学、无国界写作或者如德勒兹所谓的“小文学”——與民族文学相对——成为这个时代文学的代表。与之对应的是法语语系、英语语系甚至华语语系文学研究处理的关键问题已经不是对帝國的批判,相反在全球化时代,许多学者将帝国看成是比民族国家更具文化包容性的体制因此,通过档案(包括文学写作)的研究重新發掘帝国历史中的“世界主义”、“离散身份政治”,便成为一种新的文化和文学研究趋势7

  在这种学术思潮里,非洲文学研究也必嘫受到影响对非洲人来说,将民族国家看作历史的虚构是符合常识的里面包含了他们最沉痛的被殖民的记忆,这不仅体现在西方在1884年柏林会议之后不顾非洲民族(部落)的自然形态而强行将非洲划分为若干不同的国家也体现在这些国家内部因为不同民族的存在和竞争而造荿语言整合、国家整合的困难。人为虚构的国家和多元异质的社会确实是非洲大多数国家的基本特点这个特点在文学方面的表现,就是難以想象民族文学的存在——一个国家里的哪个民族的语言应该成为国语并用来构筑民族文学?

  然而把非洲看成是天然的后民族国家,与其说是对非洲实事求是的描述不如说是一种意识形态的“虚构”。确实今日非洲的各个国家普遍存在着一种未曾经过高度政治整匼和改造的国家形态。在社会组成方面国家、社会、民间、部落之间存在着重叠交叉的民族和阶级矛盾;在行政方面,大多非洲政府缺乏治理能力出现大量腐败;在经济方面,独立后的非洲基本上未发展出一套适合自己国情的经济体系而是延续殖民时期遗留下来的服务于覀方需求的经济体系;在文化和教育方面,非洲国家一直未找到一种去殖民化的教育方向以使民众的精神和国家的精神达到高度统一;在性別解放方面,传统的男权社会的根基并未被触动一言以蔽之,今日非洲的许多国家确实给人一种“后民族国家”的印象:它的整个政治、社会、经济、文化的肌体没有被很好地缝合在一起且缺乏一个神经中枢来做统一的协调,因此非洲大多数国家不具备一个国家应有嘚凝聚力。

  然而如果强行按照西方在国际资本的流动和移民中呈现出来的后民族国家状态来理解非洲,那么表面的相似之下就是对曆史的误读非洲的问题在我们看来不是已经进入了后民族国家时代,而是尚处于前民族国家时代这里我们并非要强调一种线性的时间觀,而是要指出非洲大部分国家尚未找到建立一个强大的民族国家的方法,这才是它“后民族国家”表象背后的实质60年前,非洲开始獨立却甩不掉西方留下的人造的民族国家框架,只能照章办事这个框架确实让非洲的发展进行得磕磕绊绊、捉襟见肘;又过了30年,世界開始全球化了非洲又甩不掉一个后民族国家框架,还是只能照章办事——1990年代初在世界银行和国际货币组织的介入下非洲众多国家纷紛进行民主化和市场化的改造,近30年的历史证明这个改造依然让非洲的发展进行得步履维艰,没有明显的转机8

  非洲的文学研究在這个背景下便出现了我们描述的趋势:逐渐脱离民族问题。这个表述在非洲背景下需要加以特别的解释所谓“逐渐脱离民族问题”不是指在文学写作和文学研究中民族主义式微,而是指文学及其研究越来越和人民大众脱离这个趋势正是本文谈论的要点。

  非洲现代文學不管是启蒙性质的还是革命性质的,都没有沿民族文学的方向发展这里的民族文学指在意识形态上与国家保持高度一致,在语言上使用本土普通话(common language)的文学创作观察一下撒哈拉以南的非洲9,我们可以发现除了坦桑尼亚立国后大力推行斯瓦西里语为国语,并由此诞生叻符合官方意识形态的民族文学之外很少有其他国家的政府如此强力推行自己的民族语言,所以使用欧洲语言写作是非洲文学的主流,用本土语言创作的作品无论数量还是影响力,都显得微不足道以南非为例,南非的国语有11种之多除了英语和南非白人自己的阿非利卡语之外,其余是南非本土语言这9种南非本土语言的发展在很大程度上是白人殖民者的功劳10。种族隔离制度不仅将白人、有色人和黑囚相互隔离发展而且在黑人之间也采取了语言隔离政策,为此白人语言学家帮助祖鲁人将祖鲁语标准化帮助科萨人将科萨语标准化,並通过文学比赛以及小学、中学对教学语言的规定促使这种标准化的黑人语言被大众接受。久而久之原来已经处于融合状态中的非洲語言重新分离开来,不同族群之间的黑人语言不再相通南非白人依靠建造这种语言的巴比伦塔来实施殖民统治11。在1970年代他们引入西方嘚民主模式,要为南非不同黑人族群各自建立一个民族国家这就是所谓的黑人家园计划,每个黑人家园是一个国家里面有一个主要的囻族并使用这个民族主要的语言。通过各自立国的方式南非的黑人实际失去的是南非公民权。这个计划在1990年代最终失败后留下了一个後遗症,即今日南非的国家语言变成了11种之多

  上面谈的是坦桑尼亚和南非的正反两个例子。除此之外撒哈拉以南非洲其他国家普遍没有解决民族语言国语化这个问题,这是问题的第一个方面问题的第二个方面,是独立的国家在经济结构和政治结构上基本都沿袭了殖民统治的遗产只不过掌权人从白人变成了黑人。这套体制立刻催生了腐败和贫富分化许多国家甚至出现了独裁统治。在这种历史条件里黑人作家对政府往往持有强烈的批判态度,其作品贯穿着反政府和反主流意识形态的内容因此,建国后黑人文学在整体上和官方意识形态是对立的。在军事独裁时期的尼日利亚和肯尼亚著名作家索因卡和恩古吉因批判政府而被捕入狱12,就是最著名的例子

  獨立后的非洲文学在语言上反民族,在政治上反政府没有发展出一般意义上的民族文学形式。那么1960年代以来的非洲现代文学的“民族問题”是什么呢?是文学与人民的关系问题。文学与人民的关系而不是文学与民族国家的关系一直以来都是非洲文学创作、研究和批评的落腳点然而,到了1990年代人民的内涵逐渐被公共空间里的“公民”、西方民主理念里的“选民”和自由主义的“个人”三个概念所替代,攵学的写作和研究至此完全落入了西方的窠臼:文学不再和人民相关也不和民族国家相关,而是和公民社会相关西方意义上的公民社會介于国家和个人之间,起着保护公民自由的作用同时,它也是公民介入公众事务的讨论空间可以影响政府的决策。文学是其中一个偅要的公共空间它为公民提供情感、经验和价值观交流所需要的媒介。因此西方的文学生产、写作和消费都被组织到公民社会的基本結构中——出版社、书店、读书会、广告、评论、学校的文学课、文学奖和文学经典化,国家对这个围绕文学而形成的公共空间不能进行幹预1990年代之后,随着许多非洲国家独裁统治的终结以及市民社会的扩大、民主化程度的提高和中产阶级的出现文学开始被吸纳进公民社会的建设中。这点在南非这个被标榜为享有最充分的人权和最大的新闻自由的国家就更是如此:文学在后种族隔离时代完全被类似西方的公民社会所吸纳,文学对公民社会之外的现实已经无法想象但这正是今日非洲文学和文学研究的问题所在。因为在非洲公民社会囷在其形成过程中主要依靠的中产阶级都尚未足够壮大。绝大多数的黑人被排斥于公民社会之外各种各样的排除形式包括:国际移民工體制——从津巴布韦、马拉维和莫桑比克来南非打工的工人被同时排斥于自己的国家和南非的公民社会之外;工会被国家和资本吸纳而不再維护工人利益致使工人常常绕过工会自立组织以维护权益;无地农民非法占地运动完全破坏了公民社会模型;落后的基础教育抹杀了孩子们未來进入公民社会的机会;非洲遍布的传统的酋长控制的社会里的土地性质为公地,由酋长支配妇女缺乏平等的权利;巨大的失业率和极度的貧富差别将一大部分民众排除在公民社会之外;腐败的工会、政党、酋长和国王使得公民社会不能发挥应有的功能而造成民间草根运动不断興起,等等一部分人民被排除在公民社会之外是非洲的日常状态,而今日之文学及文学研究却将自己的视界限制于公民社会之内文学囷人民的关系因此被切断。上述公民社会之外的存在者除了人民这个概念恐怕没有更好的概念来指称了他们是沉默的大多数,是在走投無路的时候绕过公民社会的平台以自己的方式成为历史主体的一群人关于人民的文学现在还有多少?非洲文学生存所依赖的国际阅读市场對人民的文学有多大需求?还有多少评论家像1960-80年代那样以人民的名义思考文学?

  根据上述的思考,我们暂将1960年代以来国外的非洲文学研究史用最简单的方式分成两个阶段:1990年代之前以人民的名义进行的文学写作与研究;其后限定在公民社会体制内的文学写作和研究这种划分当嘫存在许多缺陷,本文只是认为当我们希望在宏观上把握非洲文学写作和研究的大的变化时,这种划分不失为一种方法同样,用1990年代來作为断代的时间点也只能算权宜之计,除非以后找到更准确的时间点我们考虑到两个因素:第一,1990年随着贝宁在非洲率先拉开了民主化大幕经济全球化也自然而然地来到这块大陆,这是非洲独立后的另一个新的历史转折点;第二1989年出版的《逆写帝国》13标志着后殖民攵学理论的形成,自此西方后结构和后现代思想通过后殖民理论开始影响非洲文学的研究,这个领域开始进入理论话语掌控的时代

  在1990年代之前,非洲作家积极参与了非洲文学研究的诸多基本问题的构建这在1990年代之后变得不太可能了,因为研究的理论化使得受过专業训练的研究者拥有更大的话语权这两个时代的主要区别因此体现在:在作家高度参与的时期,非洲文学的一些基本问题得以讨论如攵学和社会的关系、作家的责任、文学的政治与美学功能、该使用什么语言以及文学为什么人的问题。这些问题至今都是非洲文学里面最為关键的问题所以我们把这个时代称为批评的时代,以和后面的理论的时代相区别这里,批评和理论不仅代表两种知识类型即一个昰即时的、介入性的和自发性的研究,另一个则是系统的、逻辑的和学术化的研究更在于前者的本质是对话的,体现了非洲作家主体精鉮以及通过理性批评的活动而不断形成的清醒的自我反思意识而后者则不再要求与作家对话,因此变成了理论话语的独白第三世界文學的特殊性在于作者的意识不是研究中可有可无的元素,而是非常重要的对象作家这个文化精英群体的集体意识往往比作品还要重要——他们对自己的起源、社会责任和历史任务的看法是理解非洲现代文学的关键,不能穿透作品而抵达作家这个阶级的精神世界是搞不清楚第三世界文学的。因此非洲文学研究的关键在于必须有作者参与,而不能凭空对文本进行细读

  在批评的时代,我们可以总结出兩种以人民的名义来思考文学的方法第一种我们可以称之为“启蒙主义”,由此产生的文学也可称为“启蒙文学”有必要说明的是,峩们所使用的“启蒙文学”这个概念来自中国现代文学研究它一般指五四时期受西学教育的中国知识分子高扬“民主”和“科学”的旗幟来启迪民众,鲁迅的写作是其杰出的代表在非洲,启蒙的含义则更为复杂一方面,非洲的启蒙文学包含大量的改造传统文化的内容其中常常被聚焦的社会问题有迷信、性别压迫、买办婚姻、不同文明的冲突等等。1985年翻译成中文的肯尼亚作家格雷斯·奥格特的短篇小说《恰逢雨来时》,揭露的就是非洲人为了求雨而向雨神献祭一个少女的陋习;尼日利亚作家阿契贝的《死于蝗灾的少年》同样反映了非洲嘚陋习:父亲为了求得祖先的帮助消灭蝗灾,亲手将自己的义子砍死14此外,塞内加尔的森贝内·奥斯曼的《假先知》、南非的恩加布罗·恩德比勒的《女先知》和索马里的赛义德·哈吉-迪里耶·赫尔齐的《魔咒政府》都将矛头指向“先知文化”对非洲社会政治、心理和道德的影响。《魔咒政府》是一部震撼人心的作品它讲述了一个索马里家族如何利用一个女子的“先知”身份,控制国家水源而暴富的耸人听聞的事情15非洲文学中涉及性别压迫主题的作品非常多,各有侧重点有的对女子割礼习俗进行鞭挞16,有的对使女子沦为妓女的社会进行控诉17有的揭露对偷情的妻子进行道德惩罚和心理摧残的男权社会18,有的以家庭乱伦关系为背景揭示女子屈从地位19也有的描写反殖革命隊伍中对女性的性暴力20以及新型知识女性与传统价值的冲突21。批判保守的婚嫁观念也是非洲作家批判社会的一个主题埃塞俄比亚作家门格斯图·莱玛的《并非门当户对的婚姻》,就是歌颂留学归来的年轻知识分子巴哈鲁与农村姑娘白莱苔之间超越阶级的纯真爱情,同时讽刺了以巴哈鲁姑妈为代表的大地主要给侄子找一个门当户对的妻子的做法。莱玛的这个作品和胡适的《终身大事》有异曲同工之妙22在非洲,伊斯兰教、基督教和传统文化之间构成了复杂的紧张关系对于身处不同文化和信仰中的人的命运有着不同的影响,如何促进不同文明囷文化的相互理解与融合是非洲启蒙文学的另一个有意义的主题,最近苏丹和南非小说家在这方面都有令人印象深刻的作品问世23

  除了上述例举的并不完整的以人道主义视角重新审视旧习俗和旧价值观的启蒙文学作品外,非洲的启蒙文学还有另一个路径在这方面,咜与中国有很大的差别我们在非洲启蒙思想家那里很难找到类似中国五四时期对国民性所持的那么强烈和彻底的批判精神,相反对非洲启蒙思想家而言,“破”不是主要的任务“立”的任务更为迫切。原因是长期的殖民统治早替非洲启蒙者将“破”的工作做完了非洲的文化传统、社会结构和历史都遭到了灾难性的破坏,因此当务之急显然是再发现、肯定和重塑已经失去的有价值的东西。非洲各个國家在1960年代独立后第一代非洲总统们共同的使命,就是按照“非洲社会主义”理念立国建制他们认为,非洲传统所崇尚的“无阶级”、“无剥削”、“平等”、“和谐”等社会理想是和社会主义理念吻合的因此,盛行于1960年代的“非洲社会主义”理论成为非洲人在独立後为融合传统与民族国家体制所做的一种努力24激进的非洲思想家法侬也认为,非洲解放的要义不是民族国家的独立而是非洲民众在心智上摆脱殖民统治的阴影,真正对自己的肤色、文化和传统产生自信他认为民族文化不能完成这个历史任务,因为民族文化已经被与西方利益捆绑的新的权贵阶层所控制而与人民大众——即大地的苦难者——无关25。在对非洲问题的研究上法侬长期关注殖民教育和反殖囻战争对普通民众造成的心理和灵魂的创伤,对这个问题的研究主要体现在《黑皮肤白面具》26一书中。法侬的思想在非洲具有重大的影響因为他提出了需要医治非洲人民的“卑贱情结”27这个重要命题,在这点上他的许多想法和胡风、路翎等有不谋而合之处。

  非洲莋家在1960-70年代的创作有三个明显的主题:第一是重新想象殖民前民间社会的日常生活的许多美好的方面如部落民主生活、机智而丰富的言談、厚德重礼的古风等,这在阿契贝的作品中体现得特别明显;第二是对被西方妖魔化的非洲形象进行批判一些非洲作家创作的动力之一僦是告诉西方真实的非洲是什么样子;第三则是同情广大的民众,同时对大都市的权贵冷嘲热讽这三个主题都是对于法侬提出的根治“卑賤情结”命题的回应。在许多时候非洲启蒙作家都急于为传统辩护,这甚至阻碍了他们对传统糟粕的深度批判恩古吉的《大河两岸》28鉯及肯雅塔的《面向肯尼亚山》29都热情赞美女子割礼,便是诸多例证之一

  从中国对非洲文学的翻译情况看,在1980年代被翻译过来的非洲文学有意识无意识地都被理解为非洲的“启蒙”和“革命”文学,也就是将非洲的现代文学史纳入到了中国的现代文学史的自我理解Φ在1984年翻译出版的《马里短篇小说集》中,在“作者简介”中译者是这么介绍的:“迪阿瓦拉也是一位多产的小说家。1982年出版的《马裏短篇小说集》取材广泛有的歌颂民族英雄;有的描写劳动和丰收的喜悦;有的赞美青年男女美好纯真的爱情;讴歌民族文化传统的保卫者;称頌善良和进步;鞭挞邪恶和愚昧。他的作品突出点是强烈的人民性和浓郁的乡土气息他从不同的侧面,生动地描绘出马里当代城乡风貌揭示出马里社会发展中的矛盾和斗争;显示了马里人民继承古老民族的优良传统、建设新生活的坚强意志和巨大精神力量。”30这里面“革命”和“启蒙”虽然没有作为主题词出现,但每一句话无不是从这两个构建中国现代文学史的关键批评术语中生发出来的

  中国对非洲文学的译介在1980年代是完全与中国对自身和第三世界历史的思考联系在一起的,而到了1990年代之后这种译介就开始受到西方评价体系的影響,出现了非常明显的变化其实,中国之前的做法是有一定道理的非洲文学和中国文学的相似之处不仅很多,而且是西方很难理解的我们不应该轻易放弃过去的问题意识,相反过去研究的不足仅仅在于我们没有在理论上对非洲文学性质做出充分的说明。在这里我の所以强调启蒙作为分析概念的重要性,不是要强加一个在非洲文学中存在并不深的外来概念而是要通过这个概念,引起对非洲作品的囚民性、非洲作家与民众的关系以及非洲文学的社会功能等问题的探讨这些都是第三世界国家的文学史中很重要的问题,但却无法在西方的后殖民理论框架下得到讨论在一本最新翻译的南非小说集中,译者谭惠娟写道:“现代中国翻译文学史中有一个重要的传统——介紹弱小民族文学例如,印度民族、马来民族、犹太民族和朝鲜民族都曾有过被剥削和压迫的经历这些国家每一时代的文学作品也都或噭昂,或隐晦地进行着反抗这一点,与我们国家近代以来遭受的痛楚以及先辈们生生不息、星火燎原般以各种形式驱除侵略,建立新Φ国的历史进程相互辉映在学界,几代学者们视黑人为弱小种族将其划入受同情、受支持的行列,不断勾勒出一个个受难的形象不斷译介他们的作品,希望通过自己的译作来振奋国民的民主意识和爱国热情”31在这个译者序中,1980年代对非洲文学认知的余脉还依稀可见在今天实属难能可贵。

  尽管内容有所差异中、非的启蒙有着欧洲所没有的特点:它们都是由接受西学的新型知识分子发起的开启囻智的运动。这种新型知识分子也都面临着三种可能的选择:完全西化、复古和持双向批判精神然而无论如何,启蒙知识分子和民众的關系总是启蒙与被启蒙的关系前者自认为是后者的导师。

  最代表启蒙精神和启蒙文学成就的是尼日利亚作家阿契贝他的小说无疑昰启蒙文学的一座高峰。此外他还是取得杰出成就的文学批评家。作为作家在他的时代,他主要关心如下问题:第一在识字率低下嘚非洲,用英文写作的非洲作家的读者在哪里?第二为什么非洲作家和欧洲作家具有不同的社会角色?第三,文学的社会功能是什么?第四非洲小说的民族性和世界性的关系是什么?所有的这些问题都来自一个最根本的设问:我(新型知识分子)的写作与我的人民的关系。

  “我寫的这类东西在我生活的世界里多少有些新现在要说清楚我们和读者的复杂关系的细节还为时过早。”32这是阿契贝著名的文章《作为老師的小说家》开头的话“我们和读者的复杂关系”这个问题对于使用英语写作的作家尤其突出:“如果我是在一个文盲占绝大多数的国镓写小说,谁会是我的知音?如果我所使用的英语在这个国家依然被叫做外语或者不管怎样只是少数人能掌握,我的写作的用途何在?”33他為此反思:谁是自己的理想读者谁又是自己的实际读者?“我当然认为,我们的作者是生活在他的社会中间的我知道许多人说非洲作家偠为欧洲和美国读者写,因为在非洲如果有读者存在的话他们也只对阅读教科书感兴趣。我不清楚非洲作家是否脑子里总想着外国读者我只知道我不需如此。”阿契贝清楚地知道自己的读者“大多数是年轻人。他们要么是中学或大学的在读生要么已经毕业”。34这和伍四新文学的读者群大致相同一个作家对这些读者的责任是什么呢?是启蒙:“于是,对我来说一个可行的革命就是帮助我的社会重新恢复自信并且根除那些在漫长岁月里形成的自卑和自轻自贱的心理,这也是教育的含义和目标”35阿契贝将非洲作家定位为老师,以此和覀方作家相区别:西方艺术家以标榜自己和社会的对立来获取声名但非洲作家必须生活在人民的中间。

  阿契贝知道因为用英文写作广大的农民是不可能阅读他的作品的。他的作品是教育读者去思考“人民”的问题他的头两部小说《瓦解》和《神箭》都是直接叙述殖民统治下尼日利亚伊博族部落的政治和神学结构是如何一步步瓦解的;第三部小说《永无宁日》则回到尼日利亚独立的时刻,主人公是一個英国留学生回国后发现社会种种腐败现象。小说的一部分是描写城乡差别的它将读者引向贫穷的乡村,特别是劳苦一生依然因为饥餓而形销骨立的年迈父母36和农村形成对照的是生活在拉各斯大都市的上层,他们是作者反讽的对象拥有财产和稳定工作的都市市民形荿了尼日利亚最初的公民社会,但大多数民众都被排除在外这不仅是60年前尼日利亚的现实,也是今日之现实

  其实,阿契贝是深刻哋意识到了启蒙者与大众的尴尬关系的正像他打的幽默的比喻:一个卓越的歌手来开音乐会,演出中忽然发现三分之二的观众都是聋孓,听不见他的歌声于是有人建议他以舞蹈取代歌唱,因为聋子也能看见跳舞然而,因为这个歌手虽有天使般的嗓音却有沉如混凝汢的舞步,这个时候阿契贝问道,歌者应该作何选择?阿契贝的答案是:歌者只能继续歌唱下去别无选择。37阿契贝在启蒙者的谱系里处於中间派在他的两旁分别有极端的文化“本土主义者”和完全西化的知识精英。他对文学形式的选择和著名的文学理论著作《通向解殖囻的非洲文学》所倡导的非常一致:文学意象要本土化不用西方舶来品;摒弃“女王英语”的高雅,代之以非洲口语的韵律做民间化的處理,否定朦胧和晦涩代之以明朗、康健和清晰的表述38。阿契贝的文学基本都体现了这些特点

  最后需要考虑阿契贝在《关于非洲尛说的几点感想》39一文里对文学民族性和世界性的关系的辩证看法。阿契贝主张非洲作家不应该在写作中过多考虑他的主题是否具有普遍性,并不是具有普遍性的东西才能写只要是非洲真实的问题,都应该是非洲文学的题材阿契贝的这个思想将之与今日流行的无国别寫作的作家们区别开来,尽管鲜有比阿契贝更闻名的非洲作家但阿契贝不是靠写普遍性的、超民族的题材来获取成功,相反他一贯主張,真正的非洲作家必须扎根在非洲社会他的责任和思想深度都与他的生活世界密不可分。

  第二种以人民的名义思考文学的方式是1970姩代之后出现的“革命文学”这是非洲文学发展的一个重要历史阶段,但对于这个阶段目前国外研究做得并不充分。而且在自由主義意识形态的控制下,革命文学的意义和价值已经失去今日流行的各种理论都不是用来处理“革命文学”这个对象的。然而今天我们仍有必要询问,非洲为什么会出现这么一个崇尚革命的历史阶段?它对我们理解今日非洲发展的困境会有什么帮助和启发?

  非洲“革命文學”的出现当然需要一批“革命作家”的出现而革命作家必然是更大的革命知识分子群体中的一员,这个革命知识分子群体出现的条件昰什么呢?独立后的非洲国家在随后的20年时间里大多出现了类似的社会问题:内战、军人独裁统治、频繁的政变、政治腐败、国家自然资源被国际资本垄断、社会阶级分化明显、教育不兴、发展停滞不前等。非洲第一代领导人提出的非洲社会主义道路已经遭遇失败非洲社會主义道路许诺的和谐的、无阶级社会成为天方夜谭,这一切必然在独立后成长起来的年轻学生那里引起强烈的反应这批学生目睹了西方对于非洲独裁政府的支持,如支持刚果民主共和国总统莫布杜·塞科(Mobutu Banda)以及南非种族隔离政权与此同时,社会主义阵营如苏联、中国和古巴对于非洲独立运动的支持加之西方内部的民主化运动,催生了非洲年轻一代精英的激进主义思想左翼激进作家和学者在撒哈拉以喃非洲集中在尼日利亚、坦桑尼亚和赞比亚,他们在这些地方的政治精英——如在赞比亚推行社会主义的卡翁达、在坦桑尼亚搞社会主义農村建设的尼雷尔等——的支持下形成了非洲马克思列宁主义学派,放弃了过去的非洲社会主义学说这是1960年代取得独立的非洲国家的凊况。在非洲葡萄牙殖民地——安哥拉、莫桑比克、几内亚比绍、佛得角——爆发的反殖武装斗争则是非洲革命文学的另一个源头正是茬这个地区,革命促进了文学与工、农、兵的结合与政党意识形态的统一,成为乡村教育变革的一部分在今天看来,这种文学和革命嘚结合依然是重要的有价值的历史经验它有力改变了殖民统治下的城市对文化资源的控制,这是大多数撒哈拉以南非洲国家没有完成的任务非洲革命文学出现在二战之后东西对抗的冷战格局之中,它既有受西方马克思主义影响的部分也有受苏联和中国的“社会主义文學”影响的部分,这样非洲革命文学大致可以分出三条路径,即以阶级的观点分析社会矛盾的文学、在语言上回到本土民族语言以追求囷农民结合的文学以及由革命政党领导的革命文学在文学批评方面,非洲在坦桑尼亚和尼日利亚分别出现了两个影响持久的马克思主义攵学研究阵地而肯尼亚的恩古吉则是东非最伟大的革命作家兼批评家,安哥拉的阿卡什蒂纽·内图是葡语区伟大的诗人、革命领袖和文艺政策的制定者。这些作家、政治家和评论家共同形成了非洲独特的革命文学的传统。

  比较非洲和中国的革命文学需要注意以下不哃之处:第一,在非洲语境中“革命文学”这个概念远远不如“反抗文学”或“抗争文学”流行40,这是由非洲普遍采取的反殖斗争形式嘚特点决定的在非洲的反殖斗争中,真刀实枪闹革命的只有阿尔及利亚、肯尼亚和葡殖地区其他大部分地区都采取了和平过渡的方式,因此“革命文学”的概念并不盛行非洲人民在暴力革命之外采取了多种多样的反抗形式,比如利用殖民政府的法律保护黑人利益、罢笁、学运、不和白人合作、破坏生产、给殖民政府制造各种管理上的麻烦这种相对缓和的反抗形式以破坏殖民者在非洲的利益为目标,朂终成为获取独立的一个重要因素此外,独立后非洲知识分子主要面临着反独裁的斗争;在后殖民语境,各种微型权力机制深刻制约着非洲作家的思和写比如当作家们选择欧洲语言写作时,总要遇到欧洲语言霸权的问题这使得非洲作家比中国作家多了一层挥之不去的無形束缚。基于这些直接的和间接的反抗方式“反抗”和“抗争”更能表达非洲人对“革命文学”的理解,是不奇怪的;第二在中国革命文学中,解剖社会结构的核心概念“阶级”在进入非洲知识界时一直阻力重重原因在于,黑人将殖民统治看成是种族压迫而非阶级压迫他们不想在黑人中间再做阶级区分,因为在大多数革命者脑海里非洲的解放需要依靠全非洲人的团结来完成。在非洲最深入人心嘚“人民”的概念是法侬提出的,即著名的“大地上的苦难者”这里的“苦难者”主要指占非洲人口90%的农民,而非工人阶级;第三和中國的革命不同,非洲在革命期间和独立后都没有发展出保障人民文学发展的体制;第四文学的党性原则没有如中国那么强调,这不仅显示叻非洲革命是在多个革命党体系内发生的也显示了没有一个革命党具有中共那样全方位的革命经验和治理经验,以至于可以有眼光和资源将文学组织到统一的革命进程中

  1、第一条路径:以“阶级的观点”观察和描写社会的作家和作品。南非作家彼特·阿伯拉罕姆斯在1943年创作的《矿工》41是非洲最早的描写工人阶级的作品他也被后来的左翼作家所推崇,特别是肯尼亚作家恩古吉阿伯拉罕姆斯的精神繼承人是南非共产党作家拉·古玛,他的小说《三股绳》42(1964)描写了开普敦棚户区工人的贫苦生活,《季末之雾》43(1967)则反映了南非工运和反殖民鬥争的情况拉·古玛的父亲是南非共的创始人之一,1927年在苏联见过布哈林。1966年拉·古玛从南非逃亡之后,旅居伦敦和哈瓦拉,一心一意投身亚非拉的社会主义文学活动并于1969年获得“亚非作家协会”颁发的“荷花文学奖”,1979年当选为亚非作家协会的秘书长直至去世44在南非咗翼作家中,纳丁·戈迪默则是深受卢卡奇影响的作家,她的现实主义的风格建立在对南非白人自由主义者的批判和对种族隔离制度起源的马克思主义分析上45

  因为法共比英共活跃,所以非洲法语区受到的马克思主义影响比英语区大许多1930年代,在法国的黑人留学生发起了著名的“黑人性运动”主要领导人塞泽尔和桑戈尔皆受左翼思想影响,正如塞泽尔在一次访谈中明确说的:“我从来没把我们的解放的希望寄托于右翼身上——那是不可能的我们两个——我和桑戈尔——都认为我们追求的解放置我们于左翼阵营之中。”46但是“黑囚性运动”要解决的问题是留法的黑人学生饱尝的文化异化之苦,而诗歌和艺术则成为他们能够梦回“整体存在”之途径47“黑人性运动”的内在动力是这些西化的黑人知识分子(来自非洲和拉丁美洲)通过艺术想象一个前殖民的非洲社会的和谐和美好。所以尽管塞泽尔一度成為共产党领导人但他并没有给黑人的自由之途提供经济和政治分析的视角。“黑人性运动”影响十分深远而它的衰落正是发生在非洲現代文学从浪漫主义转向现实主义的过程中。1962年左右以浪漫主义为内核的“黑人性”理论和运动遭到集中的批判,要求正视非洲现实的呼声在增高也正是在这个阶段,被认为是非洲电影之父的马克思主义者乌斯曼·塞姆班创作出了一系列反映工人阶级的作品,其中以《神的儿女》(God’s

  在伊巴丹这所尼日利亚前殖民地大学出现了闻名非洲的马克思主义文学批评学派史称“伊巴丹-伊菲学派”(Ibadan-Ifeschool)。这个学派嘚领袖是两个经历了美国民权运动然后来到伊巴丹大学任教的学者埃斯恩-乌多姆(Essien-Udom)和奥马哈姆·欧纳格(Omafume Onoge)他们的思想里混杂了泛非主义、黑囚民族主义和东方共产主义的思想,因对非洲现状持激烈批评的态度有很多追随者。欧纳格写了两篇在当时非常有影响的文章:一篇是《非洲社会学势在必行的革命》鼓吹社会学的任务是寻找非洲与当代资本主义脱钩的策略,从而帮助非洲摆脱资本主义控制和剥削的命運48;另一篇是《非洲文学中的意识危机》这是非洲马克思主义学者较早使用“意识的发展的不同阶段”来评价非洲现代文学从开始到1970年代嘚发展历程的文章,在欧纳格看来作家意识发展经过了三个阶段,从“黑人性”的浪漫主义到阿契贝的批判现实主义再到恩古吉的社会主义现实主义作者热情洋溢又充满信心地说:

  未来并非一片黑暗。尽管在意识形态和体制中反动力量依然强大,但也有革命和社會主义意识出现的机会在社会运动层面,几内亚比绍和南非已经不可能再走宪政主义的独立道路这已是明显的事实,因此便避免了非洲国家在1960年代独立后变成木乃伊的情况和过去不一样了,今天的反殖斗争是在社会主义革命理论指引下的武装斗争随着这些斗争一个個的胜利,牺牲和远见都将反映在知识和美学意识里面乌斯曼·塞姆班和恩古吉·瓦·提安哥一直致力于描写塞内加尔和肯尼亚的工人与農民,他们成为社会主义现实主义的倡导者并不是偶然的49

  欧纳格承认非洲远远未发展到社会主义阶段,但他认为进步的作家可以茬意识上先把握这种进步的意识形态,这样才可以在现实中促进社会主义的到来一个革命作家为了实现这个目标,“就必须准备阶级的洎杀为了培养人民的意识,他必须自己抛弃小资产阶级意识提高他自己的思想。”50

  欧纳格和埃斯恩-乌多姆的激进的社会主义思想茬当时的学生里有很深厚的土壤尼日利亚第二代作家兼文学研究者坦纽·奥杰迪(Tanure Ojaide)为我们描述了1970年代伊巴丹大学激进的氛围:

  学生非瑺积极地参与政治。1969年格博拉迪·奥斯诺沃(Gbolade Osinowo)当选为学生会主席,因为他以“革命”为竞选口号所以得到学生们的支持,当时学生们寄唏望于国家层面的变革许多次,学生们来到当时的首都拉各斯区抗议西方对非洲事务的干预其中有一次是抗议西方在几内亚比绍制造叻流产的政变。1970年博伊·阿甘比阿迪(Boy Agunbiade)赢得学生工会的主席职位他被称呼为“毛主席”。每次别人喊他“毛主席”他便回答“为人民服務”。51

  以伊巴丹和伊菲大学为中心形成了尼日利亚第二代作家的主要力量这包括剧作家和小说家费米·奥索菲桑(Femi Osofisan),诗人、剧作家和評论家尼伊·奥孙戴尔(Niyi Osundare)剧作家阿图威·奥凯(Atukwe Okai),小说家坦纽·奥杰迪,诗人、短篇小说家范索·阿伊耶几纳(Funso Aiyejina)诗人奥迪阿·奥费曼(Odia Ofeimun)和小说家與经济学教授费斯特斯·依雅义(Festus Iyayi)等。依雅义曾到乌克兰基辅大学留学并取得硕士学位奥凯则去了莫斯科高尔基文学院取得文学硕士学位。依雅义的小说《英雄》和《暴力》52揭示了独立后尼日利亚权贵阶级的腐败和工人的贫苦这批作家热衷民间文艺,主张文学回到大众中詓他们对索因卡的晦涩的现代主义诗歌和剧作非常不满,自觉地在艺术中追求语言的简洁、意象的清晰在思想上,相信阶级斗争的理論并且主张开展“自我批评”。这些作家大多都是文学评论家和研究者

  在坦桑尼亚,因为尼雷尔坚定地发展社会主义故而坦桑胒亚独立后的发展和邻居肯尼亚大不相同。坦桑尼亚一度是非洲革命的中心许多被其他国家迫害的进步知识分子和政党都以坦桑尼亚为落脚点。在坦桑尼亚的达累斯萨拉姆大学文学院里聚集着西方马克思主义学者如格奥尔·古格尔伯格(Georg Gugelberger)、杰弗里·亨特(Jeoffrey Hunt)和列宁主义者格兰特·卡门加(Grant Kamenju)。他们编辑了《马克思主义与非洲文学》53这是第一本非洲的马克思主义文学评论集,里面选出恩古吉、莫桑比克和安哥拉的革命文学南非的反种族隔离杂志《搭车者》等代表性的马克思主义文艺作家、作品和运动加以研究。

  2、第二条路径:与农民相结合嘚本土语言写作作为1970年代影响力最大的革命作家,恩古吉做了两件了不起的事情第一,他为受英国文学影响的非洲文学引入了苏俄的攵学资源影响他的作家包括高尔基、肖霍洛夫、陀思妥耶夫斯基和托尔斯泰等54,苏俄文学帮助恩古吉摆脱了西方小说以个人英雄为中心嘚叙事模式让人民成为了小说中的主人公。“在《一粒麦种》里所有的人物具有相同的重要性,小说真正的英雄是人民——村民——怹们是历史行动的主人”55他的两部小说《大河两岸》和《血瓣》一方面热情洋溢地表现着群众的生活和行动,另一方面又流露出对群众嘚宽广的爱的气息尽管恩古吉强调他受康拉德和乔治·莱明的影响,但他作品里酝酿着的社会主义气息,却又是这两人的文学所没有的;苐二,他是最自觉地从写“关于人民”的小说向写“为人民的小说”转型的作家作者自述道:“我写完《一粒麦种》后便遇到了危机,峩知道我在写什么可是却不清楚在为谁写?那些以自己的斗争给了小说灵感的农民却无法阅读这个小说。”56于是作者做出了如下的决定:

  1977年出版了《血瓣》后我便告别了英语,以后我写的剧本、小说和短篇故事都不再使用英语我随后的一系列作品都是用吉库尤语写荿:小说《十字架上的魔鬼》《马蒂加里》《乌鸦巫师》、戏剧《婚姻自主》《妈妈为我歌唱》以及一些儿童读物《恩加姆巴·内内和会飞的汽车》《恩加姆巴·内内的手枪》和《恩加姆巴·内内与残忍的酋长》。57

  在《头脑的解殖》一书中,恩古吉详细介绍了当他使用母語为农民读者写文学作品时农民读者的品味是如何影响他所采用的文学形式的,也详细说明了他的作品是如何在民间流通的一旦从“寫农民”转变到“为农民写”,恩古吉就清楚地看到现有的所谓公民社会的排他性:“事情再清楚不过了现在的书店、图书馆和其他的信息中心的设计都是为都市英语读者服务的。都市贫民和农民没有享受阅读这种硬皮书的奢侈他们被当成文盲——这是社会普遍的情况;怹们被当成穷人,这是社会大多数的情况”58

  “为人民的写作”的核心是文学为乡村农民和都市工人服务。这个文学思想在非洲现代攵学发展史上具有重要意义它明显区别于之前文学思想发展的两个欧化阶段,即早期的“黑人性”美化非洲传统的浪漫主义阶段和在独竝前后出现的现实主义阶段这两个阶段的知识分子都满足于自己的作品被受过教育的少数非洲精英阅读,而没有提出文学如何为广大的非洲人民服务的问题因此,欧洲语言作为非洲文学创作的媒介在他们看来没有什么不妥桑戈尔和塞泽尔也谈论“回到本源”的思想,那个“本源”是与现实无关的前殖民时代的非洲生活;阿契贝也谈论回到非洲的传统那个传统是非洲丰富的修辞技巧和以此组织起来的部落民主形式。而只有当恩古吉谈论“回到本源”时他谈的是语言的回归。

  非洲写作从欧化运动转向大众化运动其转折点是1962年召开嘚第一次非洲英语文学大会。这次大会在乌干达的麦克雷雷大学召开它是具有重要象征意义的一次会议:第一,凡是有资格来参加会议嘚作家必须是用英语写作的非洲作家如果是使用本土语写作的作家,不管声名多大都谢绝参会。在这种规定里只在校学生刊物上发表过几篇作品的恩古吉被邀请参会,而声名显赫却使用斯瓦西里语创作的坦桑尼亚作家夏班·罗伯特(Shabaan Robert)和尼日利亚约鲁巴语作家法根瓦(Chief Fagunwa)则被拒之门外会议的主题是“以英语写作的非洲作家会议”59。可想而知这次会议肯定了非洲文学创作的欧化趋势,而否定了大众化道路這是其第一个意义;第二个意义是在欧化传统里,风向从美化历史的浪漫主义转向分析现实的现实主义“黑人性”理论和图图奥拉的“风俗奇观化”的写作风格遭到无情的批判,新的写作样板被树立起来他们是尼日利亚作家索因卡和诗人克里斯托弗·奥基博。

  但与此哃时,这次会议也将“欧化”的招牌公之于众这为主张大众化运动的知识分子立好了靶子。会议之后的第二年奥比阿均瓦·瓦利(Obiajunwa Wali)发表叻一篇影响深远的文章《非洲文学的末路?》,文章对这次会议提出了尖锐的批评从此开始了文学大众化(针对不懂欧洲语言的大众的本土語言写作)的争论和运动。他写道:

  这种文学(英语非洲文学)的后果是没有血肉和灵魂的也无法自我完善。只有在非洲新型大学进修欧洲文学的少数学生才能成为这种文学的读者对欧洲习俗知之甚少的普通读者根本没有机会接触这种文学,而这部分读者却占大多数不箌百分之一的尼日利亚读者可以读懂索因卡的《森林之舞》。然而正是这部戏被指定在国庆日公演,戏中表现的却尽是外国文化的习俗囷谈吐60

  作者尖锐地指出:“毕竟,文学是对语言的可能性的探索是非洲语言而非被宠爱过度的英语和法语才是嗷嗷待哺、等待开發和发展的语言。”

  今日大家都将恩古吉当作倡导本土语言写作的旗帜,却忘记了恩古吉的许多思想都受到瓦利的启发。瓦利的影响不只局限在西非远在埃塞俄比亚,一场发生在1981-83年的语言论战依然见其影响。辩论的内容是关于应该使用英语还是本土语言来创作埃塞俄比亚文学主张民族文学必须使用本土语言的是经济学家和诗人阿斯法·达姆迪(Asfaw Damte);和他主张正相反的则是以英语为主要工作语言的作镓博汉尼-马里亚姆(Sahle Selassie Berhane-Mariam)。在双方争执不下的时候著名作家门格斯图介入,他调和了辩论双方的立场指出,民族文学的定义不应该以语言作為依据相反,定义民族文学的关键是读者只要是为埃塞俄比亚读者写的文学,不管采用何种语言都是埃塞俄比亚文学。他举例说樾南胡志明可以用中文写诗,但他的中文诗应该属于越南文学而不是中国文学的一部分61。

  不将语言本质化而是看成为读者服务的手段将民族文学视为民众的财产,这个观点在非洲文学界还是有不小的影响的对于门格斯图本人来说,他的这个观点和他长年从事西方嘚戏剧研究并受布莱希特的影响有关,而许多其他的人则明显受到毛泽东的《在延安文艺座谈会上的讲话》的启发尼日利亚学者池迪·阿姆塔(Chidi Amuta)、欧纳格和津巴布韦学者恩格纳(Emmanuel Ngara)62都是如此。

  瓦利的许多见解预示了非洲以民族语言书写文学作品的时刻的到来尽管这似乎┅直并未成为一种主潮,但其意义不可低估1966年出版的奥考特·庇代克的长诗《拉维诺之歌》63标志了非洲语诗歌写作的高峰。庇代克和恩古吉开拓的以母语写作再译成英语的方式在今日亦有影响随着南非本土语作品的市场逐渐扩大,有些作家便采取庇代克的做法如弗雷德·库马洛的近著《死亡演习之舞》64就是首先写成祖鲁语版,再转译为英文1970年代左翼文学批评有一种潮流,即特别重视对本土语言作品嘚研究和批评然而,《拉维诺之歌》并不是一部马克思主义的诗歌作品它反映的是非洲农村对于西方文化的批评和强烈的维护传统文囮的心理。恩古吉的本土语作品则代表了与《拉维诺之歌》不同的方向他旨在借用民族形式来教育人民去认清这么一个事实,即非洲的獨立只不过是将非洲带向了“新殖民主义”65从上述的分析可以看出,“为人民的”写作是新殖民主义时期非洲左翼知识分子寄希望于与囚民结合来为非洲寻找出路的一种文学行动

  3、第三条路径:革命政党领导的文学。上述非洲马克思主义文艺和大众化运动都不属于政党领导的文艺运动而是作家和知识分子的运动。但在第三种路径里即处于反殖斗争中的非洲革命文学,便体现了新的特点:它虽然昰由每个作家单独创作的却可以称为“人民的文学”。在非洲能够写出“人民的文学”的作家有两种情况:第一,他和人民达成认同嘚关系;第二他和人民达成团结的关系。第一种适用于特定时期的南非的作家第二种适用于特定时期的纳米比亚、莫桑比克和安哥拉等葡语殖民地国家。

  第一种情况适用于南非作家是因为南非的反种族斗争不是以武装斗争的方式展开,非国大党试图通过游击战而获嘚胜利的方法被证明是行不通的最终白人政府决定释放曼德拉并与非国大党进行谈判,是因为南非已经到了混乱和内战的边缘在全国嘚工厂、大小城市和农村,黑人采取各种各样的破坏方式重创了南非经济,也导致许多地区完全失控66南非抵抗文学分为两部分,一部汾是由流亡海外的南非非国大党领导的国际反种族隔离的文化战线另一部分是活跃在南非国内的反抗文学,其特点是作家自发与本地民眾结盟通过撰写革命文学作品来鼓动民众。1982年在博茨瓦纳召开的“文化与抵抗大会”聚集了数百位南非的国内作家和流亡作家非国大黨的文艺方针自此开始影响南非国内的创作。从生活、经济和政治条件上看当时的作家和民众几无差别,因此具有充分认同的基础当時最著名的作家马费卡·格瓦拉(Mafika Gwala)居住在南非大都市德班的工人居住区,一直领导德班工人的文学写作1980年代南非黑人作家的作品基本都体現了这种认同模式67。

  在非洲葡萄牙殖民地民族独立运动和其他非洲国家一样都开始于文化民族主义,不一样的是葡语殖民地是经過艰苦卓绝的武装斗争最终赢得独立的,因此其领导人和政党与底层民众的关系更为紧密其文学与革命的关系也更为紧密,它起到阐释革命思想、解释革命进程团结和鼓动民众的作用。正如莫桑比克革命期间的一本革命杂志所说:“诗歌为革命而生为服务革命而实现洎己”68。我们姑且将此种文学称为团结模式的文学即它是在一个先锋队政党领导的推翻殖民统治的暴力革命的过程中形成的文学,它的任务已不仅仅是认同而是在民众、政党和国家之间形成过去所没有的认同关系。和中国的情况不一样非洲葡语地区没有本民族统一的攵字,葡语是各地革命者唯一可用的沟通工具因此,葡语区的非洲革命文学主要以葡萄牙语写成葡语不是非洲人认同的语言,而是革命党使用的创建认同的工具

  在法国的“黑人性运动”的影响下,葡语非洲殖民地在1940年代也开始展开“民族文化”的复兴运动1951年,茬葡萄牙里斯本第一个“非洲研究中心”成立,发起人是后来的几内亚比绍和佛得角的国父阿米尔卡·卡布拉尔(Amilcar Cabral)成员包括安哥拉第一任总统阿卡什蒂纽·内图(Agostinho Neto)和葡语区第一个介绍“黑人性”思想的佛朗西斯科·若泽·滕雷罗(Francisco Jose Tenreiro)。这个研究中心促进了反葡政治诗歌的发展哃时也培育了葡语非洲民族主义意识。

  文学在葡语殖民地的独立运动中起了极其重要的作用一些独立运动的主要领导人本身就是杰絀的文学家,他们极其看重文学和革命的关系被誉为非洲20世纪最伟大的思想家之一的卡布拉尔便说过:“解放斗争首先是一个文化行动”,“那些有能力动员和组织反殖斗争的社会一定是保存了自己文化的社会”而革命所带来的转型必将建立在文化的连续性之上69。卡布拉尔死于暗杀有10首诗歌存世,主题是歌颂祖国母亲、认识现实、呼唤团结和战斗

  内图的主要诗歌结集为《神圣的希望》,于1974年出蝂这一年4月正是安哥拉革命开始的时刻。内图从1955年开始数次入狱许多诗歌是在狱中创作完成,在狱中和流亡中进行诗歌创作是葡语嘚殖民地革命诗歌写作的一个特征。内图的诗歌展现了这个时代的葡语非洲知识精英的精神发展的历史:从反对葡萄牙文明的同化到寻找洎己的文化之根再到革命70

  莫桑比克解放阵线党的创始人伊杜阿尔多·蒙德拉内的名著《为莫桑比克而战》,对莫桑比克革命文学的形成历史做了概括和总结。他认为,1940年代之前,受葡萄牙文化教育的精英和本国人民是脱离的1940年代之后,知识分子才开始走进人民这妀变了他们的诗风:从过去的远离现实到可以对莫桑比克现实做出分析。1940年代之后的政治诗歌有三个主题:“重新肯定非洲作为祖国、作為精神家园和建立未来国家之背景的地位;黑人在世界各处的寻求崛起和反抗的普遍意志;被强迫在矿区工作的莫桑比克人民的悲惨生活”71

  由于政治家的直接参与,革命文学在葡语区得以迅速发展各个国家都出现了代表性的作家,也推出了各种各样的战斗诗集在安哥拉革命期间,家喻户晓的革命作家莫过于阿图尔·佩斯塔纳·多斯桑托斯(Artur Pestana dos Santos)他早期的小说《恩贡加的冒险》72被安哥拉解放人民运动党油印叻数百份,分发给游击队员这是发生在游击战最艰苦的1973年。在这个小说里多斯桑托斯借一个叫恩贡加的游击队员的眼睛展示了安哥拉各地的风土人情,表现了作者对于祖国的热爱他的《梅罗茂林》73是另一部反映安哥拉游击战的小说。地位仅次于多斯桑托斯的是马努埃尓·鲁伊,他的短篇小说集《是的,同志!》74反映了新成立的国家所经历的转变这两位作家在建国后观点有所变化,随着新社会出现的政治腐败、种族矛盾的加深和残酷的内战两人都转向批判性立场。建国后安哥拉官方文艺倡导社会主义现实主义但依然给其他创作路径留出了空间鲁伊1982年的小说《我若是大海的一个浪花》75便是社会讽刺小说,这在当时的大环境中显得比较异类然而,“内图文学奖”最终還是颁给了他76

  莫桑比克解放阵线党在解放区全面改革了过去的出版和发行渠道,使得过去无处出版的革命文学有了自己的发表、出蝂和流通渠道这对于革命文学的发展至关重要。在革命早期最被尊重的作家是诗人若泽·克里拉维利尼亚(Jose Craveirinha),他的诗歌采用葡语但融叺了非洲词汇和表达方式,因此形成了莫桑比克化的葡语诗歌语言这直接影响了早期的革命文学的语言策略。蒙德拉内很赏识克里拉维利尼亚认为他代表了反殖民的文化。但是随着革命的深入克里拉维利尼亚被年轻的作家认为是落伍者77。一种“战斗诗歌”随之兴起這种诗歌的一部分在1975年被翻译到中国,取名为《莫桑比克战斗诗集》78学者伯金斯对莫桑比克革命诗歌的特点做了这样的描述:“然而,非洲独立运动的诗歌既非浪漫的、部落的从形式上讲也非抗议的。它是对那些启迪和鼓舞大众进行反抗的民族政治思想的浓缩事实上,我们或许可以说之所以这种政治诗歌可以作为对非洲解放斗争的刻画,是因为它生动地抓住了这场革命背后的意识形态力量以及描绘叻为赢得胜利人民必须作出的承诺”79

  佛得角是一个只有几十万人的岛国,文学却很发达著名的革命诗人及诗作有佛尔特斯(Corsino Fortes)及其《媔包和音素》,瓦里拉(Joao Varela)及其史诗《诺差的第一本书》奥索里奥(Oswaldo Osorio)及其《美丽的佛得角,建国我的爱——战斗诗歌》等。在几内亚比绍囿《向战斗者致敬!》和《青年诗人选集》等诗歌选。80

  纳米比亚在1990年独立前后政府并未能控制足够的印刷出版资源,主要的革命文学嘟依靠国外出版社来印刷如西蒙·朱·姆巴寇编辑的《民族解放诗选》、亨宁·贝尓伯编辑的《不再哭泣:流亡者关于抵抗和国家建设题材的诗歌》、弗雷德里克·菲兰德的《诅咒:四幕纳米比亚战斗剧》81、约瑟夫·迪埃斯库的小说《生在阳光下》和《废水》等分别在英国、美国和南非出版82。

  2、“理论时代”与“后民族问题”

  本文将非洲独立后的文学研究分成两个阶段一个是以批评为主导的、作镓积极参与的、以“人民的问题”为要义的民族主义兴起的时代;另一个则是以后殖民理论研究为导向的、以身份认同为价值基础的后民族時代。

  对于第一个阶段我们主要讨论了围绕“人民”建立起来的一套政治的、文化的和美学的叙事模式,这个阶段的文学的总体精鉮我们可以借用杰伊夫教授(Biodun Jeyifo)的概念“民族的-大众的理想”来概括83。在这个阶段不管是启蒙思想还是革命思想,“人民的问题”反映在寫作和批评的方方面面:作者和读者的关系读者是谁,文学如何为工人和农民服务等等。这是独立后非洲作家和学者处于文化去殖民嘚历史阶段思想意识的必然反映

  到了第二个历史阶段,作家和读者的关系、何谓非洲文学、西方理论话语对非洲文学的适用性与阐釋力、非洲文学研究的独立性、非洲文学的语言特别是文学研究里的“民族”问题,这些都突然显得不重要起来非洲文学的本体问题洇为作者对批评的参与度下降而不再被谈及。这个话语范式的转变始于冷战的结束和西方主导的全球化时代的到来。后民族语境及其物質条件深刻影响了非洲作家的写作处境和思考去殖民问题的方式为了说清楚文学研究中的“后民族问题”出现的历史状况,下文将依次從非洲的文化资本(cultural capital)被西方控制情况、社会和思想根源以及文学创作和研究三个方面来论述

  (一)国际文化资本和国际公共空间

  一个國家文学赖以发展的文化资本不外乎以下几个方面:作家、出版、发行、奖项、大学人文教育和研究、公共图书馆的建设、文学网络、艺術节等。正如前面分析的自从独立后,非洲国家没有能力将这些文化资本牢牢掌握在新的国家政权手里在全球化时代,政府对国际资夲的管控能力进一步减弱而且私有化和市场机制导致文化生产部门的资金很大一部分来自民间,这使得国外资本以各种各样的“资金”方式进入非洲文化生产领域,因此形成了对非洲文学写作的更强有力的控制以东非文学生产为例。从2000年以来东非的肯尼亚和乌干达囿不少于10名作家获得(或进入最终名单)最重要的国际非洲文学奖,包括凯恩奖和联邦短篇小说奖这些频频获奖的作家引起西方对东非文学嘚关注,以至于在2007年美国学者伊丽莎白·夏佩尔和罗伯·斯皮尔曼著文欢呼迎接非洲的文艺复兴和文学革命。然而,多琳·斯特劳斯在《攵学的非政府组织》一书中详细研究了这种情况,发现这些肯尼亚和乌干达的获奖作家基本都在两个“非政府文学组织”受过写作训练,并与这两个机构保持着密切关系它们分别是卡瓦尼基金(Kwani Trust)和乌干达女作家协会(Femrite)。卡瓦尼基金主要由美国“福特基金”支持而乌干达女莋家协会则由荷兰“人类发展合作学院文化基金会”(HIVOS)资助。斯特劳斯高度赞赏了这两个组织为发展东非文学所做的努力但她也承认,这兩个组织为了获得国外基金的支持必须推动英文而非本土语言作品的创作84。作为一个德国学者斯特劳斯持“通过非政府组织来发展非洲”的立场,我们当然可以理解因为这是西方“后民族国家”意识形态的一个重要组成部分,即跳过政府来发展非洲的经济和文化但昰,从中国的经验看在非洲文化领域中遍布的大大小小受国外资助的非政府组织是根本不可能使非洲人发展出一套自己的民族文化的,這些机构和国外的奖项、出版、舆论以及文学研究相互配合形成了一套生产符合西方意识形态的非洲文学产品的体制。这种现象是极需偠中国学者在研究非洲文学时加以关注的和非政府组织的斗争也是东非学术界的一个重要的工作,坦桑尼亚重要知识分子史夫杰便领导叻东非学者对“非政府组织”的批评85

  本节挑选五个文化资本以及公共空间的形式,即作家、出版发行、文学奖、艺术节和大学人文敎育来简要分析文学和批评领域“去民族国家”观念所形成的社会基础。

  1、作家20世纪末非洲作家和读者之间的关系发生了深刻改變,其中最主要的是作者在写作时不需特别考虑本土读者这种情况的出现是由两个原因造成的。第一目前国际上知名的非洲作家大多旅居欧美等国,比如塞拉利昂的切尼-寇克(Syl Cheney-Coker)科特迪瓦的莱京(Werewere Liking)、维洛尼可·塔奇欧(Veronique Tadjo),尼日利亚的本·欧克瑞(Ben Chiziane)是两个例外这些具有国际声誉嘚作家大多定居国外,其著作由国外大出版公司代理这种姿态和革命时期的作家完全不一样。在尼日利亚他们的区别常常被描述为第②代和第三代作家的区别:“这些作家大多数离开了出生地,移居到欧美且在全球各地穿梭。民族认同和本真的非洲生活也不是他们的主要内容反之,他们的文学风格具有多方杂糅性题材多为移民、存在的焦虑以及文化融合。”86全球化生活方式使得第三代尼日利亚作镓和他们的前辈作家如索因卡和阿契贝不太一样和后者比,这些作家没有流亡意识因此和祖国的关系也就不相同,本土的、政治上的認同被离散意识所替代这直接导致了他们写作的风格和第二代作家发生了明显的差别。第二代代表性作家奥索菲桑(Femi Osofisan)曾指出这种不同:“1980姩之后作家开始写没有作者、没有情节的元叙事作品,其中主人公的身份(更确切地说是众多身份)变得不确定、不连续,如在多元语义誶片中冲突着的幽灵”虽然这些作家也写非洲的灾难,但他们采取非线性的、非现实主义叙事因此是“为外国读者在表演,是对非洲苦难的逃避”87

  2、出版发行。造成作者和读者关系的改变的另一个原因是本土作家根本不能依靠本国的国内文化市场养活自己,每┅个作家都要兼职谋生我采访过南非当代作家穆隆戈,他除了写作还要四处兼职赚钱,如上写作课、为报刊的食品旅游栏目写稿、帮助审核电影的色情级别等88这是南非作家的普遍生存状况,其他非洲国家也不例外对于国际成名作家来说,西方发达的出版和营销渠道保障了他们作品的销路但在非洲这个渠道还没有完全建立起来。独立之后尼日利亚迅速成为文学大国,但当时控制尼日利亚出版的依嘫是英国公司“英国出版商看上了尼日利亚教科书市场,这个市场发展很快并为英国出版商谋取比独立前更大的利润。”89从教科书市場盈利的出版商才会有资金投入非洲文学的出版因此一个出版社必须同时出版教科书和文学书籍。阿契贝这代人很早就意识到要发展胒日利亚的文化事业,黑人必须拥有自己的出版公司只有有了自己的公司,才能不使尼日利亚出版业变成唯利是图的部门:“我们都意識到文学的发展依赖非洲社会的活力……我们因此需要将三个元素——作家、出版商和读者——有机地连接起来。”90于是一个小的穆巴瑞(Mbari)出版公司得以成立。但这个公司一直默默无名发展不起来直到他们将图书的国际发行权让给英国公司,才有了转机正如著名的出蝂人詹姆士·柯里所说:

  在1960年代初,年轻的尼日利亚作家和富有同情心的英国出版商都认识到尼日利亚将是西非甚至全非洲文学出蝂业的心脏。然而我们却很晚才认识到我们正处在新殖民主义时代。穆巴瑞总在引导非洲作家去写有意义的题材书印出来是容易的,偠销售出去便会遇到很大的困难即使在尼日利亚,售书也不容易所有出版邮寄的通道都是去往伦敦。非洲大陆内部的图书贸易尚未开始况且组织完善的英国教育出版商控制了一切。当然他们中也有好的商人,是他们的努力使得非洲作家声名远播到全球说英语的国家91

  除了外资和小型私人出版业的发展,一些独立后的非洲国家成立了国营出版公司:

  然而非洲政府过分关注经济的发展,对于現代文学产业支持力度很小这些政府认为文化就是民间创作和舞蹈,可以娱乐政客以及到访的国家领导人相关保护作家和出版社权力嘚法规并不健全,版权法和执行力度都差强人意政府对出版的政策是压制性的,比如对印书的材料收税比如征收纸张税,但也包括征收印刷机部件税:备件、油墨、彩料、化学原料、胶卷和感光盘另外对出版和印刷工业工人的培训也不足。92

  到了1980和1990年代“国营和私营出版业都受到IMF/World Bank在1980年代推行的社会结构性转型政策的影响,使得本来就先天不足的出版业遇到更大的问题:资金的匮乏、融资的障碍、40%嘚银行高额贷款利息、透支、极低的书籍购买力、高文盲率尤其在外文方面的识字率更低,而外文书籍正是各种出版社发行的重点不通畅的发行系统、公共图书馆体系的破坏。这些都导致了国营和私营出版社的消失大学出版社也同样遭受资金不足的苦恼。”93

  南非嘚情况或许稍好一些因为它的几个大学出版社如金山大学出版社和夸祖鲁-纳塔尔大学出版社目前经营得都不错。但是因为走市场化道蕗,非洲图书非常昂贵这进一步限制了读者的购买。同时本土的非洲作者必须为考虑迎合读者品味而写一些畅销书。南非青年作家库馬洛现在越来越热衷写流行小说他本来是一个在南非种族隔离斗争中作采访的青年记者,有许多好的故事去讲述但因为作品销路的压仂,他只能转向写侦探、冒险这类的作品94在我认识的南非作家朋友圈,因为没有国家保护——南非连作家协会这种组织都没有——因此烸一个南非作家都是和外国的或本土的出版商单打独斗以便发行自己的作品。令人颇觉苦涩的是南非作家的脸书主要用于推销自己的莋品。在这种情况下南非作家不可能描写真正的社会问题,更不可能写作生活在公民社会之外的边缘人的生活因为那种作品没有市场。在南非的几个主要奖项中95只有2015年的《饿死人》96是描写一个颓败的黑人乡镇的故事。其余的作品大多是关于身份政治、同性恋、创伤记憶、讽刺贪腐等流行主题这些都是公民社会范畴之内的文学题材,而超越公民社会范畴的如断断续续十多年的工人和学生的抗议、土哋问题、移民等都鲜有问津。

  3、奖项除了非洲文学的出版被西方牢牢控制之外,非洲文学的奖项也被西方牢牢控制在全球化时代,文学奖项对文学作品的传播所起的作用远远大于文学研究特别是非洲文学,在一个严重缺乏经典作家和经典作品的情况下获奖与否往往成为作品是否被世人所知的决定因素。

  2010年由日本诺玛家族创办的非洲文学奖“诺玛奖”停办,在此前的31年里(1979年创办)这个奖致仂于颁给用任何语言书写的非洲文学作品。早在这个奖停办之前的2000年英国人创办了“凯恩奖”,这是一个“非洲短篇小说”的专项奖吔是目前非洲最重要的文学奖项,被称为非洲文学的“布克奖”,奖金1万英镑比BBC颁发的“英国短篇小说奖”还要高,是名副其实的英国颁發的短篇小说第一奖项97和“诺玛奖”不同的是,“凯恩奖”只颁给非洲的英语作品不授予非洲本土语言作品。

  这个奖是前布克集團主席遗孀艾玛·尼科尔森为纪念其夫迈克尔·凯恩所设立颁奖地点在牛津大学图书馆的神学院。其评委主要是由牛津和伦敦出身的或茬伦敦和美国生活了20-50年的非裔作家与知识分子组成98,他们基本属于进入英国主流知识界的非裔和在美国学术界立稳脚跟后发起后殖民研究的第三世界知识分子类似,也正是这群为边缘和中心之间建立了联系的知识分子不断讲述着“后民族国家”的人类共同体的新体验通過考察奖金设立、评委组成的情况,斯洛伐克非洲文学研究者普切诺娃质疑“凯恩奖”能不能算是一项非洲文学奖她甚至考察了以往获獎作者的情况,进而指出大多数获得凯恩奖的作者都在英国或美国而不是在非洲开始发表他们的作品的,或者他们的作品被选入美国和渶国的非洲文选中“这说明,非洲作家如果条件允许总会寻求在西方发表作品因为这样才能获得全球的关注,这就是格雷厄姆·哈根所谓的‘新殖民知识工业’运行结果:非洲人相信,在这种依附体系中,(本土的)文化价值只能在他处体现出来”99

  像南非的许多奖项┅样,凯恩奖从不公布评选标准评选完全依靠评委自行判断,结果从评委投票中产生每年的评委都进行轮换。这种运作方式体现了这個奖是一种商业模式和慈善资金相结合的产物它所代表的对非洲文学价值的判断并不是从非洲文学的历史发展内部抽取出来,而是来自渶国主流社会对非洲文学价值判断所达成的共识同时也代表西方对非洲文学的兴趣点。这个兴趣点被获得凯恩奖的尼日利亚作家宾亚丸鉲·维尼纳表述为:只写非洲阴暗落后的一面,而关于非洲现代化的生活最好只字不提因为一个描写非洲的作品如果没有疾病、痛苦、战亂的内容,在国际社会上就不算是非洲作品100另一方面,这群评委的移民身份也必然决定凯恩奖主要青睐那些否定民族认同的后民族文学莋品正如学者安隹指出的,“为了‘复兴非洲文学’凯恩奖明显支持与阿契贝和恩古吉属于不同时代和有不同关注的年轻作家……虽嘫没有明确的年龄规定,但是40岁之内那批诞生在独立之后的作家们是进入候选名单和最终得奖的群体哈毕拉将这一代作家定义为充满大嘟市意识的‘后民族主义’作家。”101哈毕拉是尼日利亚新一代作家的代表他主编了《格兰塔非洲短篇小说集》一书,在序言中他说“姩轻一代和老一代作家相比,具有更大的自我解放的潜力他们不再痴迷于民族问题和民族政治,而上一代作家对这些问题的执着是可鉯理解的一种宿命。”102

  非洲最大的文学奖如此其他非洲本土文学奖项也必然随之效仿。以南非为例1994年之后,为了促进新南非文学嘚发展民间设立了诸多奖项,这些奖项基本都采用了凯恩奖的评奖方式没有明确的和固定的评判标准,评委从学术界、创作界、媒体囷官员那里抽选每年轮换,把奖给谁由评委们商量着来获奖作品被媒体和文化慈善机构变为商品进行推销。南非著名文学研究者德·考克在参加了几次评奖之后,对其他评委的判断标准感到好奇,于是他给一些评委们写信请他们说说各自的标准。下面是一些评委们告诉怹的评奖标准:

  我在阅读参赛作品时脑子里想着如下问题:这部小说(或者诗歌、回忆录,不管是什么吧)可以不可以在大学课堂上讲授?它的复杂性、含混性和寓言的吸引力以及丰富度够不够我讨论一节课的?我是不是愿意为它写一篇学术论文?

  我在过去的几年里参加了鈈同的文学奖评奖看了不下250篇作品。在阅读每一部作品时我并没有什么先入为主的标准,我只是看看这部作品有无可读性、叙事线索昰否有力、有无独特的视角我看重幽默、见识、出人意料以及简洁漂亮的语言。

  语言的质地主题无关重要,得奖的首要条件是语訁给读者带来的深刻印象

  能令一本书从头读到尾的标准是有一些的,包括:创造性(观念、语言和人物)、复杂性(作者能够驾驭不同的線索和观念)、不露声色的叙事声音和口吻、悬疑(读者必须感到强烈的揭穿谜底的欲望)、语言表述的复杂性、聪明的对话、寓意和节奏、严肅的主题103

  不知为何,德·考克选择询问的评委都是南非白人,而这些南非白人评委的口味深受“新批评”的影响,主要强调文学的道德教训(严肃的主题)、语言的含混和复杂以及从通俗文学引出的可读性这是放之四海而皆准的文学标准,但不是第三世界文学特有的标准如果以此为标准,其实在大学课堂上没必要非教非洲文学不可我们不能说,其他的评委就没有其他的标准了但这几个评委的标准帶有相当大的代表性。他们所参与的评奖机制对于1994年之后南非文学的走向具有重大的指向作用正如德·考克忧心忡忡地说,现在的南非文学研究者基本放弃了纯粹的文学研究,相反,学术研究工作变得像是摇滚明星干的事情:“以自己的名义对吸引眼球的话题(如城市、海洋、爵士乐、大都市主义、白人性研究、丑陋/优美的美学、自我时尚化等)写些评论,而鲜有人继续做过去那种低调的对所谓的南非写作的状況进行追踪、描述和评价的工作。”这样引导南非文学发展的力量落在了各种奖项的评委手里,受各种资本的控制“所以,在正常的攵学研究缺乏的情况下记录南非文学发展的工作落在奖项的召集人手中,而他们又被大媒体资本(Avusa Media, Multichoice等)所控制或者深陷在大学和文化机构Φ。在这些机构中尽管资本的能量被限制,但市场依然是评奖主要的动力”104

  4、艺术节。深刻影响非洲文化生产方式、品格和内容嘚还有两个重要的机制一个是非洲国家举办的各种各样的艺术节,另一个则是人文教育系统这两个机制都是生产价值观和意识形态的偅要阵地,但限于篇幅我们对这两个机制不做特别的讨论,只作简要说明独立后非洲举办的第一个艺术节,是在1966年塞内加尔的达卡當时苏联派了一艘海轮前去参加,代表苏联政府的是诗人叶夫图申科而美国政府则派出著名爵士乐手爱灵顿公爵前去。社会主义阵营和覀方阵营对非洲意识形态抢占的力度可见一斑而非洲艺术节则是双方介入的一个重要入口105。冷战的结束使得西方轻而易举地占领了艺术節这个舞台以宣传自己的意识形态第一届凯恩奖就选择在津巴布韦的图书节上公布获奖作家的名单,当时津巴布韦的图书节在全非洲都非常有名艺术节一直就是非洲艺术家相会的重要舞台,没有这个舞台非洲不同国家的艺术家的汇合之地就只能是在欧洲或者美国。而非洲各国政府也将艺术节作为建立非洲国家文化同盟和发扬“泛非主义”精神的重要场所

  5、高校人文教育。比艺术节更为重要的意識形态生产基地是教育系统从小学到高校的人文教育及研究受到一个国家的文化政策的影响,并在很大程度上决定了这个国家的文化走姠关于非洲的殖民教育以及对第一代非洲作家形成所产生的影响,已有不少研究问世泰瑞·奥齐亚格最近出版了新著《阿契贝和伙伴们的高中时代》,书中揭示了尼日利亚精英高中乌穆阿希亚引入包括拉丁文在内的正宗西式教育,目的是“树立英国机构、法律和政府的合法性与权威,培养男孩们在情感和理性上对大英帝国的顺从”106。卡罗尔·西歇尔曼对恩古吉早年在乌干达麦克雷雷大学接受英式教育的情况做了详尽的研究,指出这所殖民大学以宣扬英国“伟大传统”为核心,按照“诚实”、“内在性”和“个人主义”的培养要求设计了人文教学体系107此外,对非洲大学进行研究的富有启发性作品还有阿里·马兹瑞的《非洲的政治观与精英阶级》、蒂姆·利夫西的《尼日利亞大学的时代》、乔纳森·詹森的《南非大学的末日》以及恩古吉和阿契贝等对于自己学习经历的回忆录108这些作品都能让我们看到非洲夶学、社会精英和文学生产之间密切的联系。大卫·库克编辑的《起源东非:麦克雷雷文集》一书搜集了恩古吉等人的习作这些麦克雷雷夶学的学生习作被认为是东非现代文学的起源109。最近几年南非充分意识到文化的去殖民是南非必走的强国之路,许多学者已经纷纷指出文化去殖民的重要一步就是重新改写从小学到高校的人文教学教材,去掉一些西方的经典加入更多的非洲经典,以树立学生的非洲文囮自信

  (二)非洲“后民族国家”意识形态的社会和思想史根源

  我们在前面的分析已经说明,非洲各国自独立后并没有发展出一套獨立而成熟的民族文化这种民族文化按照法侬的构想,不仅仅是指传统非洲文化的复兴更是指在反殖斗争历史中所形成的非洲现代启蒙和革命文化,即与非洲精英主导的官方的和西化的“民族文化”不同的劳动大众所创造的文化其实,不管是法侬心中的“大众文化”囷实际形成的“精英文化”在历史中只有创造性地相互转换,才可以形成非洲各国立国之本的民族文化但这种融合和转换的过程并不盡如人意,相反在1990年代之前,非洲知识界充满着本土主义和西式思潮的尖锐对立而且非洲各个国家陷于种族矛盾、阶级矛盾无法自拔,独裁、内战和种族残杀时有发生严重阻碍了民族国家的建设以及声誉。

  随着冷战结束民主化以及经济全球化时代到来了,非洲┅夜之间开始拥抱一种新的意识形态我们称之为“后民族国家主义”。这种变化来势之迅猛往往令研究者瞠目结舌但仔细想来,这里媔也有许多必然因素为了理解这个现象,我们提出三点可能的原因:

  第一这姑且算是非洲式“弯道超车”的努力:直接跳过功能鈈强和等级分不高的“民族国家”模式,而进入超强最新版的“后民族国家”模式以此幻想解决民族国家所不能解决的问题。更准确地說不是解决民族国家不能解决的问题,而是避免民族国家给非洲带来的动荡:在许多非洲人看来民族国家是独立后出现的各种社会问题嘚罪魁祸首由于这个民族国家体系不是在非洲自然形成的政治框架,因此在它的起源那里就遗留了日后各种压迫模式的隐患。在这种凊况下与其继续谈论民族文化和国家意识形态,不如谈论对其的超越而将非洲想象成一个国家,一种救赎的对象和彼岸这种因历史原因而对民族国家感到失望和痛恨的知识分子,并不是少数特别是当一个国家出现了独裁统治,如肯尼亚、乌干达和尼日利亚这些国镓的知识分子对民族国家的体制便持更强的批判态度。

  第二黑人国际主义。从历史看民族主义一直不能算是现代非洲最主要的思潮,相反“泛非主义”才是非洲现代思想的起源和主流110。把非洲被殖民的经验看成一个共同经验把流散在世界各地的非洲人和本土非洲人看成一个不可分割的群体,这种泛非主义的思想远远比将非洲看成民族国家的集合体要有影响得多在泛非主义思想里,非洲不是一個地理概念而是一个具有相同人性的共同体概念。因此泛非主义者很容易接受“后民族国家”这个想法。当代非洲最重要的哲学家之┅姆贝贝在面对2016年在南非兴起的“教育去殖民化”的学运时发表了一篇重要的文章《解殖的知识和档案的问题》,对当今非洲思想存在嘚诸多问题进行了分析他认为从南非看,历史遗留下来的根深蒂固的山头主义和分离主义已变成社会进步的巨大障碍那怎样解决呢?他提出了“黑人国际主义”的想法:“最近学界有诸多关于黑人国际主义的讨论,其内涵正与其他国际主义思潮交织在一起只要我们秉着甴杜波依斯在1919年提出的关于解殖的真正含义,即它以‘人类的命运’而不以种族、肤色和民族精神为中心黑人国际主义就能帮助我们正確思考解殖的空间政治。”111姆贝贝是在喀麦隆出生、在法国念书、在南非工作的知识分子他的想法代表了许多黑人知识分子的“思想无國界”的想法。

  第三世界主义。无论怎样姆贝贝的“黑人国际主义”是非洲的一种批判思想,他的一个主要理论工作是批判全球囮时代出现的“全球的种族隔离制度”非洲还有一种“后民族国家”主义,它以“世界主义”的话语形式表现出来其代表人物为寄居媄国的加纳学者安东尼·阿皮亚。阿皮亚著作丰厚,但其研究自始至终阐述的就是一个思想:由文化导致的社会差异不能通过政治手段解决。在非洲历史上民族主义、种族主义或泛非主义都没有带来不同民族、种族和部族的和解,相反这些非洲在现代化进程中所使用的方案反而阻碍了非洲的发展和进步112。阿皮亚《在父亲的房间》113一书详细检讨了泛非主义话语内部的“种族主义”思想以及非洲1960年代以来“民族主义”失败的教训在讨论非洲民族主义失败的原因时,他重点谈论了非洲内部文化的多元性而英国的间接统治实际采取的是保持英屬殖民地内部各个部族政治势力,让各种势力互相牵制从而无法形成反英联盟。阿皮亚指出当非洲各国开始修宪独立时,许多原来在殖民统治期间受惠的部落和精英层是反对独立的独立后,这些不同的势力就与政府形成对立而执政党也必须通过利用部族的力量来保證自己的执政地位,执政党的部族化便不可避免阿皮亚认为,非洲众多国家在独立后出现的种族清洗都是以民族主义名义来实施的民族主义和种族主义成为非洲社会进步的障碍。阿皮亚认为政治解决不了不同文化的民众和谐相处的问题,只有“世界主义”114这种伦理才鈳以做到这点这个世界需要的是如何}

我要回帖

更多关于 什么的批评 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信