admin管理员组

文章数量:129985


2024年6月16日发(作者:五粮液股市下周走势预测)

维普资讯

互联网股票新闻归类和板块分析的方法 

文章编号:1003-5850(2006)11-0002-03 

互联网股票新闻归类和板块分析的方法 

ClassificatiOn and Industry Analysis of Stock News in Cyberworld 

陈 华 梁 循 

. 

(北京大学计算机科学与技术研究所 北京 100871) 

【摘 要】从互联网角度研究和分析了股市新闻。针对互联网股市新闻的特点,提出了对它们进行分类分析的方 

法,通过对股市新闻的分析,期望能够找到股市运行的一些规律。在按照个股特征对网络上的股市新闻条目分 

类的同时,利用自然语言处理的功能,深入分析股市新闻内容,得到该股市新闻涉及的其他个股以及板块信息, 

并总结其影响力。 

【关键词】板块,股市,互联网新闻,个股 

中图分类号:TP391 文献标识符:A 

ABSTRACT The stock news in the cyberworld is investigated and analyzed in this paper.In view of the characteristics of the 

Internet stock news,the approach of classifying the lnternet stock news is presented.Based on the analysis of the stock news, 

some rules existing in the running of stock market may be extracted.While classifying the Internet stock news according to the 

stock characteristics,the natural language processing technique is adopted to deeply analyze the stock news contents for obtaining 

the information of both individual classified stock and the industry stock,and their influences are also summarized. 

KEYWORDS industry stock,stock market,news in cyberworld,individual stock 

随着互联网技术的发展,网络新闻已逐渐成为人 

们获取相关知识进行研究的主要数据来源。在中国股 

1新闻归类和板块分析的方法 

市上,股民通过判断各方面资讯来决定自己的操作,这 

本文所述方法属计算机应用领域,涉及网络金融、 

往往会对他们的经济利益产生很大的影响_】 ]。如何发 

自然语言处理和分类索引技术,具体涉及的是一种对 

现大量的股市新闻之间的相互关系,研究它们之间产 

互联网股市新闻分析和分类的方法。目的是通过分析 

生的相互影响?分类分析并研究互联网上股市新闻 

个股新闻内容,发现其产生的影响性质。 

就可以满足广大金融爱好者对这个问题的兴趣。 

解决方案分三步,首先是利用网络爬虫对金融领 

互联网的股市新闻很多,它们分布的位置可分为 

域(此处是证券)的新闻进行获取,其次是对抓取的内 

两类,一是位于某一上市公司的分页(如,新浪网金融 

容分类,最后总结得出该信息对板块影响程度 的结 

版的方正科技分页的子位置是http://finance.sina. 

论。系统整体流程见图1,具体算法如下。 

corn.cn/realstock/sh6O0O61.htm1),这被认为是个股 

1.1互联网股市新闻的抓取 

的新闻;另一处是在通用栏内文题含有上市公司名 

按照以下步骤进行: 

(包括别名、简称和代号)或行业名或影响股市整体(例 

①生成站点列表并存人数据库中,包括站点的一 

如宏观指标变化)的信息,称为公共新闻。本文讨论前 

些特征信息,如日期、深度、遍历方式等; 

类,即个股新闻。各类股市新闻相互依赖有着千丝万 

②从数据库的站点列表中读取一条信息,准备进 

缕的联系,某些个股的变化可能造成其他个股甚至整 

行入口的个股参数查询操作; 

个板块变化,研究这些联系对于分析股市的走向具有 

③用个股代码给个股参数赋值,形成一系列需抓 

很重要的参考价值。目前已有技术主要是对新闻股评 

取的地址并下载,形成个股索引网页集合; 

内容的抽取和浏览,并未对内容做系统的领域分析,很 

④分析索引网页并找到个股新闻和板块信息,利 

多搜索引擎_4 已经做出了一些成就。对个股信息的归 

用金融词典过滤,产生个股新闻网页地址; 

类是本文一大特色,不同种类的新闻影响差异很大。区 

⑤下载④的网页,按模板分割为标准结构(标题+ 

分出个股和公共信息后,对它们的评价可赋予不等权 

重,这样的数据是很有价值的。 

作者+日期+正文),然后分类存储到数据库; 

⑧获得板块所属的个股代码列表,从该列表中依 

次取代码转到步骤③,如该列表空,则继续; 

* 2006—07—14收到,2006—09—05改回 

** 基金项目:留学回国启动基金(4131522)。 

***陈华,男,1980年生,硕士,研究方向:计算机应用。梁循,男,l967年生,博士,MBA,研究方向:计算机应用。 

维普资讯

第l9卷第11期 电脑开发与应用 

阀个值股权计算卜重f < 丫 Kf  f鬈窦 

l语义处理 

//,——\ 

对个股影响 

程度(+~O) 

(总结

\—

——

 

 

图1 系统处理流程图 

⑦扫描数据库的站点列表,如有未被访问的站点 

则转到②继续处理,如站点列表空则结束。 

1.2对个股新闻进行分类 

按以下流程进行: 

①初始化板块、个股集合信息和词典信息; 

②从数据库按照股票代码读出一条个股新闻,同 

时会得到该新闻所属的板块信息; 

③从个股所属板块提取出板块下属的个股信息, 

初始化受影响其他个股列表; 

④对新闻内容分词得到主要公司信息,并获取关 

联的其他公司信息,记录其位置和频度; 

⑤对内容做语义理解,判断其影响为正、负或无 

(分别用“+”、“一”、“0”表示); 

⑥继续②的操作直至个股列表处理完毕。 

1.3总结是否对板块形成影响 

①首先确定该新闻提到的个股所属的板块,并获 

取板块下属个股集合(n支个股); 

②定义板块内个股权重,龙头公司权重为最大,其 

他依次递减形成集合(oJ。, ,A, ); 

③对新闻中出现的个股分词统计,产生个股集合 

的权重列表( 。,W1,以,W ); 

④设定板块受影响的阀值K(O< <1),计算 

∑W 

k一},当k<K时,可忽略该新闻对板块的影响, 

∑ 

' 0 

否则认为该新闻可能会对板块产生影响。 

对个股新闻的分析可有效发现其影响,并能利用 

相关关系来分析股市走向[5]。方法独特之处在于对个 

股及其关联个股关系的提取,综合了个股和板块分类 

算法,对网络金融的研究有很高的价值,可用于相关领 

域的数据挖掘研究 ]。 

2 实施举例 

下面详细地描述出本文的最佳实施范例。我们分 

析新浪财经的一条个股新闻网页,该新闻涉及的个股 

是“金陵药业”。(金融新闻URL_8 为http://finance. 

sina.corn.cn/realstock/sz00091 9.htm1) 

2.1搜集个股新闻 

按照以下步骤进行: 

①抓取个股索引网页。下载该页并分析链接及文 

字,在页面中找到所有与关键词“金陵药业”及所属板 

块相关的条目,按照来源分类存储。 

②抓取个股主网页的子类。形成个股资料与股票 

代码的列表,同时形成板块列表(如表l所示)。 

表1股票板块分类表 

板块名称 公司数量 

金融板块 12 

煤炭石油板块 26 

G股板块 1()2 

有色金属板块 37 

③从个股列表获取代码“000919”为输入参数,用 

深度遍历下载个股相关新闻,并过滤下载内容,同时匹 

配模板将信息分离为标题、作者、时间以及正文,记录 

到数据库,模板定义如表2所示。 

表2模板标记格式 

元素 开始 分割 结束 格式 

标题 (h1) </h1) 

作者 (hl> ,(/h1) 

时间 at from YYYY MM—dd 

内容 (font) (/font) 

2.2按新闻特征进行归类 

进行个股主页的板块分析,得出所属板块为医药 

制造业板块。 

个股主页无板块信息时,可查询板块分类表,如表 

1所示,形成初始关联个股集合。 

2.3求个股新闻可能影响的其他个股 

算法如下: 

①首先对文章内容进行汉语分词处理,分词结束 

可得到一些词频统计数据,如表3所示。 

(下转第6页) 

维普资讯

基于DSP和FPGA的挠性陀螺数字力反馈回路的设计 

的XCS20XL一4VQ100来实现,采用VHDL来对其 

进行编程。 

同电流时的漂移分别为0.03。/h和0.o/h。基本达到 

了陆地车辆导航要求。 

4试验结果及分析 

整个力反馈回路平台搭建之后,我们对回路性能 

进行了测试。对回路进行扫频时发现其带宽很低,通过 

5结束语 

本文介绍的方案是为某一具体系统而设计的。实 

际试验结果表明此方案具有较好的精度,陀螺漂移测 

试也达到了我们的要求。采用基于DSP和FPGA的数 

字化方案设计陀螺力反馈回路,可以有效地克服模拟 

对校正环节的零极点进行调整,同时提高回路的开环 

增益,系统的带宽增加到50Hz左右,满足陆地车辆工 

作要求。 

整个力反馈回路频率特性仿真图如图4所示。 

回路噪声等误差的引入,对提高陀螺精度有重要意义。 

充分发挥DSP强大的数字信号处理能力和嵌入式控 

制功能,可以进一步提高力反馈回路的性能。 

参考文献 

[1: 陈忻彦,黄 一,韩京清等.自抗扰控制思想在动力调 l

谐陀螺仪力平衡回路中的应用[J].中国惯性技术学 

报,2003(6):84—89. 

[2- 吴本寿,万德钧,l周百令.国外动调陀螺仪再平衡技术 

的发展[J].中国惯性技术学报,1996(2):52—57. 

[3: 李l

L二J 

] ] 

恺,董景新,赵长德等.基于DSP和CPLD的数字 

化转台伺服系统的设计与实现[J].中国惯性技术学 

报,2003(4):55—58. 

图4力反馈回路频率特性罔 

[4- 周百令.动:I灯调谐陀螺仪设计与制造[M].南:京:东南 

大学出版社,2002. 

同时在试验条件下我们分别在lOmA和200mA 

两档电流下对陀螺漂移进行了测试,得到其在两档不 

(上接第3页) 

[5-I TI公司著.张卫宁译.TMS320C28x系列DSP的 

CPU与外设[M:1.北京:清华大学出版社,2005. 

表3个案词频统计表 

个股名称(代码) 

金陵药业 

博客等其他互联网内容的分析。 

针对数量庞大的互联网股市新闻,本文中所描述 

4 

出现频度 

的是对新闻内容本身的细化处理,而且是专有领域的, 

针对金融股市信息的处理,这一自动分析方法可用于 

南京医药 4 

简单的词频分析可得到本新闻涉及板块内另一支 

个股“南京医药”,两者出现的频度一样。 

②内容的语义理解。按自定义词典,通过相应算法 

帮助相关研究人员提高他们的研究效率。 

参考文献 

Brennan M J. Stock prices and the supply of 

得出信息主趋向,判断出对“南京医药”的影响呈“利 

好”(“+”)。同样操作至处理完所有个股。 

③对医药板块的影响分析,设K===0.5,权重相 

当,计算k<O.5,由于本例涉及相关个股较少,且内容 

是个别的资金流动,对板块影响记为“0”。 

information[J].Journal of Finance,l99l,46:l 665- 

l 691. 

Titman S.Security analysis and trading when some 

investors receive information before others[J]. 

Journal of Finance,l994,49:l 665一l 698. 

粱 循.通过Web统计信息挖掘研究股市反应[J]. 

微机发展,2005,l5(8):81-84. 

3结束语 

本文所述的是对互联网上股市新闻的归类分析方 

法,通过自动的分类分析,根据可扩展的自定义金融词 

典,提供了对个股新闻的更细化分类,在很大程度上的 

丰富了对股市信息的关联功能,可以让相关领域的用 

户更直观地发现股市运动的规律。 

梁循.杨健,陈华等.互联网金融信息搜索引擎 

[J_].中国管理科学,2005,13(增刊):240—246. 

Liang X.Impacts of internet stock news on Chinese 

stockmarkets.China ̄USA Business Review[J].2005, 

3(11):1-7. 

梁 循.数据挖掘一建模、算法、应用和系统[k}].计算 

机技术与发展,2006,16(1):1-4,65. 

进一步可借助自然语言处理等一些相关的技术来 

更加具体地判断出个股新闻影响的性质,还可深入地 

分析综合判断出对所属板块影响的程度。本文所述的 

方法可以被进一步地改进,用于对与股市相关的论坛、 

梁 循.数据挖掘算法与应用[M].北京:北京大学出 

版社,2006. 

梁循,曾月卿.网络金融[M].北京:北京大学出版 

社,2005. 


本文标签: 个股新闻板块