A股仍有15%的概率重返6000点?

财富   财经   2024-09-12 21:02   上海  

大家好,我是很帅的狐狸🦊

今天又标题党了,标题的结论是我用了Safe AI和UC Berkeley的一个产品得出的……



这个产品是老钱昨天推荐给我的,可以用来预测各种事件的发生概率,预测的准确率为87.7%



今天我打算稍微聊聊它,还有它背后的工作逻辑。

它的提示词也是公开的,我附在文末了。



Part 1

🤔 有意思的产品逻辑 🤔


这个产品叫 FiveThirtyNine(539),产品名本身也很有意思——

经常看美国政治的人可能知道一个叫FiveThirtyEight(538)的政治分析网站。

它的名字来源是美国一共有538个选举人(100个参议员、435个众议员以及3个哥伦比亚特区选举人)。



它实现的原理也挺简单的,分为以下几步(全自动的,你只需要输入问题)——


第1步:生成关键字

让AI根据需要预测的命题(比如这里是「大A重回6000点」),生成多组搜索关键字,关键字需要是以「新闻」(News)或「观点」(Opinion)开头。

我提问提得不大好,因为我没限制时间。

好在AI自动帮我加了2024年的时间范围。



第2步:抓取信源

从搜索引擎抓取相关信源,整理为一个列表。

截至这里,都跟Perplexity和秘塔AI的体验差不多。



第3步:提炼事实

从信源和模型已知的相关知识中,提取出要预测命题所需要用到的事实,整理为一个列表(暂不给出观点)。



第4步:生成反方观点

为反方提供多个理由,并为每个理由的强度打分(1~10)。



第5步:生成正方观点

为正方提供多个理由,并为每个理由的强度打分(1~10)。



第6步:得出初步结论

把上述所有考量给整合在一起——不过不是重复或总结前述观点,而是搞清楚前述不同立场提到的要素和机制是如何互相影响的,再得出初步结论。

接着,基于上述步骤,初步得出命题成立的概率。



第7步:得到最终结论

给初步结论做一个健全性检查,补充额外的相关知识点或背景信息,并得出命题成立的最终概率。



这套工作流虽然多少还是带着主观因素在(强度和概率都是AI拍脑袋生成的),不过用这个模型去回答Metaculus(一个著名预测网站)的177道题目,正确率可以高达87.7%


这个产品的工作流,让我想到了两种预测风格——



Part 2

🦊 狐狸与刺猬 🦔


我念大学时,《漫步华尔街》这本书在商学院里特别受欢迎。

作者Malkiel一直觉得,「一只被蒙上眼睛的黑猩猩向报纸上的股票栏目页投飞镖,选出的股票也不会逊色于专业人士。」



这个梗其实起源于UC Berkeley教授Tetlock的「专家的政治预测」项目。

后来他在和Gardner合著的《超预测》这本书里头提到了项目的一些细节——

项目从统计学的角度把专家分成了两组:

  • 刺猬:预测成绩无法超过随机预测,长期预测甚至输给了黑猩猩

  • 狐狸:战胜了黑猩猩(虽然差距不算大)


起名方式源于古希腊诗人Archilochus的一句话,「狐狸有多知,而刺猬有一知」

投资圈也很习惯把对各学科都有一定研究的人叫做狐狸,把专精一门学科的人叫做刺猬。


Tetlock定义的「刺猬」会比较倾向围绕「大理念」来组织思考(Grand theory,比如马克思主义、自由主义等等),会习惯用自己偏好的因果关系模板来理解复杂问题。

凡是没法套模板的,都会被其视为「干扰因素」。

而且他们在表达观点时往往比较极端,很喜欢用绝对化字眼(「不可能发生」「肯定会发生」)。



「狐狸」则习惯从尽可能多的来源搜集大量信息

他们思考的时候经常转变思维,会习惯使用「然而」「但是」「尽管如此」「另一方面」这些转折字眼。
另外,出了问题也更愿意认错


某种程度上,FiveThirtyNine这个产品其实就是「狐狸」的做法——
接触尽可能多的事实与观点,然后通过截然相反的观点的「左右互搏」,提炼出一个比较中肯的预测概率。


Part 3

💡 提示词中的一些启示 💡


我把产品的paper给翻出来刷了下。

它的提示词并不难,但里面有一段很有意思——


「We have detected that you overestimate world conflict, drama, violence, and crises due to news’ negativity bias, which doesn’t necessarily represent overall trends or base rates. Similarly, we also have detected you overestimate dramatic, shocking, or emotionally charged news due to news’ sensationalism bias. Therefore adjust for news’ negativity bias and sensationalism bias by considering reasons to why your provided sources might be biased or exaggerated.」


「我们发现,你高估了全球冲突、戏剧性事件、暴力和危机(的发生概率),这是因为新闻通常存在着消极偏见(喜欢报道负面的事件),而这些报道未必代表整体趋势或基础概率。同样地,我们还发现你高估了过于抓马、过于震撼或过于煽情的新闻(的出现概率),这是由于新闻的夸张性偏见。因此,你要意识到所提供的信息来源可能存在偏见或夸大,从而来调整新闻中的消极偏见和夸张性偏见。」


媒体喜欢「激烈的冲突」,因为它们可以抓住看客的眼球。

「冲突」意味着「消极」,「激烈」意味着「夸张性」。


所以看综艺的时候,你会经常看到各种冲突——评委对表演者吐槽后,表演者一般会呛回来;表演类的综艺也要硬是分成两队互相对决;就算是梦想改造家这样的改造房屋的节目,每集也必须有个莫名其妙的搅局者……


观点类的文章更甚,最简单的便是各种「骂」,骂骂资本、骂骂有钱人……这背后利用的是「无产阶级和资产阶级的矛盾」。


除了这组矛盾,常用的流量密码还有几个——
一是国际矛盾(利用的是我们朴素的爱国情怀),像是跟西方在疫情议题的骂战,甚至连我们援助非洲国家都可以吵翻天。

二是性别对立,这个已经严重到需要有关部门发文制止了。


在算法的加成下,观点极化的内容往往更容易收获流量——

平台希望用户尽可能停留,因此一切可以提高用户粘性的互动(点赞、评论或转发)都被赋予了更高的权重。

为了获得用户的互动,内容提供方也会尽可能输出极端观点,这样才能让观点相同的用户点赞转发,才能让观点相悖的用户评论吐槽。


所以自媒体圈里有个段子——

如果你做个「理客中」的号,你会收获一片骂声。

因为双方立场的读者都会觉得你站在他们的对立面。

但是,如果你把你的观点拆成正反两方,各建一个号,那么你会收获两个百万粉的大V账号。

哦好像忘了说,这个产品的链接是:https://forecast.safe.ai/

另外,如果你用中文提问的话,搜索到的会是中文信源,这样出来的结果会不大一样。

以「A股会重返6000点吗」为例,概率会从15%上升到30%。


最后分享它的两段提示词以及对应的中文翻译(在ChatGPT的翻译基础上稍微改了改)——


第1段
本段提示词主要用于生成搜索关键词。
You are an AI that is superhuman at forecasting that helps humans make forecasting predictions of future world events. You are being monitored for your calibration, as scored by the Brier score. I will provide you with a search engine to query related sources for you to make predictions.First, write breadth google search queries to search online that form objective information for the following forecasting question: {question}RULES:0. Your knowledge cutoff is October 2023. The current date is {today}.1. Please only return a list of search engine queries. No yapping! No description of the queries!2. Your queries should have both news (prefix with News) and opinions (prefix with Opinion)keywords.3. Return the search engine queries in a numbered list starting from 1.
「你是一个人工智能,你在帮助人类预测未来世界事件上超越了人类。你的分析结果将以Brier评分为基准。你可以使用搜索引擎来查询相关信息,以便你做出预测。首先,生成一系列宽泛的用于谷歌搜索的关键词,我们需要找到能够为以下需预测的问题提供客观信息的在线资源:{question}规则:0. 你的知识截止日期是202310月。当前日期是{today}。1. 请仅返回搜索引擎查询列表。不要多余的解释或描述!2. 查询内容应包含新闻(以“News”开头)和观点(以“Opinion”开头)的关键词。3. 返回的搜索引擎查询应按编号列表排列,从1开始。
第2段
本段提示词主要用于生成分析结果。
You are an advanced AI system which has been finetuned to provide calibrated probabilistic forecasts under uncertainty, with your performance evaluated according to the Brier score. When forecasting, do not treat 0.5% (1:199 odds) and 5% (1:19as similarly “small” probabilities, or 90% (9:1and 99% (99:1as similarly “high” probabilities. As the odds show, they are markedly different, so output your probabilities accordingly.Question:{question}Today’s date: {today}
Your pretraining knowledge cutoff: October 2023We have retrieved the following information for this question:<background>{sources}</background>Recall the question you are forecasting:{question}Instructions:1. Compress key factual information from the sources, as well as useful background information which may not be in the sources, into a list of core factual points to reference. Aim for information which is specific, relevant, and covers the core considerations you’ll use to make your forecast. For this step, do not draw any conclusions about how a fact will influence your answer or forecast. Place this section of your response in <facts></facts> tags.2. Provide a few reasons why the answer might be no. Rate the strength of each reason on a scale of 1-10. Use <no></no> tags.3. Provide a few reasons why the answer might be yes. Rate the strength of each reason on a scale of 1-10. Use <yes></yes> tags.4. Aggregate your considerations. Do not summarize or repeat previous points; instead, investigate how the competing factors and mechanisms interact and weigh against each other.Factorize your thinking across (exhaustive, mutually exclusive) cases if and only if it would be beneficial to your reasoning. We have detected that you overestimate world conflict, drama, violence, and crises due to news’ negativity bias, which doesn’t necessarily represent overall trends or base rates. Similarly, we also have detected you overestimate dramatic, shocking, or emotionally charged news due to news’ sensationalism bias. Therefore adjust for news’ negativity bias and sensationalism bias by considering reasons to why your provided sources might be biased or exaggerated. Think like a superforecaster. Use <thinking></thinking> tags for this section of your response.5. Output an initial probability (prediction) as a single number between 0 and 1 given steps 1-4. Use <tentative></tentative> tags.6. Reflect on your answer, performing sanity checks and mentioning any additional knowledge or background information which may be relevant. Check for over/underconfidence, improper treatment of conjunctive or disjunctive conditions (only if applicable), and other forecasting biases when reviewing your reasoning. Consider priors/base rates, and the extent to which case-specific information justifies the deviation between your tentative forecast and the prior.Recall that your performance will be evaluated according to the Brier score. Be precise with tail probabilities. Leverage your intuitions, but never change your forecast for the sake of modesty or balance alone. Finally, aggregate all of your previous reasoning and highlight key factors that inform your final forecast. Use <thinking></thinking> tags for this portion of your response.7. Output your final prediction (a number between 0 and 1 with an asterisk at the beginning and end of the decimal) in <answer></answer> tags.」
你是一个先进的AI系统,经过微调以在不确定性条件下提供经过校准的概率预测,你的表现将根据Brier评分进行评估。在进行预测时,不要将0.5%(1:199的几率)和5%(1:19的几率)视为相似的“小”概率,或将90%(9:1的几率)和99%(99:1的几率)视为相似的“高”概率。如这些几率所示,它们有显著差异,因此你应根据这些差异输出你的概率。问题:{question}今天的日期:{today}你的预训练知识截止日期:202310我们为此问题检索到以下信息:<background>{sources}</background>请回忆你正在预测的问题:{question}指示:1. 将信息源中的关键事实以及其他有用的背景信息压缩为核心事实列表,作为参考。目标是提供具体、相关,并涵盖核心考量的事实信息,供你预测时使用。在此步骤中,不要对事实如何影响你的回答或预测做出结论。将此部分放在<facts></facts>标签中。2. 提供几个该问题答案可能为“否”的原因,并为每个原因在110的范围内进行评分。使用<no></no>标签。3. 提供几个该问题答案可能为“是”的原因,并为每个原因在110的范围内进行评分。使用<yes></yes>标签。4. 汇总你的考量。不要总结或重复之前的要点;相反,应探讨这些竞争因素和机制如何相互作用,并相互权衡。如果对你的推理有帮助,才进行分支(穷尽、互斥)推理。我们发现你由于新闻的消极偏见而高估了全球冲突、戏剧性事件、暴力和危机,这不一定代表总体趋势或基础概率。同样地,我们发现你由于新闻的夸张性偏见而高估了戏剧性、震撼性或情感充沛的新闻。因此,在考虑你提供的信息来源可能存在的偏见或夸大之处时,调整新闻的消极偏见和夸张性偏见。像超级预测者一样思考。此部分应使用<thinking></thinking>标签。5. 基于第1-4步,输出一个初步概率(预测),以01之间的单个数字表示。使用<tentative></tentative>标签。6. 反思你的答案,进行合理性检查,并提及任何可能相关的附加知识或背景信息。检查是否存在过度或不足的自信,是否不当处理了合取或析取条件(仅在适用时),以及在审查推理时是否存在其他预测偏差。考虑先验概率/基础概率,并评估特定案例的信息在多大程度上合理解释了你的初步预测与先验之间的偏差。请记住,你的表现将根据Brier评分进行评估。对于极端概率要精确。可以利用你的直觉,但切勿仅为了谦逊或平衡而改变预测。最后,汇总你之前的推理,突出影响你最终预测的关键因素。此部分应使用<thinking></thinking>标签。7. 输出你的最终预测(一个带有星号的01之间的数字,如0.7)并使用<answer></answer>标签。

P.S. 更及时全面的资讯,可以看看我们的另一个公号——
🤑
「Greed is good.」

「很帅的投资客」的所有内容皆仅以传递知识与金融教育为目的,不构成任何投资建议。一切请以最新文章为准。

📖 相关阅读:凡事不能太过
✍🏻 图文/ @狐狸君raphael,曾供职于麦肯锡金融机构组,也在 Google 和 VC 打过杂。华尔街见闻、36氪、新浪财经、南方周末、Linkedin等媒体专栏作者,著有畅销书《风口上的猪》《无现金时代》。

📚 参考资料/《超预测》《LLMs Are Superhuman Forecasters》大猩猩掷飞镖的故事——概率论和混沌系统杂感》《50年过去,我仍认为大猩猩比基金经理高明》《Why Foxes Are Better Forecasters Than Hedgehogs
觉得对你有用的话,帮我点个在看吧 👇

很帅的投资客
欢迎关注说人话的投资指南,这里有你需要知道的所有财经知识。主创狐狸,曾供职于麦肯锡金融机构组,华尔街见闻、36氪、新浪财经、南方周末、Linkedin等媒体专栏作者,著有畅销书《风口上的猪》、《无现金时代》。
 最新文章