Merge pull request #15 from davidhou17/DOCSP-48847

davidhou17 · web-flow · commit bb68147ad506 · 2025-04-07T13:03:43.000-05:00
(DOCSP-48847): Use from_connection_string and make notebook more modular
diff --git a/ai-integrations/langchain.ipynb b/ai-integrations/langchain.ipynb
@@ -11,7 +11,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "This notebook is a companion to the [LangChain Get Started](https://www.mongodb.com/docs/atlas/atlas-vector-search/ai-integrations/langchain/get-started/) page. Refer to the page for set-up instructions and detailed explanations.\n",
+    "This notebook is a companion to the [LangChain Get Started](https://www.mongodb.com/docs/atlas/atlas-vector-search/ai-integrations/langchain/get-started/) tutorial. Refer to the page for set-up instructions and detailed explanations.\n",
     "\n",
     "<a target=\"_blank\" href=\"https://colab.research.google.com/github/mongodb/docs-notebooks/blob/main/ai-integrations/langchain.ipynb\">\n",
     "  <img src=\"https://colab.research.google.com/assets/colab-badge.svg\" alt=\"Open In Colab\"/>\n",
@@ -37,23 +37,8 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "import os, pprint\n",
-    "from langchain_community.document_loaders import PyPDFLoader\n",
-    "from langchain_core.output_parsers import StrOutputParser\n",
-    "from langchain_core.runnables import RunnablePassthrough\n",
-    "from langchain_mongodb import MongoDBAtlasVectorSearch\n",
-    "from langchain_openai import ChatOpenAI, OpenAIEmbeddings\n",
-    "from langchain.prompts import PromptTemplate\n",
-    "from langchain.text_splitter import RecursiveCharacterTextSplitter\n",
-    "from pymongo import MongoClient"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
+    "import os\n",
+    "\n",
     "os.environ[\"OPENAI_API_KEY\"] = \"<api-key>\"\n",
     "ATLAS_CONNECTION_STRING = \"<connection-string>\""
    ]
@@ -64,24 +49,11 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "# Connect to your Atlas cluster\n",
-    "client = MongoClient(ATLAS_CONNECTION_STRING)\n",
-    "\n",
-    "# Define collection and index name\n",
-    "db_name = \"langchain_db\"\n",
-    "collection_name = \"test\"\n",
-    "atlas_collection = client[db_name][collection_name]\n",
-    "vector_search_index = \"vector_index\""
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
+    "from langchain_community.document_loaders import PyPDFLoader\n",
+    "from langchain.text_splitter import RecursiveCharacterTextSplitter\n",
+    "\n",
     "# Load the PDF\n",
-    "loader = PyPDFLoader(\"https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RE4HkJP\")\n",
+    "loader = PyPDFLoader(\"https://investors.mongodb.com/node/13176/pdf\")\n",
     "data = loader.load()\n",
     "\n",
     "# Split PDF into documents\n",
@@ -98,13 +70,19 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "# Create the vector store\n",
-    "vector_store = MongoDBAtlasVectorSearch.from_documents(\n",
-    "    documents = docs,\n",
-    "    embedding = OpenAIEmbeddings(disallowed_special=()),\n",
-    "    collection = atlas_collection,\n",
-    "    index_name = vector_search_index\n",
-    ")"
+    "from langchain_mongodb import MongoDBAtlasVectorSearch\n",
+    "from langchain_openai import OpenAIEmbeddings\n",
+    "\n",
+    "# Instantiate the vector store using your MongoDB connection string\n",
+    "vector_store = MongoDBAtlasVectorSearch.from_connection_string(\n",
+    "  connection_string = ATLAS_CONNECTION_STRING,\n",
+    "  namespace = \"langchain_db.test\",\n",
+    "  embedding =  OpenAIEmbeddings(model=\"text-embedding-3-large\"),\n",
+    "  index_name = \"vector_index\"\n",
+    ")\n",
+    "\n",
+    "# Add documents to the vector store\n",
+    "vector_store.add_documents(documents=docs)"
    ]
   },
   {
@@ -113,11 +91,16 @@
    "metadata": {},
    "outputs": [],
    "source": [
+    "import time\n",
+    "\n",
     "# Use helper method to create the vector search index\n",
     "vector_store.create_vector_search_index(\n",
-    "   dimensions = 1536, # The dimensions of the vector embeddings to be indexed\n",
-    "   filters = [ \"page\" ]\n",
-    ")"
+    "   dimensions = 3072, # The dimensions of the vector embeddings to be indexed\n",
+    "   filters = [ \"page_label\" ]\n",
+    ")\n",
+    "\n",
+    "# Wait for the index to build (this can take around a minute)\n",
+    "time.sleep(60)"
    ]
   },
   {
@@ -133,7 +116,9 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "query = \"MongoDB Atlas security\"\n",
+    "import pprint\n",
+    "\n",
+    "query = \"MongoDB acquisition\"\n",
     "results = vector_store.similarity_search(query)\n",
     "\n",
     "pprint.pprint(results)"
@@ -152,7 +137,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "query = \"MongoDB Atlas security\"\n",
+    "query = \"MongoDB acquisition\"\n",
     "results = vector_store.similarity_search_with_score(\n",
     "   query = query, k = 3\n",
     ")\n",
@@ -173,12 +158,12 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "query = \"MongoDB Atlas security\"\n",
+    "query = \"MongoDB acquisition\"\n",
     "\n",
     "results = vector_store.similarity_search_with_score(\n",
     "   query = query,\n",
     "   k = 3,\n",
-    "   pre_filter = { \"page\": { \"$eq\": 17 } }\n",
+    "   pre_filter = { \"page_label\": { \"$eq\": 2 } }\n",
     ")\n",
     "\n",
     "pprint.pprint(results)"
@@ -197,6 +182,11 @@
    "metadata": {},
    "outputs": [],
    "source": [
+    "from langchain_core.output_parsers import StrOutputParser\n",
+    "from langchain_core.runnables import RunnablePassthrough\n",
+    "from langchain_openai import ChatOpenAI\n",
+    "from langchain.prompts import PromptTemplate\n",
+    "\n",
     "# Instantiate Atlas Vector Search as a retriever\n",
     "retriever = vector_store.as_retriever(\n",
     "   search_type = \"similarity\",\n",
@@ -215,7 +205,7 @@
     "\"\"\"\n",
     "custom_rag_prompt = PromptTemplate.from_template(template)\n",
     "\n",
-    "llm = ChatOpenAI()\n",
+    "llm = ChatOpenAI(model=\"gpt-4o\")\n",
     "\n",
     "def format_docs(docs):\n",
     "   return \"\\n\\n\".join(doc.page_content for doc in docs)\n",
@@ -229,7 +219,7 @@
     ")\n",
     "\n",
     "# Prompt the chain\n",
-    "question = \"How can I secure my MongoDB Atlas cluster?\"\n",
+    "question = \"What was MongoDB's latest acquisition?\"\n",
     "answer = rag_chain.invoke(question)\n",
     "\n",
     "print(\"Question: \" + question)\n",
@@ -260,7 +250,7 @@
     "   search_kwargs = {\n",
     "      \"k\": 10,\n",
     "      \"score_threshold\": 0.75,\n",
-    "      \"pre_filter\": { \"page\": { \"$eq\": 17 } }\n",
+    "      \"pre_filter\": { \"page_label\": { \"$eq\": 2 } }\n",
     "   }\n",
     ")\n",
     "\n",
@@ -276,7 +266,7 @@
     "\"\"\"\n",
     "custom_rag_prompt = PromptTemplate.from_template(template)\n",
     "\n",
-    "llm = ChatOpenAI()\n",
+    "llm = ChatOpenAI(model=\"gpt-4o\")\n",
     "\n",
     "def format_docs(docs):\n",
     "   return \"\\n\\n\".join(doc.page_content for doc in docs)\n",
@@ -290,7 +280,7 @@
     ")\n",
     "\n",
     "# Prompt the chain\n",
-    "question = \"How can I secure my MongoDB Atlas cluster?\"\n",
+    "question = \"What was MongoDB's latest acquisition?\"\n",
     "answer = rag_chain.invoke(question)\n",
     "\n",
     "print(\"Question: \" + question)\n",
diff --git a/ai-integrations/langgraph.ipynb b/ai-integrations/langgraph.ipynb
@@ -78,16 +78,13 @@
    "source": [
     "from langchain_mongodb import MongoDBAtlasVectorSearch\n",
     "from langchain_openai import OpenAIEmbeddings\n",
-    "from pymongo import MongoClient\n",
     "\n",
-    "# Connect to your Atlas cluster\n",
-    "client = MongoClient(MONGODB_URI)\n",
-    "collection = client[\"sample_mflix\"][\"embedded_movies\"]\n",
     "embedding_model = OpenAIEmbeddings(model=\"text-embedding-ada-002\", disallowed_special=())\n",
     "\n",
     "# Instantiate the vector store\n",
-    "vector_store = MongoDBAtlasVectorSearch(\n",
-    "   collection = collection,\n",
+    "vector_store = MongoDBAtlasVectorSearch.from_connection_string(\n",
+    "   connection_string = MONGODB_URI,\n",
+    "   namespace = \"sample_mflix.embedded_movies\",\n",
     "   embedding = embedding_model,\n",
     "   text_key = \"plot\",\n",
     "   embedding_key = \"plot_embedding\",\n",
@@ -114,11 +111,15 @@
    "outputs": [],
    "source": [
     "from langchain_mongodb.index import create_fulltext_search_index\n",
+    "from pymongo import MongoClient\n",
     "import time\n",
     "\n",
+    "# Connect to your cluster\n",
+    "client = MongoClient(MONGODB_URI)\n",
+    "\n",
     "# Use helper method to create the search index\n",
-    "create_fulltext_search_index(\n",
-    "   collection = collection,\n",
+    "create_fulltext_search_index( \n",
+    "   collection = client[\"sample_mflix\"][\"embedded_movies\"],\n",
     "   field = \"title\",\n",
     "   index_name = \"search_index\"\n",
     ")\n",